Please enable JavaScript.
Coggle requires JavaScript to display documents.
ETL设计 (设计阶段:需求考虑 (数据质量 (定义数据质量文化的高级别的承诺, 执行层面发起过程再造, 改进数据录入环境, 改进应用集成,…
ETL设计
设计阶段:需求考虑
业务需求
:black_flag:合法性
归档数据副本
提供副本安全性证明
列出归档的预期使用周期
数据质量
定义数据质量文化的高级别的承诺
执行层面发起过程再造
改进数据录入环境
改进应用集成
大力褒奖卓越的数据质量
不断改进数据质量
:black_flag:安全性
数据集成
一致性维度
总线矩阵的列
数据延迟
低延迟需求
流计算
归档与世袭
暂存ODS数据最好写入磁盘
保留数据源与归档中间数据步骤
保留政策,安全,合规性和隐私方面的约束
BI发布接口
列出BI工具将用到的维度表和事实表
列出BI工具将用到的多维数据结构
列出为BI应用所建立的索引和聚集
可用的技能
:black_flag:传统的许可证书
34个子系统
获取
1: 数据分析系统
2:CDC变化数据获取系统
3:获取系统
古老的系统源一般需要
维护人员帮忙转换为文本文件
对于大量的无结构数据,
建议直接用map reduce转换加载
长距离的通过公共网络大量数据传输
加密前压缩,加密后的文件压缩效果不好
通过公共网络传输的数据需要加密
清洗及转换
数据清洗系统
质量屏幕
每个屏幕就是一个测试
ETL的核心就是质量屏幕的集合
对质量事件的响应
将错误记录发送到搁置文件
终止处理过程
:<3:对数据进行标注放到 下一个流水线中(推荐)
5:错误事件模式
由错误事实,维度组成的维度模式
:question:6:审计维度装配器
7:重复数据删除系统
8:一致性系统
维护一致性维度
维护一致性事实
发布
9:缓慢变化维度管理器
重写
2.增加新行
3.增加新列
4.增加微型维度
10.代理建产生器
由DBMS来生成代理建
ETL工具建立并维护代理健
11.层次管理器
12.特定维度管理器
日期维度
杂项维度
微型维度
用户维护的维度
13.事实表加载器
事务事实表
周期快照事实表
累积快照事实表
代理建流水线
事实表中,用代理健替换自然建
15:多值维度桥接表建立器
迟到数据处理器
维度管理器系统
事实提供者系统
19.聚集建立器
OLAP多维数据库建立器
21.数据传播管理器
管理
21.任务调度器
22.备份系统
23.恢复与重启系统
24.版本控制系统
25.版本迁移系统
26.工作流监视器
28.排序系统
29.世袭及依赖分析器
元数据存储库管理器
过程元数据
技术元数据
业务元数据
最难点:需求综合