Please enable JavaScript.
Coggle requires JavaScript to display documents.
数据仓库 (增量数据CDC获取方案 (审计列 (通过trigger产生, 影响生产系统的性能, 通过应用产生,审计数据可能不完整), 消息队列监控…
数据仓库
增量数据CDC获取方案
根据时间戳, 定时获取, 极度不推荐
根据数据库日志
快照, 全差异比较
审计列
通过trigger产生, 影响生产系统的性能
通过应用产生,审计数据可能不完整
消息队列监控
优点:开销低
缺点:没有回放功能,如果与消息队列的连接断裂,可能会有数据丢失
数据仓库构建五步法
确定主题(业务过程选定)
确定量度
确定事实粒度
确定纬度
维度代理健,不是自然键,但是唯一键
下钻,只需要group by加个字段
退化维度指除了自然键没有其他值,直接放在事实表中
多层次维度如日期
维度表中的空值属性,不要用null
角色维度,一般是视图
确定事实
元数据
描述数据仓库中有哪些数据
定义要进入数据仓库的数据和数据仓库要产出的数据
记录根据业务事件发生而随之进行的数据抽取工作时间安排
记录并检测系统数据一致性的要求和执行情况
衡量数据质量
缓慢变化维度
直接覆盖旧的记录
添加字段加以区分
另外建表,存放历史纪录
混合模式
拉链表
新加两列,数据有效开始日期,数据有效结束日期
模型设计的方法有哪几种
每种方法的特点
模型设计的步骤
模型设计的思路
维度建模, kimball建模, 星型模型
星星的中心是一个大的事实表,发散出来的是维度表,每一个维度表用一个PK-FK连接到事实表,维度表之间彼此并不关联。一个事实表又包括一些度量值和维度
三范式建模, 雪花模型
维度表数据已经被分组成一个个的表而不是使用一个大表
业务需求驱动
非规范化,kimball星型模型
数据驱动
规范化,三范式
概念
数据集市
部门级数据仓库
OLAP
ROLAP:关系OLAP
MOLAP: 多维OLAP
HOLAP: 混合OLAP
事实表
维度表
退化维
退化维只是事实表中的一列
没有纬度表与之关联
退化维具有跟普通维一样的操作方案
如果存在退化维,ETL将会变得更简单
模型设计的三阶段
概念模型设计
2.确定主题域及内容
1.主题域的公共码健
2.主题域之间的联系
3.充分代表主题的属性组
界定系统边界
2.决策者感兴趣的内容
3.这些内容需要哪些信息
4.需要包含原数据库中的哪些数据
1.要做的决策类型有哪些
2.逻辑模型设计
分析主题与,确定有那些主题
确定粒度层次划分
通过估算行数及DASD数,设计合适的粒度
确定数据分割策略
关系模型定义
3NF
星型模型,kimball建模
记录系统定义
定义合适的数据来源
3.物理模型设计
确定数据的存储结构
确定索引策略
确定数据存放位置
确定存储分配
索引类型及特点
创建索引注意事项
在一个很大的表上建索引有哪些注意事项
数据仓库注意点
数据质量
数据源质量分析
数据清洗转换
定量分析
数据质量、运行效率和扩展性
是衡量数据仓库成功与否的关键点
:question:Cube刷新方案
增量刷新方案
报表数据权限控制方案
powerbi 可以根据role来控制
ODS
Operational Data Store
临时存储数据,
一般时间不会超过一个月
:question:表中重复数据的处理
:question:分区有哪几种,分区的目的
:question:cube
DDS 决策支持系统
粒度
是指数据仓库的数据单位中保存数据的细化或综合程度的级别,细化程度越高,粒度就越小
钻取
从汇总数据出发, 查看各个组成数据
:!?:什么叫查找表,为什么使用替代键