Please enable JavaScript.
Coggle requires JavaScript to display documents.
Lec 5, Summary, Data Integration and Metadata(数据整合与元数据) - Coggle Diagram
Lec 5
Summary
ETL流程
数据提取类型
数据转换任务
数据整合问题
元数据定义与作用
元数据示例
工具与平台
Data Integration and Metadata(数据整合与元数据)
ETL:Extract, Transform, Load(提取-转换-加载)
从事务系统迁移数据至分析系统(Data Warehouse)
实现“Single Version of Truth”(统一可信数据源)
把门店销售系统中的订单数据提取,转换成每日汇总销售额,再加载进Power BI进行分析。
提高数据质量:一致性、准确性、完整性
ETL 三大阶段(流程)
提取 Extract
确定数据来源(source systems)
静态 vs 动态提取:是否实时(real-time)
转换 Transform
格式转换、单位转换、字段合并/拆分
处理缺失值、标准化值、移除重复数据
加载 Load
初始加载(Initial Load)、增量加载(Incremental)、全量刷新(Full Refresh)
加载策略:Append、Overwrite、Merge(构造式/破坏式)
Data Transformation(数据转换任务)
选择 Selection 从原系统选择记录
只选活跃用户
合并/拆分 Merge/Split 字段组合或拆分
拆分地址为街道、邮编
格式修订 Format 转换日期、字符集等
“11/12/2022”变为“2022-12-11”
衍生计算 Derived 新计算字段
总价 = 数量 * 单价
清洗 Cleaning 修正缩写、去重
M → Male,1 → Active
标准化 Normalise 单位统一
inch → cm, AUD → USD
数据整合的挑战(Integration Challenges)
实体识别问题(Entity Identification)
多系统中同一个客户用不同ID表示,需人工或算法比对合并
多源数据冲突(Multiple Source Conflicts)
同一字段多个版本,如“产品成本”来自ERP和CRM,需判定权威来源
业务规则变化(Rule Drift)
不同系统对“活跃用户”的定义不一致
元数据(Metadata)
名称 客户ID = 唯一标识客户
来源 数据来自CRM系统
更新时间 每周一早上4点
数据质量 最后清洗日期:2023/10/01
说明 包括现有、潜在与历史客户
元数据分类
业务元数据 给用户看的,包含业务术语、汇总、报告维度等
技术元数据 给开发者/管理员看的,包含字段定义、转换规则、日志路径
操作元数据 包含数据加载频率、刷新时间、数据变动日志等
ETL 工具与平台
数据转换引擎 全流程ETL Informatica, Talend
数据复制工具 基于日志捕捉 Oracle Data Integrator
代码生成工具 自动生成脚本 SQL Server SSIS
Microsoft SSIS
提供可视化设计ETL流程
支持多种数据源和转换方式
实际作业中将用于实验与Assignment开发