Please enable JavaScript.
Coggle requires JavaScript to display documents.
Lec 10, Big Data Management(大数据管理), Summary - Coggle Diagram
Lec 10
Big Data Management(大数据管理)
大数据
Volume 数据量大 NASA、Google日数据量
Variety 数据多样 文本、图像、音频、传感器数据等
Velocity 生成速度快 实时日志、IoT设备
Veracity 准确性与可信度 来自不同系统的数据是否可靠
Variability 数据波动性 社交媒体情绪变化剧烈
Value 数据是否有用 数据能否转化为商业价值
大数据分析(Big Data Analytics)
将多来源的复杂数据整合、处理并转化为决策支持信息。
Starbucks使用社交媒体数据来测试新品定价,发现“口味没问题,但价格太高”,于是下午降价。
ETL 到 ELT(数据管道演化)
ETL
Extract → Transform → Load
结构化为主
数据仓库(DW)
灵活性较低
ELT
Extract → Load → Transform
可处理半结构/非结构数据
数据湖(Data Lake)
灵活性较高,支持Schema-on-read
数据湖 vs 数据仓库
数据仓库
结构化
模式 Schema-on-write
BI分析师
灵活性中等
存储成本高
ETL+SQL
数据湖
半结构/非结构
模式 Schema-on-read
数据科学家
灵活性高,支持多格式数据
存储成本较低,基于对象存储
ELT+分布式存储
Hadoop 和 HDFS(Hadoop Distributed File System)
Hadoop 特点
开源分布式框架,处理大规模非结构化数据
使用低成本 Commodity Hardware(商用硬件)
包括两个核心组件:HDFS + MapReduce
HDFS 组件
NameNode(主节点) 管理元数据,调度任务,需高性能硬件
DataNode(从节点) 实际数据存储与处理,可部署在普通硬件上
优点
成本低(无需昂贵硬件)
容错能力强(自动恢复)
高吞吐(适合批处理)
支持多操作系统(跨平台)
MapReduce 工作原理
两步流程
Map:每个节点对分片数据执行分组、标注等操作(并行)
Reduce:将结果汇总整合(合并、求和等)
例子:统计每种颜色方块的数量
Map:每节点标记颜色 →
Reduce:聚合统计每种颜色的总数
NoSQL 数据库概述
为什么 NoSQL?
关系型数据库在处理大数据、分布式扩展、灵活性上存在不足
特点
不使用 SQL 或关系模型
分布式架构,适用于大数据与Web应用
Schema-less(无固定表结构)
支持多种数据格式(JSON、图形、列族等)
最终一致性(Eventual Consistency)
NoSQL 类型对比
Key-Value 键值型 类似字典结构 Redis, DynamoDB
Document 文档型 存储JSON等结构化文档,可查询内容 MongoDB, CouchDB
Column 列族型 类似数据库,但按列存储,适合分析 Cassandra, HBase
Graph 图数据库 节点 + 边,适用于关系型查询 Neo4J, FlockDB
CAP 原理(CAP Theorem)
Consistency 一致性 所有副本看到数据一致
Availability 可用性 系统始终能响应请求
Partition Tolerance 分区容忍性 即使出现网络分区仍可工作
应用示例
HBase:CP 系统,booking system
Cassandra:AP 系统,social media platform
Summary
Big Data 定义
6Vs 特征
Hadoop/HDFS
NameNode vs DataNode, 架构原理
MapReduce 流程
Map + Reduce 阶段含义与应用
ETL vs ELT
区别与适用场景
数据湖 vs 数据仓库
特点对比
NoSQL 类型
KV/文档/列/图数据库
CAP 定理
三性解释与取舍