Please enable JavaScript.
Coggle requires JavaScript to display documents.
Hadoop架构 (Hadoop项目结构 (HDFS(分布式处理系统), MapReduce基于磁盘 Spark在内存中执行,…
Hadoop架构
Hadoop项目结构
HDFS(分布式处理系统)
MapReduce基于磁盘 Spark在内存中执行
数据仓库专门用于企业决策分析,Hive属于Hadoop平台上的数据仓库,用于批量数据处理。使用SQL语句,建立于MapReduce基础之上,将SQL语句转化为MapReduce作业后执行
Pig用于流数据处理 ,轻量级脚本语言,能简化MapReduce大量代码操作
Ambari 协助部署整套Hadoop平台
数据分析
离线分析
MapReduce:对批量数据进行离线分析
数据仓库 Hive,Pig
实时查询
Hbase:面向链的存储
Apache版本的Hadoop分为Hadoop1.0和Hadoop2.0
Hadoop1.0
HDFS
MapReduce(数据处理,群资源管理)
Hadoop2.0
MapReduce(数据处理)
YARN(群资源管理)
HDFS
能够对大量数据进行海量处理
具有可靠性、高效性、可扩展性、低成本等特性,运行在linux平台上
Hadoop是Aache旗下一个开源分布式计算平台,为用户提供了底层细节透明的分布式基础架构
Hadoop对企业最常用的应用:数据分析,数据实时查询,数据挖掘
使用HDFS分布式文件存储满足企业大规模存储数据的需求