Please enable JavaScript.
Coggle requires JavaScript to display documents.
Hadoop與SQL的差異 - Coggle Diagram
Hadoop與SQL的差異
Hadoop大數據生態系統重要的2個框架
Apache Hive & Impala
Hive
開源的數據倉庫框架,Hadoop構建。
使用SQL語法讀取Hadoop數據,分析保存在分佈式存儲中HDFS或者HBase數據庫中的大型數據集。
用途非常廣泛,因爲它支持分析存儲在Hadoop的HDFS和其他兼容文件系統中的大量數據集
使用類似SQL的語言,稱爲Hive QL(查詢語言)
Hive使開發者能夠避免接觸底層機制,如(如Java)中的有向非循環圖(DAG)或MapReduce程序編寫Tez作業,降低複雜性。
功能特性
支持RDBMS中的元數據存儲
支持SQL之類的查詢。 雖然我們可以隱式轉換爲MapReduce,Tez或Spark作業
支持多種類型的存儲。 如純文本,RCFIle,HBase,ORC
操縱字符串,日期內置用戶定義函數(UDF)
提供索引加速分析處理
Impala
Cloudera公司開發的全新的開源大數據分析引擎MPP,它提供類SQL語法,能處理存儲在Hadoop的HDFS和HBase中大數據。
提高了Apache Hadoop上SQL查詢性能,節約了大數據分析的時間,同時保留了熟悉的SQL語法用戶體驗
可以實時查詢存儲在HDFS和Apache HBase的數據 - 支持包括SELECT,JOIN和聚合函數。
功能特性
支持Kerberos身份驗證
支持Apache Sentry,提供基於角色的授權。
識別Hadoop文件格式,如文本,LZO,Avro,RCFile,Parquet
支持Hadoop分佈式文件系統(HDFS)和Apache HBase