Please enable JavaScript.
Coggle requires JavaScript to display documents.
大數據 (Apache Spark (Spark的核心技術是RDD (RDD的設計概念由來Resilient Distribute Datasets…
大數據
-
-
-
-
現在普遍認為整個Apache Hadoop「平台」包括Hadoop內核、MapReduce、Hadoop分布式檔案系統(HDFS)以及一些相關項目,有Apache Hive和Apache HBase等等。
-
-
大數據分析(Big Data Analysis)
-
-
Web Mining
-
所謂的網頁探勘(Web mining),主要就是利用文字或資料探勘(text/data mining)的技術,針對網頁的特性,自動從網頁上擷取、發掘出一些特徵與規律(pattern),並希望能應用在各個領域。
-
網頁則是一種半結構化資料(semi-structured data),與一般data/text mining不同 # #
網頁雖有其特殊的連結(link)結構,可以從中取得一些資訊,如網頁間的關連(association),但是每個網頁本身的內容並沒有限定其呈現方式,它類似文字文件,卻又包含各式多媒體資料,因此可能會比一般的文件或資料庫更難以擷取出有用的資訊。
-
Spark 與 Hadoop Map Reduce 比較
# #
-
-
-
-
-