Please enable JavaScript.
Coggle requires JavaScript to display documents.
Data WH & Lake - Coggle Diagram
Data WH & Lake
Data Lake主要有四點特性
-
-
-
-
儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。
-
-
差異點
-
資料湖泊則不會預先定義蒐集資料的用途,原始資料直接進入資料湖泊,因此還需花較長時間清理、運算、探索等流程,才能提供商業洞察;但也因為這樣的特性,資料湖泊的應用情境相對廣泛彈性,除了分析報表應用之外,原始資料也更容易被用於 AI 與機器學習。
資料倉儲是企業為了特定分析目標而設計;設計架構前會先與企業溝通,經 ETL 後的資料可快速查詢使用,常應用在 BI、視覺化、營運分析等;因為資料已按業務邏輯整理好,它也能提供資料科學家分析前的一些基本探勘,作為了解業務營運的入口。
Hadoop
是一個叢集系統(cluster system),也就是由單一伺服器擴充到數以千計的機器,整合應用起來像是一台超級電腦。而資料存放在這個叢集中的方式則是採用 HDFS 分散式檔案系統(Hadoop Distributed File System)
透過 HDFS,Hadoop 能夠儲存上看 TB(Tera Bytes)甚至 PB(Peta Bytes)等級的巨量資料,也不用擔心單一檔案的大小超過一個磁碟區的大小,而且也不用擔心某個機器損壞導致資料遺失
-
Data Lake風險
-
尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題
不是產品而是概念
-
當資料倉儲的儲存成本模型不適合某些大規模的資料輸入情境時,資料湖泊就可以派上用場。此外,資料湖泊不需要使用者在取得資料前事先建立好資料結構 (schema),它可以最簡單的方式輸入資料,並在讀取資料時才建立及套用資料結構。