Please enable JavaScript.
Coggle requires JavaScript to display documents.
Data Flow - Coggle Diagram
Data Flow
Batch Data Processing
beginners guide
-
-
-
Cloud와 Batach processing
data를 이동하여 분산시스템을 적용하고, data warehouse와 data lakes를 장소에 상관없이 구축할 수 있게 됬다
-
MapReduce & Hadoop
Hadoop의 4 main module
Hadoop MapReduce
-
-
Tutorial
MapReduce 구조
phases
splitting
Input을 일정한 크기로 나누는 작업
- 1 more item...
-
-
-
MapReduce의 작업 구성방법
types of tasks
Reduce tasks(shuffling, reducing)
-
-
Hadoop MapReduce의 방식
Job은 여러 개의 tasks로 나뉘고, cluster내 여러 data nodes에서 실행
-
-
-
-
-
-
Hadoop ecosystem
Spark
Hadoop 과 Spark 비교
-
-
-
-
-
-
hadoop 과 spark 소개
Spark 란
2012년 시작된 data 분산처리 시스템
Hadoop과의 차이는 in-memory
RDD, Mesos, Spark SQL, MLLib, GraphX, hoc queries
Hadoop 이란
2006년 시작한 다용도 분산 처리 시스템
HDFS, YARN, MapReduce, Sqoop, Mahout
구조(Architecture)
Spark
Hadoop과 유사하나, 대부분의 작업을 in memory에서 처리하고 저장
-
-
-
Presto
open source, 분산처리되는 SQL query engine
적은 latency, ad-hoc analysis 에 최적화
-
-
-
HBase
HDFS 와 amazon S3에서 가동하는 open source, non-relational, versioned database
-
random, strictly consistent, real-time access for tables with billions of rows and millions of columns
-
AWS에서 Hadoop 가동
Amazon EMR
Apache Hadoop, Spark, HBase, Presto를 사용하여 bigdata분석이 가능하도록 하는 amazon 서비스
장점들
쓰기쉽고, 싸고, 유연하고(Elastic), Transient(HDFS 유사물인 EMRFS가 적용), Secure(대충 아마존 보안 짱짱)
ETL
-
다량의 data source로부터 data를 추출, 가공하여 data warehouse에 적재된 data store에 data를 집계하는 process
ELT랑 달리 가공을 먼저 하므로, 초반에 결정할 사항이 더 많음
-
-
ELT
다량의 data source로부터 data를 추출, 추출한 raw data를 data store에 적재 후 가공하는 process
용도
구조화되지 않고, 대용량의 data를 다루는 데 적합
-
-
data pipeline
이유
처리필요 데이터량이 계속 증가하고 있기 때문
조직이 판단을 내리기 위해서 data를 분석해야되고, 분석을 하기 위해서는 다량의 data가 조합될 필요성이 있음
다양한 곳에서 획득한 raw data만으로 조합할 시 data는 취합하기 어렵고, 잘 못된 판단을 내릴 위험성이 증가함
-
data pipeline이란
data를 한 장소(정보의 근원)에서 다른 장소(예: datawarehouse)로 옮기는 것, 옮기는 중 data는 분석하기에 최적화된 형태로 가공
대체로 과정상 raw data를 임시저장소에 table형태로 저장한 뒤, 변형하여 최종 위치의 table로 저장
-
-
workflow management
-
-
-
-
AWS 제공 서비스
AWS Step Functions
AWS 서비스간 조율, business processes 자동화, serverless application 구축에 사용하는 workflow 시각화 서비스
-
-
-
-
-
-
-