Please enable JavaScript.
Coggle requires JavaScript to display documents.
BADS6004 Big Data Management (60% ของ Big data project Fail:1. วิธีคิดกับ…
BADS6004 Big Data Management
Definition: Big Data คือ ข้อมูลขนาดใหญ่มากจนซอฟต์แวร์หรือฮาร์ดแวร์ธรรมดานั้นไม่สามารถที่จะจัดการหรือวิเคราะห์ได้อย่างมีประสิทธิภาพ ฺBig Data คือ การรวบรวมข้อมูลทั้ง Structured (พวกที่เก็บในโครงสร้างตารางข้อมูล) และ Unstructured (พวกที่เป็น text ยาวๆ รูปภาพ และ วิดีโอต่างๆ) มาทำการประมวลวิเคราะห์ข้อมูลและนำไปใช้ประโยชน์
Volume (ข้อมูลขนาดใหญ่) Velocity (ข้อมูลที่เกิดและไหลเข้าสู่การจัดเก็บด้วยความเร็วสูง) Variety (ข้อมูลที่มีความหลากหลายในรูปแบบ) Veracity (ข้อมูลที่มีระดับคุณภาพปะปนกันไป)
Unstructured
เช่น Text document, PDF,image and video
Quasi-Structured
: ข้อมูลที่เก็บ Sequence ของ กิจกรรมต่างๆบน Internet เช่น Click stream data
Semi-Structured
ข้อมูลที่ถูกจัดเก็บอย่างมีรูปแบบในระดับหนึ่งและข้อมูลที่สามารถค้นหา (search) หรือแท็ก (tag) ได้ เช่น เว็บเพจที่มีการระบุชื่อเพจ คำสำคัญในเพจ และวันที่อัพเดทข้อมูล เช่น Spreadsheets, XML file
Structured
เช่น Database
วิธีการดั้งเดิม Data Warehouse ทำ ETL
วิธีการใหม่ Data Lake Transformation ทำ ELT
“Moving data to compute not compute to data”
ETLT มาแก้ปัญหาทั้งสองอย่าง
60% ของ Big data project Fail:1. วิธีคิดกับ Big data ผิด
อุปสรรคใหญ่ในแง่ของ ROI
ขาดความชัดเจน
1) ข้อมูลไม่พร้อม (ไม่ควรอยู่ใน db)
2) ใครบางคนเคยได้ยินว่า "data เป็นน้ำมันใหม่"
3) data scientist ไม่เก่ง
4) ไม่มี data scientist Leader
5) คุณไม่ควรจ้างถ้ายังไม่โอเค
6) หัวหน้าของคุณอ่าน Blog post เกี่ยวกับ ML
Big Data UseCase:
data warehouse offloading: วิธีหนึ่งคือการโยกย้าย ETL หนักและการคำนวณภาระงานลงใน Hadoop เพื่อให้ได้เวลาการประมวลผลที่เร็วขึ้นลดต้นทุนต่อข้อมูลที่เก็บไว้และความจุ DWH มี 2 ทางเลือก คือ
1) โหลดข้อมูลดิบจาก OLTP ไปยัง Hadoop จากนั้นแปลงข้อมูลเป็นแบบจำลองที่ต้องการและในที่สุดก็ย้ายข้อมูลไปยัง DWH และสามารถขยายภาพจำลองนี้ได้ด้วยการรวมแหล่งข้อมูลกึ่งโครงสร้างที่ไม่มีโครงสร้างและเซ็นเซอร์ ในแง่นี้สภาพแวดล้อม Hadoop ทำหน้าที่เป็น Enterprise Data Lake
2)
การย้ายข้อมูลจาก DWH ไปยัง Hadoop โดยใช้ Sqoop เพื่อทำการคำนวณล่วงหน้าจากนั้นผลลัพธ์จะถูกเก็บไว้ใน data marts เพื่อให้มองเห็นได้โดยใช้เครื่องมือแบบดั้งเดิม
เนื่องจากค่าใช้จ่ายในการจัดเก็บบน Hadoop นั้นต่ำกว่า DWH มากเราจึงสามารถประหยัดเงินและเก็บข้อมูลไว้ได้นานขึ้น
นอกจากนี้เรายังสามารถทำการวิเคราะห์และสร้างแบบจำลองการทำนายโดยใช้ Spark MLLib, Mahout หรือภาษา R หรือการประมวลผลทางAI โดยใช้ IBM Watson เพื่อสนับสนุนการตัดสินใจในอนาคตของธุรกิจ
Big Data UseCase: 2. Near real-time analytics on data warehouse
ใช้ Fume ที่ติดตั้งอยู่ในทุกแหล่งข้อมูลเพื่อนำเข้าข้อมูลไปยังไปป์ไลน์ ยังสามารถใช้ Kafka เป็นแหล่งข้อมูลสตรีมมิ่ง (front-end for real time) เพื่อจัดเก็บข้อมูลขาเข้าในรูปแบบของevents/messages
ข้อมูลถูกจัดเก็บโดยตรงบนระบบไฟล์ Hadoop หรือฐานข้อมูลแบบกระจายที่ปรับขนาดได้ความผิดพลาดและฐานข้อมูลแบบกระจายเช่น HBase หรือ Cassandra จากนั้นข้อมูลจะถูกคำนวณและสร้างแบบจำลองการทำนายบางอย่างโดยใช้เทคโนโลยี Spark, Scala และ MLLib
ผลลัพธ์จะถูกเก็บไว้ใน ElasticSearch เพื่อปรับปรุงความสามารถในการค้นหาของแพลตฟอร์มแบบจำลองการทำนายสามารถเก็บไว้ในระบบไฟล์ Hadoop และผลการคำนวณสามารถจัดเก็บใน Cassandra ข้อมูลสามารถถูกใช้โดยเครื่องมือดั้งเดิมเช่นเดียวกับเว็บและแอปพลิเคชั่นมือถือผ่าน API Rest
ประโยชน์ของสถาปัตยกรรมแบบนี้
เพิ่มความสามารถในการประมวลผลแบบเรียลไทม์ใกล้กับการประมวลผลแบบแบตช์
ลดเวลาแฝงในการรับข้อมูลเชิงลึกที่สามารถดำเนินการได้ส่งผลกระทบเชิงบวกต่อความคล่องตัวของธุรกิจในการตัดสินใจ
ลดค่าใช้จ่ายในการจัดเก็บอย่างมีนัยสำคัญเมื่อเทียบกับเทคโนโลยีคลังข้อมูลแบบเดิมเพราะเราสามารถสร้างสินค้าและกลุ่มที่มีต้นทุนต่ำของข้อมูลและการประมวลผลโหนดในสถานที่และในระบบคลาวด์
สถาปัตยกรรมนี้พร้อมที่จะย้ายไปยังคลาวด์และใช้ประโยชน์จากความยืดหยุ่นดังนั้นการเพิ่มทรัพยากรคอมพิวเตอร์เมื่อปริมาณงานเพิ่มขึ้นและลดการใช้ทรัพยากรคอมพิวเตอร์เมื่อไม่ต้องการ
Credit Card Fraud Detection : ถ้าคุณทำธุรกรรมจากมุมไบวันนี้และในนาทีถัดไปจะมีการทำธุรกรรมจากบัตรของคุณในสิงคโปร์ จึงมีโอกาสที่การทำธุรกรรมนี้อาจเป็นการฉ้อโกงและไม่ได้ทำโดยคุณ ดังนั้น บริษัท จำเป็นต้องประมวลผลข้อมูลแบบเรียลไทม์ (Data in Motion analytics DIM) และวิเคราะห์ข้อมูลกับประวัติบุคคลในช่วงเวลาสั้น ๆ และระบุว่าธุรกรรมนั้นเป็นการฉ้อโกงจริงหรือไม่ ดังนั้น บริษัท สามารถยอมรับหรือปฏิเสธการทำธุรกรรมตามความรุนแรง
ในการประมวลผลสตรีมข้อมูลเราต้องใช้เอนจิ้นสตรีมมิ่งเช่น Apache Flink เอ็นจิ้นการสตรีมสามารถใช้สตรีมข้อมูลแบบเรียลไทม์ได้อย่างมีประสิทธิภาพสูงและประมวลผลข้อมูลในเวลาแฝงต่ำ (โดยไม่ล่าช้า)
Sentiment Analysis การวิเคราะห์ความเชื่อมั่นภาษาถูกประมวลผลเพื่อระบุและเข้าใจความรู้สึกและทัศนคติของผู้บริโภคที่มีต่อแบรนด์หรือหัวข้อในการสนทนาออนไลน์เช่นสิ่งที่พวกเขากำลังคิดเกี่ยวกับผลิตภัณฑ์หรือบริการเฉพาะไม่ว่าพวกเขาจะมีความสุขหรือไม่ก็ตาม สายการบินขนาดใหญ่เริ่มตรวจสอบทวีตเกี่ยวกับเที่ยวบินของพวกเขาเพื่อดูว่าลูกค้ารู้สึกอย่างไรเกี่ยวกับการอัพเกรดเครื่องบินใหม่
Data Processing (Retail)
Market Basket Analysis เพื่อทำความเข้าใจพฤติกรรมการซื้อของผู้ซื้อในสิ่งที่เขากำลังมองหาและสิ่งอื่น ๆ ที่เขาอาจสนใจซื้อพร้อมกับผลิตภัณฑ์นี้ ข้อมูลนี้จะช่วยให้ผู้ค้าปลีกเข้าใจความต้องการของผู้ซื้อและเขียนเลย์เอาต์ของร้านค้าใหม่พัฒนาโปรแกรมข้ามโปรโมชันหรือแม้แต่จับผู้ซื้อรายใหม่ โดยการวิเคราะห์รูปแบบการซื้อของพวกเขาสามารถระบุว่าพวกเขาซื้ออะไรกัน เพื่อให้การจัดเก็บเป็นมิตรกับลูกค้าสามารถรวมรายการเหล่านี้เข้าด้วยกันและสามารถเรียกใช้แคมเปญที่เกี่ยวข้องเพื่อดึงดูดผู้ซื้อรายใหม่ได้ goals to reduce customer churn and maximize customer lifetime value (CLV).
Customer Churn Analysis การระบุผู้บริโภคที่มีแนวโน้มที่จะหยุดใช้บริการหรือผลิตภัณฑ์ของคุณ This data might be in the range of TBs to PBs ตัวอย่างของการวิเคราะห์ Call Center นี่คือข้อมูลที่ใช้คือบันทึกการโทรและข้อมูลการทำธุรกรรม ธนาคารหลายแห่ง Apache Flink (4G of Big Data) ให้โอกาสในการโต้ตอบกับลูกค้าภายในและภายนอกจำนวนมากและจุดข้อมูลพฤติกรรมเพื่อตรวจจับวัดและปรับปรุงวัตถุประสงค์ที่ต้องการ
Deep Learning in Use Case
เราสามารถทำอะไรได้บ้าง
Transport
ด้วยข้อมูลขนาดใหญ่ที่รัฐบาลสามารถควบคุมการขนส่งได้ดีขึ้นเพื่อให้แน่ใจว่าถนนดีขึ้นถนนปลอดภัยกว่าเส้นทางที่ดีขึ้นและเส้นทางใหม่
Healthcare
ด้วยข้อมูลขนาดใหญ่รัฐบาลสามารถมีภาพที่ชัดเจนมากขึ้นว่าเงินจะไปที่ใดและเพราะเหตุใด หมายความว่าพวกเขาสามารถควบคุมทรัพยากรได้ดีขึ้น พวกเขายังสามารถวิเคราะห์ความต้องการของประชาชนได้อย่างมีประสิทธิภาพและจากนั้นทำการเปลี่ยนแปลงที่จำเป็นเพื่อให้บริการประชาชนที่ดีที่สุดในราคาที่ดีที่สุด
Education
ข้อมูลขนาดใหญ่ช่วยให้รัฐบาลเข้าใจมากขึ้นเกี่ยวกับความต้องการด้านการศึกษาในระดับท้องถิ่นและระดับรัฐบาลกลางเพื่อให้แน่ใจว่าเยาวชนของประเทศจะได้รับการศึกษาที่ดีที่สุดเพื่อรับใช้ประเทศในอนาคต
Agriculture
ข้อมูลขนาดใหญ่กำลังเปลี่ยนแปลงวิธีการที่รัฐบาลจัดการและสนับสนุนเกษตรกรและทรัพยากรของพวกเขา ความสามารถในการรวบรวมข้อมูลจำนวนมากและวิเคราะห์ได้อย่างรวดเร็วสร้างความแตกต่างทั้งหมด
10 อุปสรรค ที่จะนำไปใช้ใน Big Data
Budget
IT Know-how
Business Know-how
Data Clean Up
The storage bulge พวกเขาจะต้องหาวิธีที่จะปลดปล่อยมันออกมา สิ่งนี้เริ่มต้นด้วยการจัดเรียงข้อมูลตัดสินใจว่าอะไรสำคัญและเก็บถาวรหรือกำจัดส่วนที่เหลือ
New data center workloads ให้พนักงานไอทีของคุณมีส่วนร่วมในการวิเคราะห์ปริมาณงานที่ดำเนินการผ่านศูนย์ข้อมูลเพื่อกำหนดว่าพวกเขาจะเปลี่ยนแปลงอย่างไร
Data retention(การเก็บข้อมูล) ความกลัวว่าจะสูญเสียข้อมูลอย่างถาวร
Vendor role clarification องค์กรจำนวนมากไม่มีประสบการณ์กับ Big Data ผู้ขายจำนวนมากจึงนำเสนอโซลูชั่นแบบเบ็ดเสร็จ ตรวจสอบให้แน่ใจว่าผู้ขายของคุณเข้าใจในเรื่องนี้
Business and IT alignmen
เป้าหมายทางธุรกิจและกลยุทธ์ด้านไอทีบิ๊กดาต้าควรสอดคล้องกันอย่างแน่นหนาก่อนที่จะลงทุนด้านไอที
Developing new talent
The 4 steps of Moving toward AI
Understand Technologies
Creating Portfolio project
Launching Pilot Project
Scaling up
DATA
ข้อมูลต้องมี Data keys and values, structures and persistence
Data Dictionary หรือ metadata repository
Data Type : Data types are used within type systems, which offer various ways of defining, implementing
and using them. Different type systems ensure varying degrees of type safety.
Data Structure :
Array
มีความยาวคงที่หรือปรับขนาดได้
linked list
ข้อได้เปรียบหลักของรายการที่เชื่อมโยงเหนืออาร์เรย์คือค่าสามารถเป็นได้อย่างมีประสิทธิภาพ
record
เรียกอีกอย่างว่า tuple หรือ struct
union
tagged union
class
is a data structure that contains data fields, like a record, as well as various methods
Data Format:
Data type, constraint placed upon the interpretation of data in a type system
Signal
(electrical engineering), a format for signal data used in signal processing
Recording
format, a format for encoding data for storage on a storage medium
File
format, a format for encoding data for storage in a computer file
data set is a collection of data.
A data model is an abstract model that organizes elements of data and standardizes how they
relate to one another and to properties of the real world entities.
Chapter 7
The Data Lake
Chapter 4. YARN : Apache YARN (Yet Another Resource Negotiator) is Hadoop’s cluster resource
management system.
A resource manager (one per cluster) to manage the use of resources across the cluster,
Node managers running on all the nodes in the cluster to launch and monitor containers.
Avro Parquet
Flume
Chapter 15. Sqoop
Spark and Hive