Please enable JavaScript.
Coggle requires JavaScript to display documents.
Data warehouse architecture - Coggle Diagram
Data warehouse architecture
Data warehouse
Là một hệ thống trích xuất, làm sạch, tuân thủ và cung cấp dữ liệu nguồn vào kho dữ liệu thứ nguyên, sau đó hỗ trợ và thực hiện truy vấn và phân tích cho mục đích ra quyết định
Mục tiêu chính là biến dữ liệu từ nhiều nguồn khác nhau thành một nguồn dữ liệu duy nhất, dễ truy cập và có tính nhất quán để hỗ trợ quyết định kinh doanh.
Thường được lưu trữ nhiều năm, và cập nhật theo từng đợt
Các đặc trưng của DW:
Retrieves Data (lấy dữ liệu)
Được thực hiện bởi hệ thống ETL - Là một tập các xử lý thực hiện rút trích, biến đổi dữ liệu và chuyển vào csdl đích
Truy xuất dữ liệu từ nhiều nguồn khác nhau và tổng hợp chúng thành một nguồn dữ liệu duy nhất và dễ truy cập
Consolidate data (Hợp nhất dữ liệu)
Tổng hợp dữ liệu từ nhiều nguồn khác nhau, bao gồm cơ sở dữ liệu OLTP, tệp tin, ứng dụng, và nhiều nguồn dữ liệu khác. Đảm bảo dữ liệu được tổ chức và cung cấp trong một cấu trúc chung để hỗ trợ phân tích và báo cáo
Các khái niệm trong consolidate data:
Data availability (khả năng truy cập dữ liệu):
Để tổng hợp dữ liệu, dữ liệu phải sẵn sàng và có sẵn cho quá trình tổng hợp, đảm bảo rằng dữ liệu cần thiết được thu thập và lưu trữ đúng cách.
Time ranges:
Những mãnh dữ liệu giống nhau nhưng có ý nghĩa về khoảng thời gian khác nhau
Xác định thời điểm nào dữ liệu được tổng hợp và theo dõi. Các time ranges quyết định xem dữ liệu sẽ được tổng hợp hàng ngày, hàng tuần, hàng tháng, hoặc theo các khoảng thời gian khác. Thời gian cũng có thể xác định lịch sử của dữ liệu và quyết định xem dữ liệu nào sẽ được duy trì.
Definitions:
Bao gồm mô tả về ý nghĩa, nguồn gốc, định dạng, và cách sử dụng của dữ liệu. Các định nghĩa dữ liệu đảm bảo rằng mọi người trong tổ chức hiểu và sử dụng dữ liệu một cách chính xác. Đôi khi tên dữ liệu giống nhau nhưng chứa ý nghĩa khác nhau
Conversion:
Khi hợp nhất dữ liệu đôi khi cần thực hiện một số chuyển đổi bởi vì dữ liệu trong source system có các định dạng khác nhau.
Matching:
Quyết định xem một phần dữ liệu trong sysA có giống như trong hệ thống khác không. Đây là công việc quan trọng, vì nếu so khớp sai sẽ làm cho dữ liệu trong DW không còn chính xác
Periodically (Định kỳ)
Chu kỳ rút trích lặp lại được xác định dựa vào các nhu cầu kinh doanh và tần suất thực hiện việc cập nhật dữ liệu từ csdl nguồn
Thời gian lặp nên cùng với tần suất cập nhật của nguồn
Rút trích và hợp nhất dữ liệu thực hiện nhiều lần theo khoảng thời gian đều đặn
History (Lịch sử)
Điểm khác biệt chính của các hệ thống OLTP và DW chính là khả năng và sức chứa để lưu trữ dữ liệu lịch sử.
Kho dữ liệu
Lưu trữ một lượng dữ liệu rất lớn.
Lưu trữ các lượt truy cập website, thông tin mua hàng của 1 hệ thống siêu thị lớn, thông tin của ngành truyền thông (truyền hình, điện báo, điện thoại...)
Các hệ thống OLTP:
lưu trữ khoảng 3 năm dữ liệu, phần còn lại lưu vào thiết bị lưu trữ
Thông tin danh mục (vd: sản phẩm) thường được cập nhật mô tả thành mới, không lưu lại mô tả cũ
Data Warehouse lưu trữ thông tin về thay đổi của dữ liệu qua thời gian. Điều này cho phép người dùng xem lịch sử của dữ liệu và phân tích xu hướng theo thời gian.
Updated in Batches (Cập nhật theo đợt)
Sử dụng hệ thống ETL, tại một thời điểm cụ thể
Data Warehouse thường cập nhật dữ liệu theo lô hoặc batch. Việc cập nhật theo lô giúp tối ưu hóa hiệu suất và đảm bảo tính nhất quán của dữ liệu.
The data mart
là một phiên bản thu gọn của Kho dữ liệu (DW), dựa vào thiết kế mô hình thác nước
phạm vi bị giới hạn trong một nhóm kinh doanh duy nhất (một bộ phận, đơn vị, nhóm người dùng trong một tổ chức)chứ không phải toàn bộ doanh nghiệp
thường lấy dữ liệu từ vài nguồn so với kho dữ liệu
Ưu điểm:
cho phép truy cập dữ liệu nhanh hơn
giải pháp thay thế hiệu quả về chi phí cho kho dữ liệu
dễ sử dụng
cung cấp nhiều lợi ích hơn
xây dựng nhanh và đơn giản hơn kho dữ liệu
Khuyết điểm:
Data mart tạo ra các silos, làm tăng thêm chi phí, độ phức tạp, thường có dữ liệu trùng lặp và dư thừa dẫn đến tình trạng "data drift"- trôi dạt dữ liệu
hạn chế nghiêm trọng phạm vi của chiều rộng và chiều sâu dữ liệu, sự tích hợp, chất lượng và khả năng phân tích được cung cấp cho người dùng doanh nghiệp
không thể cung cấp phân tích dữ liệu cho toàn doanh nghiệp vị bộ dữ liệu bị hạn chế
Thành phần
Staging area: ETL (khu vực biến đổi)
Storage layer: khu vực lưu trữ
Data source
Presentation layer: lớp hiển thị (các apps phân tích dlieu: BI tools,...)
Federated DWS
là một mẫu tích hợp kho dữ liệu cho phép nhiều kho dữ liệu độc lập chia sẻ dữ liệu và siêu dữ liệu mà không cần di chuyển hoặc chuyển đổi dữ liệu
cung cấp khả năng phân tích cho các chức năng và bộ phận khác nhau.
Ưu điểm:
Giảm sự trùng lặp, tăng tính linh hoạt cũng như cải thiện khả năng mở rộng và hiệu suất
tránh được nhu cầu sao chép hoặc chuyển đổi dữ liệu từ kho dữ liệu này sang kho dữ liệu khác, điều này có thể tiết kiệm không gian lưu trữ, băng thông mạng và thời gian xử lý
cho phép mỗi kho dữ liệu có mô hình dữ liệu, lược đồ và bộ lưu trữ riêng, có thể phù hợp với nhu cầu cụ thể của các đơn vị kinh doanh khác nhau
Khuyết điểm:
độ phức tạp và tính không đồng nhất ngày càng tăng do có nhiều nguồn dữ liệu với các mô hình, lược đồ, định dạng và chất lượng dữ liệu khác nhau gây khó khăn cho việc đảm bảo tính nhất quán về ngữ nghĩa, tính tương thích và khả năng tương tác của dữ liệu trên các nguồn
làm giảm chất lượng và độ mới của dữ liệu cũng như khả năng và chức năng truy vấn bị hạn chế ảnh hưởng đến tính chính xác, đầy đủ, kịp thời của dữ liệu có sẵn để phân tích và báo cáo
gây ra độ trễ và độ không chắc chắn trong kết quả truy vấn vì chúng phụ thuộc vào tính khả dụng và hiệu suất của từng nguồn dữ liệu.
Tạo trung gian giữa 2 DWS, có sự móc nối => ko cần di chuyển or chuyển đổi dữ liệu.
Operational Data Store (ODS)
một loại cơ sở dữ liệu thu thập dữ liệu từ nhiều nguồn để xử lý, sau đó nó sẽ gửi dữ liệu đến các hệ thống vận hành và kho dữ liệu.
cung cấp một giao diện trung tâm hoặc nền tảng cho tất cả dữ liệu vận hành được sử dụng bởi các hệ thống và ứng dụng doanh nghiệp.
Ưu điểm:
Cung cấp nhiều khả năng truy cập vào dữ liệu vận hành và xử lý truy vấn không phức tạp trên lượng nhỏ dữ liệu. Nhanh và nhẹ.
Dữ liệu có thể sử dụng gần như ngay lập tức khi tính đến sự chênh lệch về thời gian từ các ứng dụng báo cáo khác nhau.
Tích hợp dữ liệu từ hệ thống mới và hiện có, tạo ra kho dữ liệu trung tâm. Cho phép tạo ra các báo cáo hoạt động toàn diện hơn, chẩn đoán các vấn đề xảy ra dễ dàng hơn.
Khuyết điểm:
Việc đưa dữ liệu vào ODS là một hành động phức tạp khi phải tích hợp và hợp nhất dữ liệu từ nhiều nguồn khác nhau.
ODS nhỏ hơn kho dữ liệu nhưng vẫn có thể chứa lượng dữ liệu khổng lồ. Khi khối lượng dữ liệu tăng lên, chi phí quản lý ODS cũng tăng theo.
Không xử lý các truy vấn hoặc nhu cầu báo cáo phức tạp.
Enterprise data warehouse
Một kiến trúc phức tạp và toàn diện được sử dụng để tổng hợp và quản lý dữ liệu từ nhiều nguồn khác nhau trong một tổ chức hoặc doanh nghiệp để hỗ trợ quyết định kinh doanh và phân tích dữ liệu.
Qui trình: từ "System of Record" đến "Data Integration" đến "Enterprise Data Warehouse" và cuối cùng là "Business Intelligence"
System of Record (Hệ thống Ghi Chép): Nơi dữ liệu gốc của tổ chức được tạo ra và lưu trữ.
Dữ liệu tại hệ thống Ghi Chép thường chưa được xử lý hoặc tổng hợp và thường là nguồn dữ liệu chính xác nhất.
Data Integration (Tích hợp Dữ liệu): Tích hợp dữ liệu từ các System of Record vào một nền tảng chung hoặc kho lưu trữ dữ liệu.
Quá trình ETL (Extract, Transform, Load) thường được sử dụng để thực hiện tích hợp dữ liệu. Kết quả là có một nguồn dữ liệu tổng hợp và chuẩn hóa dễ dàng để truy cập và sử dụng.
Dữ liệu trong EDW thường được tổ chức và lưu trữ một cách logic để dễ dàng truy cập và tìm kiếm. EDW cung cấp nền tảng cho các công cụ Business Intelligence (BI) để truy vấn, báo cáo và phân tích dữ liệu.
Business Intelligence (Thương Nghiệp Thông Minh): Cuối cùng, dữ liệu trong EDW được sử dụng để hỗ trợ quyết định kinh doanh và phân tích dữ liệu.
Business Intelligence cung cấp cái nhìn tổng quan về tình hình và kết quả của tổ chức, giúp cải thiện hiệu suất và đưa ra quyết định dựa trên dữ liệu.
Thành phần trong EDW
Data source: CRMs, ERPs, SQL/noSQL database, IoT devices...
Staging area: các ETL
Storage Layer: Metadata manager, Data warehouse, Data marts
Presentation layer: BI tools, Reporting tools, Business applications, Operational systems
Ưu điểm
Tính Nhất quán
Dễ truy cập:
Hỗ trợ Quyết định Kinh doanh:
Tích hợp Dữ liệu
Bảo mật và Kiểm soát Truy cập:
Phân tích Dữ liệu Mạnh mẽ:
Khuyết điểm
Phức tạp và Tốn Kém
Thời gian triển khai
Khó quản lý và Bảo trì
Cập nhật Dữ liệu Trực tiếp
Cố định về Cấu trúc Dữ liệu
Yêu cầu Về Tài chính
Các kiến trúc trong DW
Data architecture
Nhìn dữ liệu ở cấp cao – cách doanh nghiệp xử lý, điều khiển dữ liệu của họ (vd: cách phân loại, tích hợp, lưu trữ dữ liệu)
Cung cấp sự chỉ dẫn (guidelines) để quản lý dữ liệu từ giai đoạn ghi nhận từ hệ thống nguồn đến khi tiêu thụ thông tin bởi các đối tượng.
Các thành phần
Data store
ETL process
Metadata
Query tool
Data flow architecture
Về việc sắp xếp các data store bên trong 1 kho dữ liệu, dữ liệu sẽ lưu chuyển như thế nào từ hệ thống nguồn đến người dùng thông qua các data store này
Về việc điều khiển, lưu nhật ký, theo dõi dữ liệu, cơ chế đảm bảo chất lượng dữ liệu trong các data store
Single DDS: Đề cập đến việc sử dụng một hệ thống hoặc cơ sở dữ liệu duy nhất để cung cấp dữ liệu cho ứng dụng hoặc hệ thống khác.
NDS + DDS (Nearline Data Storage + Data Delivery System)
Nearline Data Storage (NDS) là một hệ thống lưu trữ dữ liệu thứ cấp thường được sử dụng để lưu trữ dữ liệu dự phòng hoặc dữ liệu lớn mà không cần truy cập thường xuyên.
DDS, trong trường hợp này, có thể là một hệ thống để truy xuất và cung cấp dữ liệu từ NDS khi cần thiết.
ODS + DDS
Fedarate data warehouse
System architecture
Về việc cấu hình vật lý các server, mạng, phần cứng, phần mềm...
Three-tier architecture
Bottom tier: Đây là nơi lưu trữ dữ liệu của hệ thống, và trong trường hợp Data Warehouse, nó sẽ chứa các kho dữ liệu và cơ sở dữ liệu. (back-end)
Middle tier: Lớp này chứa logic ứng dụng và phần mềm liên quan đến việc truy xuất, xử lý và quản lý dữ liệu trong Data Warehouse.
Top tier: Lớp này là nơi người dùng tương tác với hệ thống và truy cập vào dữ liệu và chức năng phân tích từ Data Warehouse thông qua các phần mềm giao diện người dùng. (front-end)
Two-tier architecture
Tier 1 và 2 của kiến trúc 3 tier được gộp lại với nhau.
Single tier
Là một kiến trúc trong đó tất cả các thành phần của ứng dụng hoặc hệ thống chạy trên cùng một máy tính hoặc trên cùng một tầng.
Điều này có nghĩa rằng cả phần giao diện người dùng, xử lý logic và cơ sở dữ liệu đều nằm trên cùng một máy tính hoặc server.
Hub & Spoke with One BI platform
Một mô hình kiến trúc dữ liệu thường được sử dụng trong việc quản lý và phân tích dữ liệu trong môi trường doanh nghiệp.
Mô hình gồm hai phần chính: hub và các spoke được kết nối với một nền tảng BI.
Ưu điểm:
Chất lượng và quản trị dữ liệu được cải thiện
Khả năng mở rộng và tính linh hoạt tăng lên
Giảm chi phí và độ phức tạp
Đơn giản hóa việc tích hợp và bảo trì dữ liệu
Khuyết điểm:
Độ trễ và sự không nhất quán của dữ liệu có thể xảy ra
Đầu tư ban đầu cao
Các spoke hạn chế về quyền tự chủ