DBW
OLAP
On-line analytical processing
huge database. hệ thống OLAP làm việc với một lượng dữ liệu rất lớn. ✅
KHÔNG Bảo đảm tính chính xác và tính toàn vẹn của các giao dịch
cho phép chúng ta tìm ra xu hướng, điểm mấu chốt trong một big picture.
có một nhóm người dùng nhỏ hơn so với các hệ thống OLTP, thường là những nhà phân tích hoặc quản lý.
truy vấn dữ liệu, Chúng thường là các truy vấn lớn và mất nhiều thời gian để thực hiện
Kích thước phải đủ lớn và đủ mạnh để lưu trữ tất cả các dữ liệu kinh doanh.
OLTP
on-line transactional processing
Bottom-Up
start by building individual data marts, one by one. The conglomerate of these data marts will make up the enterprise data warehouse.
Tạo thành từ những thành phần nhỏ kết hợp lại
ETL
Extracts dữ liệu
Transforms dữ liệu
Load dữ liệu
tức là đi thu gom dữ liệu từ nhiều nguồn khác nhau
chuyển đổi từ các dữ liệu nghiệp vụ của các phần mềm thành dữ liệu phân tích được
sau khi được chuyển đổi thì toàn bộ các dữ liệu này được đưa vào một nơi lưu trữ mới, mà người ta gọi là DataWarehouse
Information Packages diagram
determining and recording information requirements for a data warehouse
is significant difference between operational systems and data warehouse systems
Clustered index
✅có thể được “sản sinh” trong khi tạo những ràng buộc giống như Primary key trên bảng dữ liệu có sẵn.
Clustered index không đòi hỏi phải duy nhất (unique). Nhưng khi nó không duy nhất thì khóa index được gắn thêm một giá trị 4-byte ngẫu nhiên để đảm bảo các node index vẫn là duy nhất.
covering index với độ bao phủ là toàn bộ các cột trong bảng, nhưng không chiếm thêm không gian lưu trữ riêng cho index.
lưu trữ dữ liệu của các dòng được sắp xếp theo thứ tự trong bảng dựa trên giá trị của khóa key.
✅Dimension tables are loaded first. contain the criterions of analysis.
✅Initial load
operational systems VS Data warehouse
operational systems maintain records of daily business transactions
Data Warehouse is a special database that serves as the integrated repository of company data, for reporting and decision support purpose
Data Integrity
Domain integrity
A database can enforce these rules using Check and Default constraints.
✅ensures the data values in a database follow defined rules for values, range, and format.
is used to maintain accuracy and consistency of data in a table == để duy trì tính chính xác và thống nhất của dữ liệu trong một bảng
✅Completeness indicator of high-quality data ensures that there are no missing values for a given attribute in the system.
strategic information
not for running the day-to-day operations of the business
not intended to produce an invoice, make a shipment, or post a withdrawal from a bank account.
far more important for the continued health and survival of the corporation.
the types of information which supports to make decisions in the formulation and execution of business strategies.
CREDIBLE Every business factor must have one and only one value. ✅
;
Data Mining
looking for hidden, valid, and potentially useful patterns in huge data sets. all about discovering unsuspected/ previously unknown relationships amongst the data.
multi-disciplinary skill that uses machine learning, statistics, AI and database technology
✅Aspect
Association
- Classification
- Clustering
- Prediction
- Decision tree
🔥Metadata
(Siêu dữ liệu) chỉ đơn giản là dữ liệu về dữ liệu (data about data). Cụ thể, nó là mô tả và bối cảnh của dữ liệu, giúp chúng ta có thể tổ chức, tìm và hiểu dữ liệu. Ex: Mail ( ng gửi, nguoif nhận, date, time, ...)
Categories of Metadata
Business Metadata
It has the data ownership information, business definition, and changing policies.
Technical Metadata
It includes database system names, table and column names and sizes, data types and allowed values. Technical metadata also includes structural information such as primary and foreign key attributes and indices.
Operational Metadata
− It includes currency of data and data lineage. Currency of data means whether the data is active, archived, or purged. Lineage of data means the history of data migrated and transformation applied on it.
✅In a data warehouse, the metadata component is unique, with no truly matching component in operational systems.
✅IT staff responsible for the development and administration of the data warehouse
BIDS (Business Intelligence Development Studio) cung cấp môi trường chạy trên SQL ✅
Một số khái niệm ✅
Slice
Lát cắt : cố định một giá trị trong một chiều dữ liệu và và cắt khối dữ liệu liên quan đến giá trị đó ra khỏi Cube.
Dice
lấy một khối dữ liệu bằng cách chọn một vài dữ liệu trong một chiều (hình dung là nhiều slice một lúc).
Drill Down / Up
Hình dung Drill Down như kiểu chặt chém (Slice & Dice) hộp dữ liệu cho đến khi bạn nhìn thấy thứ bạn muốn nhìn.
Drill Up là quá trình ngược lại của Drill Down là việc tổng hợp dữ liệu dần dần theo chiều
Roll Up
tổng hợp dữ liệu theo một công thức nào đó theo các chiều dữ liệu
Pivot
xoay cái Cube dữ liệu để xem tất cả các mặt các khía cạnh mà nó mô tả. Ví dụ với dữ liệu dân số, bạn sẽ muốn Pivot dữ liệu theo ngày tháng, theo thành phố, theo giới tính...
✅focuses on providing support for the end-user at the workstation
✅high-quality data
Accuracy
ensures the value stored in the system for a data element is the right value for that
Domain Integrity
ensures the data value of an attribute falls in the range of allowable, defined values.
Completeness
Data Type
ensures value for a data attribute is actually stored as the data type defined for that attribute.
ensures that there are no missing values for a given attribute in the system.
Consistency
ensures the form and content of a data field is the same across multiple source
Entity-Relationship Modeling
ACCESSIBLE: Easily accessible with intuitive access paths, and responsive for analysis.
service in SQL
SSRS
SSIS
SSAS
SQL Server Integration Services
SQL Server Reporting Services
SQL Server Analysis Services
click to edit