DBW

OLAP

On-line analytical processing

huge database. hệ thống OLAP làm việc với một lượng dữ liệu rất lớn. ✅

KHÔNG Bảo đảm tính chính xác và tính toàn vẹn của các giao dịch

cho phép chúng ta tìm ra xu hướng, điểm mấu chốt trong một big picture.

có một nhóm người dùng nhỏ hơn so với các hệ thống OLTP, thường là những nhà phân tích hoặc quản lý.

truy vấn dữ liệu, Chúng thường là các truy vấn lớn và mất nhiều thời gian để thực hiện

Kích thước phải đủ lớn và đủ mạnh để lưu trữ tất cả các dữ liệu kinh doanh.

OLTP

on-line transactional processing

Bottom-Up

start by building individual data marts, one by one. The conglomerate of these data marts will make up the enterprise data warehouse.

Tạo thành từ những thành phần nhỏ kết hợp lại

ETL

Extracts dữ liệu

Transforms dữ liệu

Load dữ liệu

tức là đi thu gom dữ liệu từ nhiều nguồn khác nhau

chuyển đổi từ các dữ liệu nghiệp vụ của các phần mềm thành dữ liệu phân tích được

sau khi được chuyển đổi thì toàn bộ các dữ liệu này được đưa vào một nơi lưu trữ mới, mà người ta gọi là DataWarehouse

Information Packages diagram

determining and recording information requirements for a data warehouse

is significant difference between operational systems and data warehouse systems

Clustered index

✅có thể được “sản sinh” trong khi tạo những ràng buộc giống như Primary key trên bảng dữ liệu có sẵn.

Clustered index không đòi hỏi phải duy nhất (unique). Nhưng khi nó không duy nhất thì khóa index được gắn thêm một giá trị 4-byte ngẫu nhiên để đảm bảo các node index vẫn là duy nhất.

covering index với độ bao phủ là toàn bộ các cột trong bảng, nhưng không chiếm thêm không gian lưu trữ riêng cho index.

lưu trữ dữ liệu của các dòng được sắp xếp theo thứ tự trong bảng dựa trên giá trị của khóa key.

Dimension tables are loaded first. contain the criterions of analysis.

✅Initial load

operational systems VS Data warehouse

operational systems maintain records of daily business transactions

Data Warehouse is a special database that serves as the integrated repository of company data, for reporting and decision support purpose

Data Integrity

Domain integrity

A database can enforce these rules using Check and Default constraints.

✅ensures the data values in a database follow defined rules for values, range, and format.

is used to maintain accuracy and consistency of data in a table == để duy trì tính chính xác và thống nhất của dữ liệu trong một bảng

Completeness indicator of high-quality data ensures that there are no missing values for a given attribute in the system.

strategic information

not for running the day-to-day operations of the business

not intended to produce an invoice, make a shipment, or post a withdrawal from a bank account.

far more important for the continued health and survival of the corporation.

the types of information which supports to make decisions in the formulation and execution of business strategies.

CREDIBLE Every business factor must have one and only one value.
;

Data Mining

looking for hidden, valid, and potentially useful patterns in huge data sets. all about discovering unsuspected/ previously unknown relationships amongst the data.

multi-disciplinary skill that uses machine learning, statistics, AI and database technology

Aspect

Association

  1. Classification
  1. Clustering
  1. Prediction
  1. Decision tree

🔥Metadata

(Siêu dữ liệu) chỉ đơn giản là dữ liệu về dữ liệu (data about data). Cụ thể, nó là mô tả và bối cảnh của dữ liệu, giúp chúng ta có thể tổ chức, tìm và hiểu dữ liệu. Ex: Mail ( ng gửi, nguoif nhận, date, time, ...)

Categories of Metadata

Business Metadata

It has the data ownership information, business definition, and changing policies.

Technical Metadata

It includes database system names, table and column names and sizes, data types and allowed values. Technical metadata also includes structural information such as primary and foreign key attributes and indices.

Operational Metadata

− It includes currency of data and data lineage. Currency of data means whether the data is active, archived, or purged. Lineage of data means the history of data migrated and transformation applied on it.

✅In a data warehouse, the metadata component is unique, with no truly matching component in operational systems.

IT staff responsible for the development and administration of the data warehouse

BIDS (Business Intelligence Development Studio) cung cấp môi trường chạy trên SQL ✅

Một số khái niệm

Slice

Lát cắt : cố định một giá trị trong một chiều dữ liệu và và cắt khối dữ liệu liên quan đến giá trị đó ra khỏi Cube.

Dice

lấy một khối dữ liệu bằng cách chọn một vài dữ liệu trong một chiều (hình dung là nhiều slice một lúc).

Drill Down / Up

Hình dung Drill Down như kiểu chặt chém (Slice & Dice) hộp dữ liệu cho đến khi bạn nhìn thấy thứ bạn muốn nhìn.


Drill Up là quá trình ngược lại của Drill Down là việc tổng hợp dữ liệu dần dần theo chiều

Roll Up

tổng hợp dữ liệu theo một công thức nào đó theo các chiều dữ liệu

Pivot

xoay cái Cube dữ liệu để xem tất cả các mặt các khía cạnh mà nó mô tả. Ví dụ với dữ liệu dân số, bạn sẽ muốn Pivot dữ liệu theo ngày tháng, theo thành phố, theo giới tính...

focuses on providing support for the end-user at the workstation

✅high-quality data

Accuracy

ensures the value stored in the system for a data element is the right value for that

Domain Integrity

ensures the data value of an attribute falls in the range of allowable, defined values.

Completeness

Data Type

ensures value for a data attribute is actually stored as the data type defined for that attribute.

ensures that there are no missing values for a given attribute in the system.

Consistency

ensures the form and content of a data field is the same across multiple source

Entity-Relationship Modeling

ACCESSIBLE: Easily accessible with intuitive access paths, and responsive for analysis.

service in SQL

SSRS

SSIS

SSAS

SQL Server Integration Services

SQL Server Reporting Services

SQL Server Analysis Services

click to edit