Please enable JavaScript.
Coggle requires JavaScript to display documents.
DBW (OLAP (Một số khái niệm :check: (Slice (Lát cắt : cố định một giá trị…
DBW
OLAP
Một số khái niệm
:check:
Slice
Lát cắt : cố định một giá trị trong một chiều dữ liệu và và cắt khối dữ liệu liên quan đến giá trị đó ra khỏi Cube.
Dice
lấy một khối dữ liệu bằng cách chọn một vài dữ liệu trong một chiều (hình dung là nhiều slice một lúc).
Drill Down / Up
Hình dung Drill Down như kiểu chặt chém (Slice & Dice) hộp dữ liệu cho đến khi bạn nhìn thấy thứ bạn muốn nhìn.
Drill Up là quá trình ngược lại của Drill Down là việc tổng hợp dữ liệu dần dần theo chiều
Roll Up
tổng hợp dữ liệu theo một công thức nào đó theo các chiều dữ liệu
Pivot
xoay cái Cube dữ liệu để xem tất cả các mặt các khía cạnh mà nó mô tả. Ví dụ với dữ liệu dân số, bạn sẽ muốn Pivot dữ liệu theo ngày tháng, theo thành phố, theo giới tính...
On-line analytical processing
huge database
. hệ thống OLAP làm việc với một lượng dữ liệu rất lớn. :check:
KHÔNG Bảo đảm tính chính xác và tính toàn vẹn của các giao dịch
cho phép chúng ta tìm ra xu hướng, điểm mấu chốt trong một big picture.
có một nhóm người dùng nhỏ hơn so với các hệ thống OLTP, thường là những nhà phân tích hoặc quản lý.
truy vấn dữ liệu, Chúng thường là các truy vấn lớn và mất nhiều thời gian để thực hiện
Kích thước phải đủ lớn và đủ mạnh để lưu trữ tất cả các dữ liệu kinh doanh.
BIDS
(Business Intelligence Development Studio) cung cấp môi trường chạy trên SQL :check:
strategic information
not for running the day-to-day operations of the business
not intended to produce an invoice, make a shipment, or post a withdrawal from a bank account.
far more important for the continued health and survival of the corporation.
the types of information which supports to make decisions in the formulation and execution of business strategies.
CREDIBLE
Every business factor must have one and only one value.
:check:
;
ACCESSIBLE: Easily accessible with intuitive access paths, and responsive for analysis.
:check:high-quality data
Accuracy
ensures the value stored in the system for a data element is the
right value
for that
Domain Integrity
ensures the data value of an attribute falls in the range of
allowable, defined
values.
Completeness
ensures that there are
no missing values
for a given attribute in the system.
Data Type
ensures value for a data attribute is actually stored as the
data type defined
for that attribute.
Consistency
ensures the form and content of a data field is t
he same across multiple source
Clustered index
:check:có thể được “sản sinh” trong khi tạo những
ràng buộc giống như Primary key
trên bảng dữ liệu có sẵn.
Clustered index không đòi hỏi phải duy nhất (unique). Nhưng khi nó không duy nhất thì khóa index được gắn thêm một giá trị 4-byte ngẫu nhiên để đảm bảo các node index vẫn là duy nhất.
covering index với độ bao phủ là toàn bộ các cột trong bảng, nhưng không chiếm thêm không gian lưu trữ riêng cho index.
lưu trữ dữ liệu của các dòng được sắp xếp theo thứ tự trong bảng dựa trên giá trị của khóa key.
ETL
Extracts dữ liệu
tức là đi thu gom dữ liệu từ nhiều nguồn khác nhau
Transforms dữ liệu
chuyển đổi từ các dữ liệu nghiệp vụ của các phần mềm thành dữ liệu phân tích được
Load dữ liệu
sau khi được chuyển đổi thì toàn bộ các dữ liệu này được đưa vào một nơi lưu trữ mới, mà người ta gọi là DataWarehouse
:check:
Dimension tables are loaded first. contain the criterions of analysis.
:check:Initial load
Data Integrity
Domain integrity
A database can enforce these rules using Check and Default constraints.
:check:ensures the data values in a database follow defined rules for values, range, and format.
is used to maintain accuracy and consistency of data in a table == để duy trì tính chính xác và thống nhất của dữ liệu trong một bảng
:check:
Completeness
indicator of high-quality data ensures that there are no missing values for a given attribute in the system.
Data Mining
looking for hidden, valid, and potentially useful patterns in huge data sets. all about discovering unsuspected/ previously unknown relationships amongst the data.
multi-disciplinary skill that uses machine learning, statistics, AI and database technology
:check:
Aspect
Association
Classification
Clustering
Prediction
Decision tree
:fire:
Metadata
(Siêu dữ liệu) chỉ đơn giản là dữ liệu về dữ liệu (data about data). Cụ thể, nó là mô tả và bối cảnh của dữ liệu, giúp chúng ta có thể tổ chức, tìm và hiểu dữ liệu. Ex: Mail ( ng gửi, nguoif nhận, date, time, ...)
Categories of Metadata
Business Metadata
It has the data ownership information, business definition, and changing policies.
:check:
focuses on providing support for the end-user at the workstation
Technical Metadata
It includes database system names, table and column names and sizes, data types and allowed values. Technical metadata also includes structural information such as primary and foreign key attributes and indices.
:check:
IT staff responsible for the development and administration of the data warehouse
Operational Metadata
− It includes currency of data and data lineage. Currency of data means whether the data is active, archived, or purged. Lineage of data means the history of data migrated and transformation applied on it.
:check:In a data warehouse, the metadata component is unique, with no truly matching component in operational systems.
service in SQL
SSRS
SQL Server Reporting Services
SSIS
SQL Server Integration Services
SSAS
SQL Server Analysis Services
OLTP
on-line transactional processing
Entity-Relationship Modeling
Bottom-Up
start by building individual data marts, one by one. The conglomerate of these data marts will make up the enterprise data warehouse.
Tạo thành từ những thành phần nhỏ kết hợp lại
Information Packages diagram
determining and recording
information requirements
for a data warehouse
is
significant difference between operational systems and data warehouse systems
operational systems VS Data warehouse
operational systems
maintain records of daily business transactions
Data Warehouse
is a special database that serves as the integrated repository of company data, for reporting and decision support purpose