Please enable JavaScript.
Coggle requires JavaScript to display documents.
CÁC MÔ HÌNH PHÂN TÍCH DỮ LIỆU - Coggle Diagram
CÁC MÔ HÌNH
PHÂN TÍCH DỮ LIỆU
1. Dẫn nhập
Xác suất thống kê
Bayes
Phân phối
Bernoulli
Binominal
Poisson
Geometric
đầu ra chỉ 0,1
Normal
Beta
Dirichlet
Các loại dữ liệu
TK Mô tả
Các độ đo Mean, Median, Mode
TK Suy dẫn
Dựa trên Standard Normal Distribution
M=0, δ=1
z-score, z-distribution, z-table
Ước lượng
UL điểm
UL khoảng
Khoảng tin cậy
Độ tin cậy
Định lý giới hạn trung tâm
Quy trình
Phân tích khám phá Data
Chọn lựa mô hình
Regression
Machine Learning
Hypothesis Testing
Tập hợp Data
Triển khai mô hình
Xác định vấn đề
Trình bày kết quả
Phải trực quan
Tham khảo:
Bộ 3 cuốn của tác giả JIM FROST trên Amazon
Introduction to Statistics
Hypothesis Testing
Regression Analysis
Serminar
Thực hiện Project Kaggle
Kết hợp với Data Visualization
Tổng quan
insight
from
raw data
Data Analysis vs Data Science
EDA
Có thể đào sâu các pp Data cleansing/exploration/prepration
PP Kiểm chứng giả thuyết
https://drive.google.com/file/d/1KiVyI7cXX6QQBVS7Kq7DrhMu1-bvtAbH/view
Các bước thực hiện
Phát biểu giả thuyết
Null vs Alternative Hypothesis
Cho trước Significance level α(5%)
P-value
P<=α: loại giả thuyết rỗng
P>α: được chấp nhận
Các loại kiểm chứng
T-Test
1-sample t-test
2-sam t-test
pair t-test
F-Test (ANOVA)
Chi-Square Test
Các loại lỗi
Type I
Type II
Mục tiêu: Từ giả thuyết mẫu,
cố gắng chứng minh cho tập tổng thể
PP Hồi quy
Linear Regression
Đơn biến
Sum of square error
Độ đo chất lượng của đường hồi quy
R-square
tăng khi số biến độc lập tăng
MSE
Adjust R-square
P-value
Goodness-Of-Fit
Đa biến
Các pp chọn mô hình hồi quy
Chọn ra độ đo
PP Stepwise
ví dụ dataset_boston
pp Best Subset
Trong tất cả tập con, chọn tập con cho kết quả tốt nhất (vét cạn)
Tránh overfitting
LASSO
Ridge
Đưa thêm các
tham số điều biến
Các pp khử nhiễu khác (Huber)
Elastic-Net
Xây dựng thực nghiệm
Xác định câu hỏi
Xác định phương pháp
Xác định các độ đo so sánh
baseline
state-of-the-art
Phân tích kết quả & kết luận
Polyminal
Regression
Tự tìm hiểu thêm cho biết
Logistic
Regression
Dùng để phân lớp
Sử dụng hàm sigmoid
Các độ đo đánh giá
Accuracy
Precision
Sensitivity/Recall
Specificity
Softmax
Regression
Pearson Correlation
Why?
Làm sao biểu diễn sự liên hệ của các biến?
Phân tích vai trò các biến trong mô hình
Dự đoán giá trị biến phụ thuộc, dựa vào biến độc lập
https://fithcmus.zoom.us/j/96812626947?pwd=b1ZRUVpycTBtZWptdTRqalZSc1JvZz09
Meeting ID: 968 1262 6947
Passcode: 337777
PP
Máy học thống kê
Các loại ML
Supervised Learning
Unsupervised Learning
Semi-supervised Learning
Reinforcement Learning
Các loại học máy
và ứng dụng
Đánh giá một
thuật toán ML
Một quy trình học máy cơ bản
TIME SERIES
Purpose?
Dự đoán
Điều khiển
Giải thích
Mô tả
How?
Models?
Moving Average
Tính mean cho k giá trị liền kề trong dãy
đoán cho giá trị tiếp theo
Forecast error
Làm mịn bằng hàm mũ (smooth)
EMA vs SMA
Auto Regressive?
Auto Correlation(-1;+1)
ARIMA
đặc trưng 3 tham số
p: bậc của AR
q: bậc của MA
d: khử trend của series, giúp đưa về stationary
Độ chênh lệch cần thiết để stop time series
áp dụng cho chuỗi thời gian ko theo mùa vụ
Tính chất
Theo mùa
Đột biến
Ổn định
Mean, Variance không đổi theo thời gian
Chu kỳ
What?
Biến độc lập là thời gian
Có tính liên tục, theo dãy trong một khoảng thời gian
BIG DATA ANALYSIS
Analytic vs Analysis
5V