Please enable JavaScript.

Coggle requires JavaScript to display documents.

:silhouettes:Data Analysis, 3. Phân tích tập dữ liệu (Exploratory Data…

- - - - Biểu đồ boxplot
        
        Xem những giá trị outlier
        
        Xem dữ liệu bị lệch trái/phải
      - Xem tần suất của từng loại giá trị
        
        Biểu đồ cột
        
        Biểu đồ tròn
        
        Biểu đồ Histogram
      - Loại bỏ giá trị không hợp lệ
    - - Hệ số tương quan càng gần 1 hay -1 thì tương quan càng mạnh
      - Nếu sự tương quan mạnh có thể xem sự hồi quy
      - Hỗ trợ trong việc lựa chọn đặc trưng
  - - - Bỏ các cột, các dòng khuyết nhiều
      - Điền vào các giá trị mean/median/mode
      - Dự đoán giá trị khuyết
        
        Deep learning
        
        Hồi quy
- - - - Xác định tập nghiên cứu
      - Chọn mẫu
      - Phân tích các chỉ số thống kê của mẫu
      - Suy dẫn và kết luận
    - - Khoảng tin cậy
        
        là khoảng giá trị mà giá trị thực của tham số sẽ rơi vào một độ tin cậy cho trước
      - Độ tin cậy
        
        là mức độ tin cậy của khoảng tin cậy
      - Độ lỗi chuẩn
        
        đo độ lỗi giữa ước lượng và giá trị thực
        
        thường được tính là độ lệch
        chuẩn của phân phối trung bình của các mẫu
        
        kích thước mẫu càng lớn thì độ lỗi càng nhỏ
    - - Kiểm định giả thiết
      - Hồi quy
  - - - Phát biểu giả thuyết rỗng và khác rỗng
        
        Giả thuyết rỗng là giả thuyết không có gì khác biệt, thay đổi so với mẫu
        
        Giả thuyết không rỗng: ngược lại với giả thuyết rỗng
      - Chọn mẫu
      - Xác định mức ý nghĩa
        
        Significant level
        
        Mức độ tin cậy giả thuyết rỗng được chấp nhận
        
        Thường là 0.05
        
        P-value
        
        chỉ số đo đô mạnh của việc chấp nhận giả thuyết rỗng
        
        p-value <= a: chấp nhận giả thuyết rỗng
      - Phân tích các chỉ số thống kê
      - Kết luận
        
        Chấp nhận hoặc loại bỏ giả thuyết
        
        Sai lầm loại 1
        
        giả thuyết đúng nhưng bị loại
        
        Sai lầm loại 2
        
        giả thuyết sai nhưng không bị loại
    - - T-test
        
        Kiểm chứng giá trị trung bình của 1 hoặc 2 nhóm
        
        1-sample t-test
        
        Trung bình của nhóm khác với giá trị giả thiết
        
        2-sample t-test
        
        trung bình của 2 nhóm là khác nhau
        
        paired t-test
        
        cặp trung bình của 2 tính chất cùng đối tượng là khác nhau
        
        Vd: cân nặng trước và sau khi ăn kiêng
        
        Có thể sử dụng t-value hay t-critical để bác bỏ giả thiết
      - ANOVA test
        
        F-Test
        
        Kiểm tra giá trị trung bình từ 3 biến trở lên
      - Chi square test
        
        Sử dụng cho dữ liệu phân lớp
- - - - có một tập dữ liệu học cho trước
      - Classification
        
        Nhị phân
        
        Multiclass
        
        Các thuật toán
        
        Logistic regression
        
        Naive Bayes
        
        Decision tree
        
        Chọn nốt nào?
        
        Sử dụng thuật toán tham lam
        
        Quyết định dựa trên độ đa dạng của node được tách
        
        Gini
        
        Entropy
        
        Misclassification error
        
        Tách như thế nào?
        
        Thuộc tính phân lớp
        
        Tách nhiều nhánh
        
        Tách nhị phân
        
        Thuộc tính liên tục
        
        Rời rạc hóa
        
        Quyết định nhị phân
        
        Điều kiện dừng
        
        Dừng tách node khi tất cả mẫu tin đều cùng thuộc 1 lớp
        
        Dừng tách 1 node khi tất cả các mẫu tin có cùng giá trị
        
        Kết thúc sớm
        
        Điểm mạnh
        
        Chi phí thấp
        
        Nhanh khi phân lớp mẫu tin mới
        
        Dễ diễn dịch nếu cây nhỏ
        
        Accuracy tương tự các thuật toán khác nếu tập dữ liệu đơn giản
        
        Random forest
        
        Support Vector Machine
        
        Dùng cho phân lớp nhị phân
        
        K-Nearest Neighbours
        
        Dán nhãn dựa trên k láng giếng gần nhất
        
        thường dùng khoảng cách Euler
      - Prediction
    - - Không có tập dữ liệu học cho trước
      - Clustering
        
        Thuật toán
        
        Hierarchical clustering
        
        Partional clustering
        
        K-Means
        
        Phân hoạch dữ liệu cho trước vào k cụm
        
        1 cụm có 1 trung tâm gọi là centroid
        
        k được xác định trước
        
        Cách hoạt động
        
        ngẫu nhiên chọn k điểm dữ liệu để khởi tạo điểm trung tâm cho cụm
        
        gán điểm dữ liệu vào centroid gần nhất
        
        tính toán lại centroid dựa trên các thành viên hiện tại của cụm
        
        nếu dk hội tụ chưa thỏa thì quay lại bước 2
        
        3 more items...
        
        Điểm mạnh
        
        Dễ hiểu, dễ cài đặt
        
        Độ phức tạp ko cao
        
        Thông dụng nhất
        
        Điểm yếu
        
        chỉ áp dụng được nếu có thể định nghĩa điểm trung bình
        
        Phải xác định k trước
        
        nhạy cảm với outliers
- - - - Hồi quy tuyến tính đa biến
        
        tìm sự liên hệ giữa biến phụ thuộc Y và các biến độc lập X
      - Hồi quy tuyến tính đơn biến
        
        Độ lỗi = giá trị thực - giá trị ước lượng
        
        Các độ đo lỗi thường dùng
        
        Sum square error (SSE)
        
        Mean square error (MSE)
        
        Root mean square error (RMSE)
        
        Tìm đường hồi qui sao cho SSE là nhỏ nhất
        
        R- squared
        
        SSR/ SST
        
        càng cao thì đường hồi quy 'càng tốt'
        
        quá cao => Overfiting
        
        Tăng khi số biến độc lập tăng
        
        Adjusted R squared
        
        giá trị phụ thuộc vào số biến có trong model
        
        thay đổi khi thêm biến vào mô hình
        
        tăng khi biến mới thêm vào làm tăng hiệu năng mô hình
        
        Chọn sai biến sẽ khiến giá trị giảm
        
        Tìm sự liên hệ giữa biến độc lập X và biến phụ thuộc Y
      - Các bước thực hiện
        
        Chuẩn bị dữ liệu
        
        Feature selection
        
        Exhaustive search
        
        Vét cạn tất cả TH
        
        quyết định dựa trên adjusted R^2
        
        Partial search
        
        Forward
        
        Bắt đầu với 0 biến
        
        Thêm lần lượt từng biến có giá trị đóng góp cao nhất vào
        
        Dừng đến khi các gtr thống kê không còn thay đổi nữa
        
        Backward
        
        Bắt đầu với tất cả các biến
        
        Loại bỏ dần các biến ít đóng góp nhất
        
        Dừng lại khi các biến còn lại đạt hiệu quả về mặt thống kê
        
        Stepwise
        
        Tương tự Forward
        
        Tại mỗi bước cân nhắc loại bỏ các biến không cần thiết
        
        K-best
        
        Cực kì quan trọng
        
        Phân chia tập train và test
        
        Lựa chọn mô hình
        
        Train model
        
        Kiểm tra và đánh giá
        
        R-square cao là dấu hiệu overfitting
        
        Tránh overfiting
        
        Cross validation
        
        Sử dụng predicted R squared
        
        Mẫu được chọn phải ngẫu nhiên
        
        Kích thước mẫu phải đủ lớn
        
        Lasso
        
        Ridge
        
        Elastic net
    - - Khi biết phụ thuộc chỉ là 2 giá trị
      - Phân lớp nhị phân
      - Các độ đo đánh giá
        
        Confusion matrix
        
        True Negative
        
        False Positive
        
        False Negative
        
        True Positive
        
        Accuracy
        
        Số TH đoán đúng
        
        Precision
        
        Tỉ lệ thực đúng
        
        Recall
        
        Tỉ lệ bỏ sót giá trị
        
        ROC Curve
- - - - dựa trên cơ sở hypothesis testing
      - ADF
      - KPSS
  - - - Khử trend
      - Differencing
      - Hàm transformation
  - - - Tính giá trị tiếp theo dựa trên trung bình cộng k phần tử trước đó
    - - Dùng hệ số alpha để điều chỉnh độ nhạy của dữ liệu
    - - p
        
        No of lag observations
      - d
        
        Số lần differencing
      - q
        
        Kích thước cửa sổ trượt
      - Cách làm
        
        Vẽ time series format
        
        Biến đổi stationary trên mean bằng cách khử trend
        
        Biến đổi stationary bằng log transform
        
        Difference log transform để đưa về stationary trên mean và variance
        
        Vẽ ACF và PACF để tìm AR và MA
        
        Tìm TH tốt nhất cho mô hình ARIMA
        
        Dự đoán giá trị tương lai
        
        Kiểm tra lại kết quả dự đoán
      - AR
        
        sử dụng dữ liệu quá khứ để dự đoán tương lai
      - MA
        
        sử dụng past error để dự đoán tương lai
      - I
        
        số lần differencing để biến đổi stationary data
- - - - Xác định loại ngoại lệ: do lỗi hay ngoại lệ cần chú ý?
      - Do lỗi: xóa/thay thế bằng giá trị phù hợp
  - - - Thuộc tính dữ liệu không quan trọng -> drop
      - Thuộc tính quan trọng -> Fill bằng giá trị hợp lý
- - - - Trung bình (Q2).
      - Phần tư đầu tiên (Q1).
      - 3/4 dữ liệu (Q3).
      - Min
      - Max
      - Outliers
      - IQR (Interquartile range)
- - - - Lập trình
      - Máy học
    - - Đại số tuyến tính
      - Giải tích (Tích phân, đạo hàm,…)
      - Xác suất thống kê
  - - - Kiến trúc dữ liệu (Data Architecture)
      - Khoa học dữ liệu (Data Science)
    - - Kỹ sư dữ liệu (Data Engineer)
      - Phân tích viên dữ liệu (Data Analyst)
      - Nhà khoa học dữ liệu (Data Scientist)
- - - - Exploratory Data Analysis (EDA) là cách tiếp cận/triết lý cho phân tích dữ liệu sử dụng các kỹ thuật khác nhau (hầu hết là đồ thị trực quan) để phát hiện các thông tin ẩn (insight) trong tập dữ liệu
        
        Khám phá cấu trúc ẩn tàng (underlying structure);
        
        Trích các biến quan trọng;
        
        Phát hiện các ngoại lệ và bất thường (outliers and anomalies);
        
        Kiểm tra các giả thiết tiềm ẩn (underlying assumptions);
        
        Phát triển các mô hình
        
        Xác định các tham số tối ưu cho mô hình
    - - Đề xuất giả thuyết về nguyên nhân của hiện tượng quan sát được
      - Thử nghiệm các giả thiết (assumptions) dựa trên suy dẫn thống kê (statistical inference)
      - Hỗ trợ chọn công cụ thống kê và các kỹ thuật
      - Cung cấp cơ sở cho việc thu thập thêm dữ liệu thông qua khảo sát (surveys) hay thực nghiệm
- - - - Dữ liệu số (Numberic):
      - Liên tục (Continuous)
      - Rời rạc (Discrete)
      - Dữ liệu phân lớp (Categorical)
      - Dữ liệu thứ tự (Ordinal)
  - - - Là sự liên quan giữa 2 biến _ 1 biến tăng/giảm ảnh hưởng thế nào đến biến kia?
      - Hệ số tương quan (Correlation Coefficient): Độ đo sự tương quan giữa 2 biến.
      - Hệ số tương quan Pearson: p thuộc [-1;1]
      - p=0: không liên quan
        0<p<1: liên quan và đồng biến
        -1<p<0: liên quan và nghịch biến
    - - Bình phương độ lệch chuẩn (= phương sai)
      - Độ lệch chuẩn (Standard Deviation) càng nhỏ, dữ liệu càng tập trung quanh điểm trung bình.
      - Khoảng dữ liệu (range) = Max - Min
      - Các khoảng n% (percentile)
        
        Q1: first percentile (25%)
        Q2: second percentile (50%)
        Q3: third percentile (75%)
      - IQR (Interquartile Range): khoảng từ Q1 đến Q3
    - - Tính đối xứng (Symmetric) bất đối xứng (Skewness) so với trung tâm.
        -> Giúp so sánh phân phối của dữ liệu với phân phối chuẩn (Normal Distribution)
    - - mean (độ đo trung bình) : Dễ bị ảnh hưởng bởi dữ liệu ngoại lệ. Và thường được sử dụng cho dữ liệu đối xứng và liên tục.
      - median (giá trị giữa) : Không bị ảnh hưởng bởi dữ liệu ngoại lệ. Thường được dùng cho dữ liệu bất đối xứng, liên tục, thứ tự.
      - mode: Dữ liệu có tần suất cao nhất