Please enable JavaScript.
Coggle requires JavaScript to display documents.
Hiểu dữ liệu - tiền xử lý - Coggle Diagram
Hiểu dữ liệu - tiền xử lý
Hiểu bài toán
5 yếu tố để hiểu:
Input: ta đã có gì?
Output: Ta đang cần gì? cần quyết định cái gì
Mục tiêu: Cái gì cố gắng để đạt được
Hạn chế: cái gì cản trở giải bài toán
cái gì tìm hiểu thêm được từ bài toán?
ví dụ: dự đoán khách hàng có hủy đăng ký gói xem phim online ko?
input: thông tin KH, giờ xem mỗi tuần, thời lượng xem, lịch sử xem
output: dự đoán hủy hay không hủy?
mục tiêu: dự đoán để ngăn cản kịp nếu khách hàng hủy
Hạn chế: dữ liệu mất cân bằng, KH thay đổi liên tục
Bonus: phát hiện các yếu tố khiến KH hủy gói và khắc phục
Hiểu dữ liệu
vai trò:
Giúp hiểu bài toán, kiểu dữ liệu, kích thước dữ liệu, đối tượng dữ liệu, đặc trưng
=> Đầu vào thực sự cho bài toán phân tích dữ liệu
Kiểu dữ liệu
: bản ghi, đồ thị...
Đối tượng dữ liệu
: bán hàng, y tế...: được mô tả bằng
thuộc tính..
Đo khoảng cách dl nhị phân
nhị phân: đối xứng và không đối xứng (jaccard - giống độ gắn kết)
Đo khoảng cách dl định danh
Đo khoảng cách dl số
Minkowski
bậc 1: Manhattan
bậc 2: euclid
bậc vô cùng: supremum
Đo độ tương tự 2 đối tượng
Cosine
cos(d1, d2) = (d1 . d2) /||d1|| ||d2||
so sánh 2 phân bố xác suất của 2 đối tượng: Kullback-Leibler
Phân kỳ KL đo số bit kỳ vọng bị lãng phí nếu ta mã hóa dữ liệu dùng phân phối 𝑞 ( 𝑥 ) thay vì đúng là
𝑝 ( 𝑥 )
không phải độ đo khoảng cách vì phi đối xứng, k đảm bảo tính chất tam giác
Mô tả thống kê
Kì vọng, trung vị, độ lệch chuẩn, độ đo phân tán
Tiền xử lý dữ liệu
Vai trò: Dữ liệu có thể thiếu hoặc bội hoặc không chính xác, gây hiểu nhầm -> cần xử lý tích hợp nhất quán của dữ liệu chất lượng, phù hợp với mục đích bài toán
Các bài toán chính:
Làm sạch, tích hợp dữ liệu, chuyển dạng dữ liệu, rút gọn dữ liệu, rời rạc dữ liệu
Làm sạch dữ liệu:
quá trình xác định tính ko chính xác, k đầy đủ, k hợp lí của dữ liệu và chỉnh sửa
Các vấn đề: Xử lý giá trị thiếu và dữ liệu nhiễu
Phương pháp xử lí nhiễu: đóng thùng, phân cụm và hồi quy
Tích hợp dữ liệu
: kết hợp nhiều nguồn thành 1 nguồn chung
Các vấn đề: tích hợp sơ đồ, siêu dữ liệu...
Xử lý dư thừa
Chuyển dạng dữ liệu
: cách thức: làm trơn, tổng hợp, chuẩn hóa, tạo đặc trưng
Chuẩn hóa min-max
Chuẩn hóa z-score
Chuẩn hóa tỷ lệ thập phân
Rút gọn dữ liệu
: để xử lý tập dl lớn mất nhiều tgian-> gọn nhẹ hơn
chiến lược: tập hợp khối dl, giảm đa chiều, nén dl, rút gọn mẫu, rút gọn đặc trưng
Rời rạc hóa
: chia miền thuộc tính liên tục thành các đoạn. Giúp rụt gọn kích thước dữ liệu và chuẩn bị cho phân tích tiếp