Please enable JavaScript.
Coggle requires JavaScript to display documents.
DATA VISUALIZATION, Data Visualization in System Monitoring - Coggle…
DATA VISUALIZATION
1. Tổng quan
Thế nào là 1 trực quan hóa đẹp?
Mục tiêu
Đánh giá độ hiệu quả
Vận dụng PP phân tích dữ liệu thăm dò bằng hình ảnh
Tableu
Sách
The Visual Display
of Quantitative Information
Sách
Visualization Analysis & Design
Định nghĩa
Chức năng
Hỗ trợ suy luận,
phân tích thông tin
Nhìn được ngữ cảnh
Mở rộng ghi nhớ
Ra quyết định
Tính toán đồ thị
Truyền tải thông tin
Ghi thông tin
Nghiên cứu trong DV
Sensing
Internet
Hiểu cách thức DV
Phát triển nguyên tắc
& tech để tạo DV hiệu quả
Link:
https://fithcmus.zoom.us/j/94356379143
Passcode: 291363
https://drive.google.com/drive/folders/1jv5Mn7KR7XLUdH04n2qwUF1mp8Hj2tXL
2. Data Model
Phân loại kiểu dữ liệu
Cách 1 (Schneiderman 1996)
convert qua cách 2
Cách 2 (Stevens 1946)
Nominal
Ordered
Quantitative
Ratio Quantitative
Interval Quantitative
Marks & Visual variables
Marks: 3 Yếu tố hình học cơ bản
Visual variables:
Hình thức kiểm soát thể hiện của marks
Shape
Size
Position
Color
Tilt
Phân loại Theo Bertin 1967
Ánh xạ data vào image
Dữ liệu 1 biến
3. Nguyên lý
Mackinlay
Tính diễn đạt
express all the facts
only the fact in the data
Tính hiệu quả
Truyền tải thông tin nhanh hơn
Xếp hạng của Mackinlay
(tham chiếu để chọn effective nhất)
Thuật toán thiết kế
của Mackinlay
Tìm kiếm trong không gian thiết kế:
Map với bảng xếp hạng, chọn ra phương tiện tốt nhất
Cho ra hình ảnh
List ra các biến hình ảnh
& xếp hạng theo tầm quan trọng
mã hóa thành
các biến hình ảnh
Định lượng
Có thứ tự
Định danh
Định lượng
tính hiệu quả
▸Chính xác (accuracy)
▸Phân biệt (discriminability)
Số lượng bins phải đủ cho rời rạc hóa
▸Tách rời (separability)
▸Bật ra (popout)
▸Gom cụm (grouping)
Cách đo đạc
Tính nhất quán
Các tính chất của biến hình ảnh
phải khớp với tính chất của dữ liệu
4. Trực quan hóa
đa chiều
Phương pháp
Dùng nhiều biểu đồ phân tán
Dùng Scatterplot Matrix để so sánh tương quan từng cặp biến
Chernoff faces
Tọa độ song song
mbostock.github.io/protovis/ex/cars.html
Giúp nhìn tổng thể các thuộc tính
Giá trị có phạm vi rộng hẹp
Giá trị ngoại lai
Tìm ra mối tương quan: Tỷ lệ thuận, nghịch
Scatterplot Matrix Vs Tọa độ song song
Chiến lược
Giảm chiều của bài toán
Nhúng tương tác để tạo thêm góc nhìn
Dùng không gian hiệu quả
Tránh mã hóa chồng chéo
Các trực quan hóa khác
heatmap
highlight table
tree map
Choropleth map
stream graph
Radar chart
(Exploratory Data Analysis)
EDA
1. Tổng quan
Sử dụng
graphical
technique
Hiểu thấu
tập dữ liệu, cấu trúc dữ liệu
Trích xuất ra dữ liệu nào là
quan trọng
Phát hiện ngoại lai
Kiểm chứng
các giả định cơ bản
Giúp phát triển, tối ưu mô hình
Vai trò
Kiểm tra giả định
Chọn lựa, đánh giá mô hình
Khi nào dùng cái nào?
Vẽ với các số liệu thống kê
Bố trí vị trí các biểu đồ
Vẽ biểu đồ với dữ liệu ban đầu
Là con đường ngắn nhất
để hiểu dữ liệu
Các bài toán trong EDA
▸Univariate & Control
Đơn biến
▸Comparative & Screening
Độ tương quan giữa các biến, sắp xếp nhân tố theo độ quan trọng
▸Optimization & Regression
▸Time Series & Multivariate
Giả định trong EDA
Giả định cơ bản
4 giả định
fixed distribution (2)
fixed location (3)
Ngẫu nhiên (1)
fixed variation (4)
+1: Ngoại lai
Kiểm tra giả định cơ bản
Dùng 4 Plot để kiểm định giả định (1)
Dùng Autocorrelation plot & Lag plot để kiểm tra (2)
Non-fixed location
Công thức của giá trị trung bình có thể ko hợp lệ
Giới thiệu
Hậu quả là gì nếu
dữ liệu ko thỏa giả định?
Phân tích
Kỹ thuật biểu đồ
Dùng 4 plot
run sequence (Y vs i) -> kiểm tra
(3) (4)
lag (Y vs Y-1)
(1)
histogram
(2)
Normal probability plot (ordered Y vs theoretical ordered Y)
(2)
Box plot
Scatter plot
Bảng phương pháp biểu đồ phổ biến cho câu hỏi (slide 35/EDA2)
Kỹ thuật định lượng
Kiểm chứng giả thuyết
Giải quyết sự không chắc chắn của ước lượng
thay vì cung cấp 1 khoảng, pp này sẽ bác bỏ/chấp nhận một yêu cầu cụ thể về tham số thực tế dựa trên dữ liệu mẫu
Cùng dựa trên dữ liệu mẫu
Sử dụng cả 2 giả thuyết (null vs alternative)
Quy trình kiểm định thống kê
Thu thập dữ liệu D
Tính xác suất của D nếu H_ đúng
Phát biểu giả thuyết H_
Ước lượng khoảng
Ước tính trước các tham số thực tế
Đối chiếu kết quả với nhau
Kỹ thuật location
Kỹ thuật
scale,spread,variability
Chi-square test
F-test
Levene test
Giới hạn độ tin cậy của mean & t-test
T-test trên 2 tập mẫu
Đo đạc trung tâm
Phân tích biến thiên
Rào cản khi sử dụng dữ liệu
SỬ DỤNG KHÔNG GIAN
HIỆU QUẢ
Scale
Tỷ lệ hình dáng
Transformation
Vẽ đồ thị cho Residual
Vẽ đồ thị cho độ lệch (error)
Cần tối đa hóa khả năng phân biệt hướng của các đoạn thẳng
aspect ratio phải phù hợp
Kỹ thuật nghiêng 45 độ
Tìm ra xu hướng
Thêm/chuyển đổi thang đo sang log base 2 để khảo sát, so sánh tốc độ tăng
Break thang đo ra nếu cần thiết, ko nên lạm dụng
Nên loại bỏ outlier sau khi tìm ra outlier
Lấp đầy vùng dữ liệu nhất có thể
LAYOUT
INTERACTION
Nguyên lý
khoảng cách (gulf)
Truy vấn động
Truy vấn trực quan
Nới rộng phạm vi
Chọn lựa suy rộng
giúp thao tác nhanh, gia tăng, có thể đảo ngược
Hiển thị kết quả tức thì và liên tục
Hệ thống tương tác đầu tiên
Các kiểu tương tác
Pointing
Brushing
Linking
Khoảng cách giữa mô hình
khái niệm và thế giới thực
Dữ liệu bảng
Dữ liệu không gian
Mạng và cây
Dữ liệu mạng - network
Node-Link
Ma trận liền kề
Enclosure - khung bao
Trường vector
Trường tensor
Hình học, bản đồ vùng giá trị
Trường vô hướng
Biến hình ảnh
vs không gian
Q: position -> length
O: Position -> length
N: ghom cụm những giá trị giống nhau trước
Sắp xếp dữ liệu
Sắp xếp theo khóa và giá trị
0 key, n value -> scatter plot
1 key -> bar/line/dot chart
2 key -> heat map
n key -> scatterplot matrix/radar chart
Data Visualization
in System Monitoring
More...
Dữ liệu đa chiều
Các biến thể
Fun more: chenoff face for region monitoring
Interaction
Layout
Sử dụng không gian
Scale
Principles
Mackinlay's Principles of Effective Visual Encoding
Tiêu chí diễn đạt nhất quán
thể hiện đúng ý nghĩa và cấu trúc dữ liệu, không gây hiểu nhầm hay thiếu sót.
Tiêu chí hiệu quả
Kênh Định Lượng (Quantitative Channels)
Kênh Thứ Tự (Ordered Channels)
Kênh Định Tính (Categorical Channels)
BXH các kênh trực quan (visual channels)
https://www.researchgate.net/figure/The-Mackinlay-ranking-of-perceptual-task_fig2_221098028
Overview
Thế nào là một dashboard tốt?
Nhu cầu hiện tại trong tổ chức?
How to optimize when migrate to other Dashboard?
Use cases
CPU, bộ nhớ, traffic, I/O
Line chart: Hiển thị mức sử dụng CPU, RAM
Heatmap: Xác định các khoảng thời gian có hiệu suất kém
Logs
Barchart: logs types
timeline charts
Types
Ít chiều
Đa chiều
Splunk
Pie chart
Column
Line
Scatter chart
Bubble chart
Event annotations for charts
Bar charts
Area charts
Gause
Map
Single value
OpenSearch
https://opensearch.org/docs/latest/dashboards/visualize/viz-index/
service mornitoring
Service map: Biểu đồ mạng lưới service.
Histogram: Phân phối thời gian request response.
Gauge chart: Theo dõi sử dụng CPU và bộ nhớ của từng Node.
Stacked bar chart: Hiển thị trạng thái của Pods (Running, Pending, Failed)
Heatmap: Lưu lượng mạng theo giờ hoặc khu vực địa lý.
Flow chart: Luồng dữ liệu giữa các máy chủ.