Please enable JavaScript.
Coggle requires JavaScript to display documents.
Summarization (Unstructured data (text) (Hidden Markov model…
Summarization
Unstructured data (text)
Naive-Bayes classifier
Decision tree
Hidden Markov model
通过在马尔科夫链上加入三组模型参数
NLP
Topic modelilng
Similarity measure based
流数据(stream)
抽样
直方图
Bloom filter
只能用于query,不能用于后续处理
基于哈希
滑动窗口(sliding window)
Wavelets(小波分析)
分解后高阶系数代表数据总体趋势
分解后低阶系数代表局部趋势
Structured data(可放入行列)
统计学手段
聚类
BIRCH
CF-tree
只能应用在数值上
抽样
简单随机抽样
分层(stratified)随机抽样
先将数据分层,再应用简单随机抽样
系统抽样(等距抽样)
整群(cluster)随机抽样
先分为若干簇,随机抽几个簇
多阶段(multi-stage)随机抽样
先分为若干簇,随机选取簇,从簇中随机抽样
基于语义的手段
语言概括
面向属性归纳
Fascicle
SPARTAN
ItCompress
机器学习手段
频繁项集
BUS(Bottom-Up Summarization)
最简洁+最小信息损失
聚类
基于中心点的k-means
用loss阈值和loss函数来控制中心点的数量
loss在阈值至上,在大类边上产生新的中心点
loss到达阈值之下停止计算
基于特征交叉点的摘要
数据集聚类后,可以根据特征交叉关系来进行最终摘要
例如在网络流量数据中,聚类后不同类的数据里的protocol属性可能值都是“TCP”
缺点:在包含离群值的数据集中,聚类表现往往不好