Please enable JavaScript.
Coggle requires JavaScript to display documents.
第二次讨论 (特征Pool (行文风格分析 (Jim, 情感分析 :check:, 文本质量检测 :check:, 句法解析 :check:,…
第二次讨论
特征Pool
做词频分析,去除停用词。基于词频的贝叶斯模型。带unicode和不带unicode文本特征,文本长度特征,标点与文字比率特征
Steven
TF-IDF搜索引擎。正在做。
Jeien
实体词提取 :check:
Lina
短文本匹配,相似度匹配。句嵌入/文档嵌入。 :check:
Harry
做主题分类。 :check:
FANG Streven
先把训练文本主题词在辟谣文本库搜索,相似度匹配后筛选出很多的话,就大概率是假新闻
知识图谱,关注时间,人物,地点,把事实纳入知识图谱
FANG
行文风格分析
Jim
情感分析 :check:
文本质量检测 :check:
句法解析 :check:
自动摘要 :check:
情感分析 :check:
Ji
对于长新闻,前几个后几个词。掐头去尾。
Lu :check:
辟谣微信小程序爬虫搜索 :check:
文本分类的模型
TextCNN
RCNN
Hierarchical Attention Network
seq2seq with attention
Dynamic Memory Network
fastText
预训练模型
XLNet中文
百度ERNIE
RoBERT中文
BERT中文
XLM多语言预训练模型
传统的吃结构化数据的pool
XGBoost
LightBoostM
Scikit-learn classification algorithms (ET, RF, KNN, etc.)
RF
基于知识库搜索和文本匹配的
一是充分利用辟谣文本
二是利用辟谣小程序
基于TF-IDF的主题模型
fastai 文本分类