Please enable JavaScript.
Coggle requires JavaScript to display documents.
假新闻检测综述 (待完善ing) (研究方向 (模型方面 (如何组合特征, 预测目标的变化, 组合内容源,文章风格和内容反馈的模型,…
假新闻检测综述 (待完善ing)
研究方向
构建标准数据集
通过传播特性去提早干预检测假新闻
从心理学角度做假新闻的意图检测
模型特征方面
用户画像特征
内容特征,包括NLP和CV
传播网络特征,比如用户和内容之间的关系构造出的网络特性
模型方面
如何组合特征
预测目标的变化
组合内容源,文章风格和内容反馈的模型
空间转换,把特征变换到其它潜在语义结构空间解决
数据集
LIAR
包括内容本身和内容的基础属性数据(来源,正文)
Twitter and Weibo DataSet
包括帖子 ID,发帖用户 ID,正文,回复等数据
Twitter15 Twitter16
包括了帖子之间的树状收听,关注关系和帖子正文等
Buzzfeed Election Dataset & Political News Dataset
选举假新闻,以及作者收集的 75个 新闻故事。假新闻,真新闻和讽刺新闻。
FakeNewsNet
包括新闻内容本身(作者,标题,正文,图片视频)和社交上下文内容(用户画像,收听,关注等)
一些假新闻的结论
假新闻通常更短,很少使用技术词汇和标点符号
词汇多冗余,标题更长,偏好名词和动词
真新闻通过讨论来说服,假新闻通过启发来说服
真实新闻的来源比较集中,而假新闻通过人们转发其它者来传播。
纯文本内容分析大体思路
干净的预处理
特征工程,组合融合各种特征 :star:
多种模型stacking
预训练语言模型embedding
模型
基于内容
面向知识库
落地成本高,难度大,效果不一定理想。
用到了知识表示和知识推理。通过概率模型来识别问句中的实体,问答时在KB上做逻辑推理。推理规则通过学习而来,用于事实判断。
面向行文风格
对内容本身的行文风格进行分析句子结构或文法信息。根据捕捉的文本信息描述种类不同,可分成检测欺骗程度,和检测主观客观程度。
分析假新闻可能用到的特征,包括普通特征比如页面、文本、图片和标题等特征embedding,以及聚类特征,把普通特征进行聚类组合。
基于社交网络
基于立场
用户的评论,点赞和举报等构建矩阵或图模型
基于传播行为
对虚假新闻的传播游走轨迹跟踪,通过图模型和演化模型对特定新闻进一步调查。
识别虚假新闻的关键传播者。
相关竞赛
WSDM_Cup
2019
真假新闻甄别
互联网虚假新闻检测挑战赛
参考
github总结
Made By 除夕酱