玩手机游戏,享快乐生活!
应用
铂诺理财2.9.3官方下载_最新铂诺理财app免费下载 AToken3.1.0官方下载_最新ATokenapp免费下载 柜猫家居1.0.2官方下载_最新柜猫家居app免费下载 CoinBene2.3.4官方下载_最新CoinBeneapp免费下载 美说1.5.4官方下载_最新美说app免费下载 来这花2.8.0官方下载_最新来这花app免费下载 口袋信用卡1.5.0官方下载_最新口袋信用卡app免费下载 小陪伴1.2.0官方下载_最新小陪伴app免费下载 证照卡包2.0.7官方下载_最新证照卡包app免费下载 觅诺1.8.2官方下载_最新觅诺app免费下载 欢孝-助老员版2.3.4.19官方下载_最新欢孝-助老员版app免费下载 闪银5.1.1官方下载_最新闪银app免费下载 现金贷手机借钱3.2.1官方下载_最新现金贷手机借钱app免费下载 我是球星5.3.6官方下载_最新我是球星app免费下载 铃声剪辑3.8官方下载_最新铃声剪辑app免费下载 超级视力表1.1.7官方下载_最新超级视力表app免费下载 体教联盟4.8.5官方下载_最新体教联盟app免费下载 医护之家2.4.9官方下载_最新医护之家app免费下载 BBIN电子1.0官方下载_最新BBIN电子app免费下载 美付宝4.0.0官方下载_最新美付宝app免费下载 心悦俱乐部4.9.5.31官方下载_最新心悦俱乐部app免费下载 慧眼识图1.17官方下载_最新慧眼识图app免费下载 堆糖7.2.5官方下载_最新堆糖app免费下载 更多
游戏
口袋超萌112.1官方下载_最新口袋超萌app免费下载 阿瓦隆之王5.8.1官方下载_最新阿瓦隆之王app免费下载 奇迹之剑1.2.3.2官方下载_最新奇迹之剑app免费下载 剑雨幽魂1.0.15官方下载_最新剑雨幽魂app免费下载 云梦四时歌1.68.0官方下载_最新云梦四时歌app免费下载 大话西游1.1.183官方下载_最新大话西游app免费下载 诺亚传说5.0.110官方下载_最新诺亚传说app免费下载 捕鱼欢乐季V1.5.95官方下载_最新捕鱼欢乐季app免费下载 放开那三国6.2.9官方下载_最新放开那三国app免费下载 奥特曼联盟之百变超人3.8.0官方下载_最新奥特曼联盟之百变超人app免费下载 叶罗丽公主水晶鞋2.3.0官方下载_最新叶罗丽公主水晶鞋app免费下载 米诺怪兽2:进化4.0.104官方下载_最新米诺怪兽2:进化app免费下载 奥特曼疯狂跑酷1.5.0官方下载_最新奥特曼疯狂跑酷app免费下载 铠甲勇士4之捕将5.6.0官方下载_最新铠甲勇士4之捕将app免费下载 全民捕鱼季1.0官方下载_最新全民捕鱼季app免费下载 废土行动2.10.1官方下载_最新废土行动app免费下载 菲狐倚天情缘1.0.0官方下载_最新菲狐倚天情缘app免费下载 一统天下10.1.8官方下载_最新一统天下app免费下载 神之物语1.0.16官方下载_最新神之物语app免费下载 天仙月1.0.3.3官方下载_最新天仙月app免费下载 天龙八部1.50.2.2官方下载_最新天龙八部app免费下载 口水三国(网游)1.6.0官方下载_最新口水三国(网游)app免费下载 剑与轮回-红包雨2.6.2官方下载_最新剑与轮回-红包雨app免费下载 更多
资讯
广东海关一季度查扣侵权货品逾1300万件 湖南一男人争夺公交车方向盘致车辆失控被判刑 一男人骑车遇查看强行冲岗 交警被拖行10余米 揭圈养大熊猫繁衍野化:从“两情相悦”到回归自然 2018年粤港澳大湾区邮轮旅客出入境招待量到达257万人次 抢红包软件罗列“三宗罪” “红包神器”被用来赌博 深圳彩民连中双色球一等奖 4天收成逾2000万元 姑娘,你尽力的姿态真美! 哈铁“五一”小长假开行最美赏花专列 甘肃永靖遭暴雨冰雹劲风灾祸 16人因冰雹砸落受轻微伤 奔跑吧,少年! 人大劳人院与贵大管院签署对口援助协作协议 男人在三亚酒店连杀三女 法院开庭审理曝光案情 甘肃警方首季冲击“食药环”违法犯罪涉案3.3亿 医生拒接诊插队患者被差人带走?我国医生协会发声明 广河高速致19死交通事故责任人被准予强制罚款700多万元 山西志愿者与学生组成“家庭”:你的生长与我有关 山西部分地区气温跌至个位数 多地飞雪 湖北武汉: 16个邮包中“LV、YSL”商标都是假的 假造儿子失踪引全城搜救 “失联男孩母亲”案将开庭 湖北安陆自来水变绿色 官方:估计27日全面康复供水 佛山新生儿感染致死 专家:单发的院感事情不可避免 南京一高校被打砸 系社会清闲人员和被开除学生鼓动 更多
联系我们
版权说明
当前位置: 首页 > 资讯 > 科技

一文看懂虚伪新闻检测(附数据集 & 论文引荐)

来源:第七纬度下载吧 发布时间:2019-02-19 20:30:24 点击数:

自己曩昔几年一向从事内容质量方面的算法作业,近期出于爱好对假新闻这个问题做了一些调研,简略总结一下供给读者参阅。

在某种程度上假新闻的是一个微观范畴问题,它和流言分类,现实判别,标题党检测,废物内容发掘等都比较相似,在微观上说都归于内容质量的范畴,所以许多办法其实是通用的结构。

本文首要简略介绍了咱们的做法和几篇具有典型代表的假新闻论文,从不同的办法途径去了解多模态、网络游走、特征发掘等手法在假新闻范畴上的一些实践。

模型构建

依据 [Kai Shu, 2017] 的区分,模型在这儿首要有两类:1)依据内容的建模;2)依据交际网络的模型。

1. 依据内容建模 

有 1.1 面向常识和现实库的和 1.2 面向行文风格的。 

1.1 面向常识库 

现实查看系统有点相似流言辨别系统 ,对文章描绘的观念和客观事物进行校真,相似 QA 系统是一个比较复杂的 NLP 范畴,包含常识表明、常识推理。在常识库数据集上有会集区分办法: 

1. 专家系统:各个范畴的专家构建的常识库, 显着这种办法的功率和扩展性都十分差。 不过假如是笔直类目(生物,前史)那或许能够在某个客观现实比较多的类目下进行测验;

2. 团体才智:用户团体常识的反应来构建的一套常识库。 

1 和 2 有了之后其实能够经过相似检索的办法,来对新的内容进行相似度判别,然后充分利用堆集的前史内容供给出来的特征指示。 

3. 依据算法分类:运用常识图谱或许事理图谱来对内容进行实在性判别,当时首要的敞开常识图谱有 DB-pedia 和 Google Relation Extraction 数据集。 

这个范畴的问题,相似 NLP 的 QA 问题,有爱好的同学能够参阅 [Yuyu Zhang, 2017] 的 VRN变分推理网络。

作者经过概率模型来辨认问句中的实体,问答时在 KB 上做逻辑推理,且推理规矩将被学习出来。即可用于做现实判别。

当时这个方向技能落地本钱高,难度较大,作用也不必定抱负。

1.2 面向内容风格 

用文章内容自身的行文风格,经过上下文无关文法得到语句的句法结构,或许 RST 修辞依靠理论等其他 NLP 深度模型去捕捉语句文法信息。 

依据捕捉文本信息描绘品种的不同,作者分为两类,检测诈骗程度,检测描绘的片面客观程度(越客观公平的或许性越大)两种。震动体的标题党就归于这类。 

其间,假新闻或许用到的特征,包含一般特征和聚合特征两大类。一般特征就是页面,文本,图片,标题等单纯的特征 embedding,聚合特征就是把各个一般特征进行组合和有监督的训练成一个一个子模型问题。然后这些子模型的输出又能够作为聚合特征用在假新闻范畴。

下图就是咱们运用的首要特征集:

其他:依据交际网络建模 

分为两种,依据态度和依据传达行为的。 

前者首要是依据用户对内容的操作(谈论,点赞 ,告发等等)构建矩阵或许图模型。 

而依据传达行为对方针建模,相似 PageRank 的行为传递。下面介绍的 News Verification by Exploiting Conflicting Social Viewpoints in Microblogs 一文就是这品种型 。 

1. 对虚伪新闻的传达游走轨道盯梢, 以及经过图模型和演化模型中针对特定假新闻的进一步查询;

2. 辨认虚伪新闻的要害传达者,关于减轻交际媒体的传达规模至关重要。

假新闻研讨方向

[Kai Shu, 2017] 文章总结了假新闻的几个首要的研讨方向。

数据方面的研讨作业:现在还没有规范的测评数据集,这是需求去树立的。再有就是经过传达特性去更早的检测假新闻。别的一个就是从心理学视点去做假新闻的目的检测,这个视点曩昔往往被疏忽。 

模型特征方面的研讨作业:往往会运用用户的画像特征,内容特征(NLP、CV)结合深度学习,还有传达网络特征,比方用户和内容之间的联系结构出来的网络特征,网络自身的 embedding 体现。 

模型方面的研讨作业:第一个就是特征之间的组合。第二是猜测方针的改变。第三不论是从内容源,仍是文章风格,或许内容的反应(谈论,等互动行为)都有各自的束缚,组合这些模型。终究就是空间改换,把特征改换到别的的 latent 语义空间测验处理。

数据集

FakeNewsNet

BuzzFeed 和 PolitiFact 两个渠道的数据集,包含新闻内容自身(作者,标题,正文,图片视频)和交际上下文内容(用户画像,收听,重视等)。

数据集可获取办法:

https://github.com/KaiDMML/FakeNewsNet

代表论文

LIAR

该数据集也是来自 PolitiFact,包含内容自身和内容的根底属性数据(来历,正文)。

数据集可获取办法:http://www.cs.ucsb.edu/~william/data/liar_dataset.zip

代表论文

Twitter and Weibo DataSet

一个比较全的数据集包含帖子 ID,发帖用户 ID,正文,回复等数据。

数据集可获取办法:http://alt.qcri.org/~wgao/data/rumdect.zip

代表论文

Twitter15 Twitter16

被上面的数据集运用。来自 Twitter 15、16 年的帖子,包含了帖子之间的树状收听,重视联系和帖子正文等。

数据集可获取办法:https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0

代表论文

Buzzfeed Election Dataset & Political News Dataset

Buzzfeed’s 2016 搜集的推举假新闻,以及作者搜集的 75个 新闻故事。假新闻,真新闻和挖苦新闻。

数据集可获取办法:https://github.com/rpitrust/fakenewsdata1

代表论文

数据发掘

[Benjamin D. Horne and Sibel Adalı,2017] 经过手艺构建了许多的特征,运用单因素方差剖析和秩和查验对特征进行发掘。 发现真新闻文章显着善于假新闻文章,假新闻很少运用技能词汇,更少的标点符号,更少的引号和更多的词汇是冗余的。别的标题也有显着的不同,假新闻的标题会更长,更喜爱添加名词和动词。真的新闻经过谈论来压服,假新闻经过启示来压服。 

相似的内容剖析还有:Automatic Detection of Fake News

[z.zhao et, 2018] 发现大多数人转发(红点)实在新闻是从一个会集的来历(绿点)。而虚伪新闻经过人们转发其他转发者来传达的。

相关论文介绍

在工业界比方互联网公司处理该类问题首要仍是经过构建 pipeline,交融多个模型:内容向模型集,用户向模型集,结合号主发布者特征,内容发生的用户行为特征等归纳构建一套系统进行处理。

咱们在实践操控的时分结合了几十个静态 + 动态特征模型和常识库进行召回 pop 人工验证。

但是和工业界处理问题不同的是,顶会的相关论文首要依据数据集的特色,经过单模型进行建模处理。首要的参阅的维度有:1)内容本体 ;2)内容出产源(源,内容发布者);3)内容阅读者(用户)及其行为(订阅,谈论)三大类,多个小类的特征进行交融处理。

比方经过端到端的深度学习,依据概率散布的特征发掘,构建新颖的归纳类方针函数等大一统的办法进行测验处理。许多模型往往只能在小规模数据集上进行实践。咱们介绍几篇学术范畴相关较新论文。

这篇是 CIKM 2017 的 long paper。作者以为经过构建交际图谱并不便当,构建一些假新闻的特征也需求许多人工常识。文章以为之前的检测办法不能很好的一次整合正文(text),反应(response),源(source)三者的特征。论文的数据集来自 twitter 和 weibo,weibo 中的正文就是谈论的某个论题,而非一般的文章,反应就是主题参加者的回复,源就是回复的用户。 

整个架构由两个部分组成:Capture 模块用于提取一篇正文一切的反应文本信息,经过 LSTM 来拼装多个回复内容。 Scoure 模块经过构建用户联系网络降纬后核算得到一对si和y^i ,si用于后续网络核算,y^i 也可用于独自的用户剖析。

如上图的 Capture 部分用来抽取文章和用户的低维度表明 ,用一个 RNN 来抽取正文(text)的向量。

η 表明订阅的数量 ,Xu 表明用户的大局特征,xτ 就是一切回复谈论的文本特征。

Score 部分,作者关于参加核算的用户特征结构,文中运用了用户之间一起订阅参加主题数量构建的矩阵,然后进行 SVD 降纬,取得对用户的表明 yi, 然后参加核算得到,之后经过一个 mj 的 mask 处理,和上一阶段得到的那些与正文 aj 发生联系的用户,对应的特征向量做求和均匀之后得到文章打分向量 pj。

Capture 得到的 vj 和 Score 的 pj 进行拼接,得到 cj,终究的 Loss 函数是二分类穿插熵丢失 sigmoid 加上 L2 正则束缚。

不得不说作者把依据用户参加的内容对文章的描写和用户之间的行为构建的网络对文章的描写,二者包含的信息都转化成文章的向量一起进行反向传递的方针学习,这点具有很大的突破性。

这篇是中科院核算机研讨所的金志威和曹娟博士的研讨作业,宣布在 AAAI 2016。

Step 1:作者经过一个 Topic 模型来进行抵触的观念发掘。

经过对发帖的支撑和对立行为结构信誉网络(Credibility NetWork),作者以为每一个帖子(tweet)都是由一组混合的主题 topic,和对某个特定主题 topic 多种观念 viewpiont 组成。 每一个主题-观念(topic-viewpoint )pair,它的散布参数来自 Dirichlet 散布。k 表明 topic 维度,l 表明 viewpoint 维度。

1. 每一个帖子,组成它的一切 topic,契合一个参数为 θt 的 Dirichlet 散布。 

2. 相同对一切或许的 topic,组成它的一切的 viewpoint 相同契合一个参数为 ψtk 的 Dirichlet 散布。

然后怎样生成文章呢,就是经过 θt 为参数的多项式散布中得到主题,从 ψtk 的多项式散布中得到观念 Vtn,因为这儿现已断定了 ψtk 的 k,就是主题 k=Ztn,所以就是,l 就是 Vtn。

那终究一个 tweet 的 topic-viewpoint 生成的参数 Φkl 就能够写成,就是发生自多项式散布

假如一个来自同一个主题下面的多个主题-观念 pair,之间间隔十分大(设定值h) 。间隔选用 Jensen-Shannon Distance(JSD),其实 JSD 是 KL Divergence(Dkl)的等价方式。 

详细抵触观念发掘如下: 

1. 对一个新闻数据集建模,生成许多的 topic-viewpoint pair;

2. 比较同一个 topic 生成的 topic-viewpoint 对的 JSD,树立链接联系; 

3. 用 Wagstaff et al 2001 说到的带束缚的 K-means 算法,把某个 topic 下的 viewpoint 观念聚组成两个互相抵触的堆。

Step 2:构建网络迭代学习

接下来就是信誉网络的界说。依据上面的主题模型发掘,咱们现已有了参数 θt(主题)和ψtk(观念),就能够得到一个 tweet t 在 topic k 上的 viewpoint l 观念为,两两 tweet 的函数值界说为:, Djs 表明 Jensen-Shannon 间隔。wij 就是 f(ti,tj) 的矩阵。

文中界说 loss function 如下:

其间的 C(ti) 表明 tweet ti 的信誉值,是需求学习的参数。 详细求导和证明网络可收敛进程能够参阅论文,终究得到每 k 轮迭代的表达式:

论文开端先经过许多数据剖析发掘,发现帖子内容,作者和主题三者和新闻的真假有很强的关联性。所以把三者放入一个深度分散网络中 ,一起最小化三者的方针。

论文经过学习显式特征(Explicit)和潜在特征(Latent),潜在特征经过  GRU 的 Hidden 层和 Fusion 层得到:

潜在特征经过 GRU 的 Hidden 层和 Fusion 层得到:

论文提出了一个 GDU 单元,不只能够针对帖子正文,还能够对作者,主题一起进行学习。

其间,作者的 L(Tu) 如下:

其他的 L(Tn) L(Ts) 是相同的方式。 

终究的网络架构三者彼此连接起来如下图:

论文和其他办法进行了比照。整个办法有点相似图神经网络。

这篇文章中了 WSDM '19 ,个人以为立异性很高。把作者(或许是发布者),新闻,交际网络的用户,和用户直接的订阅行为,构建了 5 个矩阵。

新闻内容矩阵;用户矩阵;用户-新闻行为矩阵,作者-新闻发布联系矩阵。其间新闻内容矩阵,和用户矩阵,选用 NMF 进行分化。

用户-新闻行为矩阵分化的方针是:高信誉分的用户偏好共享实在新闻,低信誉分用户偏好共享假新闻。

作者-新闻发布联系矩阵分化的方针:依据新闻发布者的潜在特征,能够经过他发布的行为得到。文章把新闻发布者分为各种党派风格 o ,然后用分化后的矩阵拟合这个特征。

经过和 Hadamard 正交矩阵做运算 ⊙ 来衡量差错巨细。 

终究经过把刚刚几个矩阵得到的分化矩阵进行运算,终究方针是:

把一切的矩阵分化方针和终究方针拼接起来就得到的全体方针函数:

详细求导进程需求必定数学常识,对这篇论文有爱好的同学能够看原文。

相关竞赛

Dean Pomerleau 和 Delip Rao 在 2017 年举办了假新闻应战:Exploring how artificial intelligence technologies could be leveraged to combat fake news.

竞赛地址:http://www.fakenewschallenge.org/

训练样本和猜测输入都是一个长事情标题和一段正文内容。输出的方针是正文内容是对标题的:1)附和,2)对立,3)谈论,4)不相关。

组委会以为,观念检测使命和假新闻使命场景是有强相关的,只是相关或不相关会比较简单。经过正文来剖析观念是否附和标题的内容陈说。第一名选用了深度卷积神经网络和 GBDT 两个模型。第二名选用了多种模型得到特征(如 NMF,LDA ,LSI,unigrams 等等)加上多层 MLP。这次竞赛其实只能算假新闻范畴的一个子问题的测验。 

[Andreas Hanselowski, 2018] 这篇 COLING 的 Long Paper 中作者对这次竞赛的前三名的办法和特征体现进行了剖析,提出了自己的改善计划,取得了该使命 state-of-the-art 的体现。

他们的结构把语义信息特征经过 stackLstm 表征,再加上对标题和正文的特征交融,试验体现在小样本的类别上有显着提高。

参阅文献

[1]. Yuyu Zhang, Hanjun Dai, Zornitsa Kozareva, Alexander J. Smola, Le Song. "Variational Reasoning for Question Answering with Knowledge Graph". arXiv preprint arXiv:1709.04071, 2017.

[2]. Zhiwei Jin, Juan Cao, Yongdong Zhang, and Jiebo Luo. "News Verification by Exploiting Conflicting Social Viewpoints in Microblogs". AAAI 2016. 

[3]. Kai Shu, Suhang Wang, Huan Liu. "Beyond News Contents: The Role of Social Context for Fake News Detection". WSDM 2019.

[4]. Kai Shu, Amy Sliva, Suhang Wang, Jiliang Tang, Huan Liu. "Fake News Detection on Social Media: A Data Mining Perspective". SIGKDD 2017.

[5]. William Yang Wang. “Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News Detection. ACL 2017.

[6]. Natali Ruchansky, Sungyong Seo, Yan Liu. "CSI: A Hybrid Deep Model for Fake News Detection". CIKM 2017.

[7]. Andreas Hanselowski, Avinesh PVS, Benjamin Schiller, Felix Caspelherr, Debanjan Chaudhuri, Christian M. Meyer, Iryna Gurevych. "A Retrospective Analysis of the Fake News Challenge Stance Detection Task". arXiv preprint arXiv:1806.05180, 2018.

[8]. Benjamin D. Horne, Sibel Adali. "This Just In: Fake News Packs a Lot in Title, Uses Simpler, Repetitive Content in Text Body, More Similar to Satire than Real News". ICWSM 2017.

引荐、解读、谈论和报导人工智能前沿论文效果的学术渠道。

应用 | 游戏 | 资讯 | 联系我们 | 版权说明 |

浙公网安备 33060202000544号
Copyright©第七纬度下载吧 All Rights Reserved.