bt365手机平台-下载首页

  • 图片:bt365手机app新闻

    全屏

假消息检测器的罩下的对等

研究揭示语言模式艾模型链接到事实和虚假的物品;强调需要进行进一步的测试。


记者联系

艾比abaz要么ius
电子邮件: abbya@mit.edu
电话:617-253-2709
bt365手机app新闻办公室

从自动假新闻检测系统的引擎盖下bt365手机app的研究同行,揭示了机器学习模型是如何捕获的事实和虚假故事的语言微妙的,但一致的差异的新工作。研究还强调了假新闻探测器应如何进行更严格的测试是有效的现实世界的应用。

为推广2016年总统大选期间,在美国的一个概念,假新闻是创建误导读者,以产生对网站的观点或引导舆论宣传的一种形式。

一样快,这个问题成为主流,研究人员开始开发自动化假新闻探测器 - 所谓的神经网络从数据识别指示虚假文章的语言线索的分数是“学习”。赋予新的文章来评估,这些网络可以,具有精度相当高的,独立的事实与虚构,在控制的设置。

一个问题,但是,是“黑盒子”的问题 - 这意味着没有告诉什么语言模式的网络培训期间分析。他们还训练和在相同的主题,这可能会限制他们的潜力,以推广到新的主题,为整个互联网分析新闻必要测试。

在会议和研讨会神经信息处理系统提交了一份文件,研究人员解决这两个问题。他们开发了学习检测的虚假和真实新闻的语言模式深学习模式。他们的工作“裂开”黑匣子部分找到单词和短语模型捕捉作出预测。

此外,他们还测试了一种新型的话题并没有在训练中看到他们的模型。这种分类方法仅仅基于语言模式,它更紧密地代表了新闻的读者一个真实的应用程序单独的文章。传统的假新闻探测器进行分类,如维基百科页面或网站基于文本与源信息,结合文章。

“在这里,我们想了解什么是仅基于语言分类的决策过程,因为这可以提供什么是假新闻语言的见解,”共同作者泽维尔博伊克斯,在实验室的博士后说的托马索·波焦,脑与认知科学(BCS)和中心的大脑,心灵的主任部门尤金·麦克德莫特教授,和机器(CBMM),美国国家科学基金会资助的市中心一栋大脑研究的麦戈文研究所内。

“用机器学习和人工智能的一个关键问题是,你得到一个答案,不知道为什么会得到这个问题的答案,”研究生第一作者尼科尔奥布莱恩'17说。 “示出这些内部工作需要对理解深学习假消息检测器的可靠性的第一步骤”。

模型识别套的话,往往会在真实或假的消息更频繁地出现 - 一些也许明显,别人少得多,所以。结果,研究人员说,指出在假新闻微妙而一致的差异 - 这有利于夸张和最高级 - 和真实的消息,其倾斜更倾向于保守字的选择。

“假新闻是民主的威胁”,博伊克斯说。 “在我们的实验室,我们的目标不只是向前推动科学,而且要使用技术手段来帮助社会。 ......这将是强大,对用户或公司,可以提供的消息是假的或者未进行评估的工具。”

该论文的其他共同作者是索菲亚latessa,在CBMM本科生;与此Ge要么gios evangelopoulos,在CBMM研究员,麦戈文研究所和实验室计算和统计学习。

限制偏置

研究人员的模型是对的假新闻和新闻真实数据集训练卷积神经网络。用于训练和测试,研究人员使用了一种流行的假新闻研究数据集,称为kaggle,其中包含来自244名不同的网站大约12,000假新闻样品文章。他们还编写新闻真实的样本数据集,使用超过2000来自 纽约时报 与9000多名来自 守护者.

在训练中,模型捕获的制品为其中话被表示为矢量“字的嵌入”的语言 - 基本上,数字的阵列 - 以聚集更加紧密相似语义的话。在此过程中,它抓住的话三胞胎作为提供一定的背景模式 - 比如,比方说,约一个政党一个负面评价。赋予了新的文章,该模型扫描类似的模式的文本,通过一系列的层发送。最终的输出层确定每个图案的概率:真或假。

研究人员首先训练,并以传统的方式测试模型,使用相同的主题。但他们认为这也许可以在模型中的固有偏见,因为某些话题更多是假的或真实的新闻主题。例如,假新闻故事通常更可能包括单词“王牌”和“克林顿”。

“但是这不是我们想要的,”奥布莱恩说。 “这只是表明主题,在虚假和真实的新闻强烈的权重。 ......我们希望能找到在语言的实际图案,指示这些的。”

接下来,研究人员训练上的所有题目的模型无字的任何提及“王牌”,并测试了模型仅在已经从训练数据集放在一边,但这并包含单词“王牌”。而传统的方法样本达到93%的准确度,第二个方法达到87%的准确度。这样的精度的差距,研究人员说,利用凸显从训练过程中伸出的主题,以确保模型可以概括所了解到的新主题的重要性。

需要更多研究

打开黑匣子中,研究人员随后回撤他们的步骤。每个模型使得关于一个字的三重预测时,模型的某些部分激活,取决于如果三联是从真实或虚假的新闻报道更有可能。研究人员设计了一种方法来追溯每个预测回其指定的部分,然后找到,使得它激活的原话。    

需要更多的研究来确定这些信息是多么有用,以飨读者,博伊克斯说。在未来,该模型可能被用,比如,自动事实跳棋等工具相结合,让读者在打击误传的边缘。一些精炼后,该模型也可以是一个浏览器插件或应用程序,提醒读者潜在的假新闻语言的基础。

“如果我只是给你的文章,并突出显示你正在阅读的文章的这些模式,你可以,如果该物品是或多或少假评估,”他说。 “这将是一种像警告说,‘嘿,也许有一些奇怪的事情在这里。’”

“工作倒是两个非常热门的研究课题:战斗算法偏差和解释的AI,” preslav nakov,在卡塔尔计算研究所的资深科学家,哈马德·本·哈利法大学的一部分,他们的工作重点是假新闻说。 “特别是,作者确保他们的做法不被一些主题盛行的假与真正的新闻上当。他们进一步表明,他们可以追溯算法决定返回到输入物品特定的单词“。

但nakov还提供了一个忠告:这是很难控制的许多不同类型的语言偏见。例如,研究人员使用的大多是从真正的新闻 纽约时报守护者。接下来的问题,他说,是“我们如何确保训练的这个数据集中系统不会得知真正的新闻必然遵循这两个特定新闻媒体的写作风格?”


主题: 研究, 计算机科学与技术, 算法, 政治, 技术与社会, 语言, 人工智能, 伦理, 社交媒体, 写作, 计算机科学和人工智能实验室(CSAIL), Electrical Engineering & Computer Science (eecs), 工程学院

回到顶部