bt365手机平台-下载首页

  • 有MIT的研究人员创建了一个自动文本生成系统,精确定位,并在相关的替代对象维基句子的具体信息,同时保持类似于人类如何撰写和编辑的语言。

    有MIT的研究人员创建了一个自动文本生成系统,精确定位,并在相关的替代对象维基句子的具体信息,同时保持类似于人类如何撰写和编辑的语言。

    图片:恭达尼洛夫,bt365手机app

    全屏

自动化系统可以改写句子维基百科的文章过时

有MIT的研究人员创建了一个自动文本生成系统,精确定位,并在相关的替代对象维基句子的具体信息,同时保持类似于人类如何撰写和编辑的语言。

文本生成工具,精确定位和特定信息的句子替代对象,同时保持像人一样的语法和风格。


记者联系

艾比abaz要么ius
电子邮件: abbya@mit.edu
电话:617-253-2709
bt365手机app新闻办公室

媒体资源

1张图片下载

媒体访问

媒体只能从本网站的桌面版本下载。

由bt365手机app的研究人员创建了一个系统可以用于在维基百科文章,自动更新事实不符的情况,减少了时间和精力,通过人工编辑WHO现在手工做任务用了。

文章维基百科包括数以百万计是需要不断的修改,以反映新的信息。这篇文章可能涉及的扩展,主要重写,或更多的常规更新修改:如数字,日期,名称和地点。目前,世界各地的人们参加志愿工作,使这些编辑。  

在人工智能的AAAI会议被提交了一篇论文中,研究人员描述的文本生成系统,精确定位,并在相关的替代对象维基句子的具体信息,同时保持类似于人类如何撰写和编辑的语言。

这个想法是,人类将键入的接口为非结构化的最新信息句话,而无需担心风格或语法。然后系统会搜索维基百科中,找到网页和过时的适当刑罚,并以仿人的方式重写。在未来,研究人员说,有潜力打造一个完全自动化的系统和使用,在维基百科的文章标识在网络上的最新信息来产生改写句子对应反映最新信息。

“有需要的维基百科文章不断这么多的更新。这将有利于自动修改文章的确切的部分,几乎没有人为干预,“在计算机科学和人工智能实验室(CSAIL)和主要作者之一darsh沙阿博士学生说。 “相反,数百人在修改每个维基百科文章的工作,那么你只需要几个,由于模型是帮助或自动做这件事。这提供了效率显着提高。“

许多其他机器人存在维基百科进行自动编辑。通常情况下,对减轻那些故意破坏或删除某些狭义的信息到预定义模板的工作,沙阿说。研究人员的模型,我认为,解决问题的人工智能困难:给定一个新的作品的非结构化信息,模型自动修正的句子在一个像人一样的时尚。 “另一个[机器人]任务更以规则为基础,而这是需要在以上两个句子的部分矛盾的推理和产生一个连贯的一段文字的任务,”我说。

该系统可用于其他应用的文本生成以及共同第一作者说,研究生和CSAIL这样舒斯特尔。在他们的论文中,研究人员还用它来自动在一个受欢迎的事实查证的数据集,有助于合成句子减少偏见,而无需手动收集额外的数据。 “那趟车,比如说,假新闻的检测,通过这种方式,性能提高自动为事实验证模型的数据集”舒斯特尔说。

Shah和舒斯特在纸上的工作与他们的学术顾问里贾纳Barzilay,电气工程和计算机科学的台达电子教授,CSAIL教授。

掩蔽和融合中立

该系统后面是文本生成别出心裁在判别之间矛盾的信息,然后熔合到一起,两个单独的句子公平位。它输入一个“过时”的句子,从维基百科的文章,再加上一个独立的“索赔”那句话包含更新和矛盾的信息。该系统必须删除并自动保持特定的词过时的句子,根据索赔的信息,但更新的事实保持风格和语法。这是对人类一件容易的事,而是一个新的一个机器学习。

例如,假设有一个需要更新,这句话(粗体):“以基金认为 他们的42 28 在少数企业stakeholdings在操作上特别积极意义的组。“随着更新的信息要求句话可以改为:“认为基金 23 43 stakeholdings显著少数“。该系统将查找维基百科的相关文本基础上,要求“基金”。然后,它剔除了自动过期数(28和42)和替换它们的新号码(23和43),同时保持了一句完全相同,语法正确。 (在他们的工作中,研究人员跑了系统的具体维基百科的句子,并不是所有在维基百科页面的数据集。)

该系统是在包含对句流行的数据集的训练,在哪一个句子是一个要求,另一个是有关维基百科的句子。每对被标记以三种方式之一:“同意”,意思是句子事实信息包含匹配; “不同意”,这意味着它们含有矛盾的信息;或“中性”,其中有没有足够的信息,无论是标签。系统必须让所有不同意对同意,通过修改过时的句子相匹配的要求。这就需要使用两个单独的模型,以产生所需的输出。

第一个模型是一个事实查证分类 - 预训练的标记每个句子对为“同意”,“反对”或“中性” - 对不同意对侧重。运行与分类相结合是一个定制的“中性掩蔽”,在句子识别哪些模块的话过时与权利要求。模块移除需要“最大化中立”的字的最小数目的 - 意味着对可以被标记为中性。这就是起点:虽然句子不同意,他们不再包含明显矛盾的信息。该模块创建一个二进制的“面具”在过时的句子,凡0放置在单词得到最有可能需要删除,而1继续饲养的顶部。

掩蔽后,一个新的双编码器 - 解码器框架被用来产生所述输出端的句子。压缩可以学习要求和过时的句子ESTA模型表示。在协同工作中,两个编码器 - 解码器熔合异种话从权利要求,滑入到斑点通过在过时的句子被删除的单词(用0覆盖的那些)悬空。

在一次试验中,该模型比所有传统方法的得分更高,使用所谓的“纱丽”是如何好办法机删除,添加,并保持的话比起人类修改句子的方式方法。他们用一个数据集手动编辑维基百科的句子,其中有以前没有见过的型号。相比传统的一些文本生成方法,新模式是在做实际的更新和它的输出更像人的写作更准确。在另一个试验中,模型拿下众包的人(从1到5级)的基础上STI输出语句如何包含实际的更新和匹配的人的语法。模型匹配语法达到4事实的更新和3.85的平均分数。

消除偏见

该研究还表明,该系统可用于增强数据集在训练,以消除“假新闻”,宣传的形式,创造了误导,以生成网站观点或引导舆论含读者造谣偏置探测器。一些这些探测器的训练对数据集的同意,不同意句对“学习”,由它来匹配提供证据来验证要求。

在这些对中,要求将与维基百科一支持“证据”的句子匹配要么某些信息(同意),否则会被人修改,以包括矛盾的证据句(不同意)的信息。该模型进行培训,以标志作为可以用来帮助识别身份的假新闻的证据反驳索赔以“假”。

不幸的是,这样的数据集,目前配备了意想不到的偏见,沙阿说:“在培训过程中,部分机型采用书面人索赔的语言”给外卖“,以纪念他们是假的短语,没有太多依托证据对应语句。 ESTA您减少模型的准确性。当现实世界的例子评估,因为它不进行事实查证“。

研究人员使用了相同的缺失和融合技术,从维基百科他们的项目,以平衡同意,不同意的数据集,并有助于减轻对偏置。对于一些“不同意”对,他们使用虚假信息的修改句子,换一张假的“证据”支持判决。在这两种一些赠品短语的存在,那么“同意”和“不同意”的句子,这迫使分析模型更多的功能。他们利用增强的数据集,错误率13%,一个流行的假新闻探测器的减少研究者。

“如果你在你的数据集的偏见,而你愚弄你的模型逼到一对看着一句话来做出预测不同意,你的模型将无法生存的现实世界,”沙阿说。 “我们让模型看起来在句子中的所有都赞成,反对对。”


主题: 研究, 计算机科学与技术, 算法, 机器学习, 数据, 互联网, 众包, 社交媒体, 技术与社会, 计算机科学和人工智能实验室(CSAIL), Electrical Engineering & Computer Science (eecs), 工程学院

回到顶部