bt365手机平台-下载首页

  • 在新的研究中,研究人员在bt365手机app和IBM将三个流行的文本分析工具 - 主题建模,文字的嵌入,以及最佳的交通 - 比较每秒数千文件。在这里,他们表明,类别比更紧密地竞争法他们的方法(左)集群新闻组帖子。

    在新的研究中,研究人员在bt365手机app和IBM将三个流行的文本分析工具 - 主题建模,文字的嵌入,以及最佳的交通 - 比较每秒数千文件。在这里,他们表明,类别比更紧密地竞争法他们的方法(左)集群新闻组帖子。

    研究人员的形象礼貌。

    全屏

在找到一个很好的阅读了数十亿的选择

在新的研究中,研究人员在bt365手机app和IBM将三个流行的文本分析工具 - 主题建模,文字的嵌入,以及最佳的交通 - 比较每秒数千文件。在这里,他们表明,类别比更紧密地竞争法他们的方法(左)集群新闻组帖子。

作为自然语言处理技术的提高,建议越来越更快和更相关。


记者联系

金·马蒂诺
电子邮件: kimmarti@mit.edu
电话:617-710-5216
bt365手机app追求情报

随着数十亿美元的书籍,新闻故事,在线文档,也从来没有一个更好的时间来阅读 - 如果你有时间通过​​所有的选项进行筛选。 “有一吨在互联网上的文字,”说 贾斯汀·所罗门bt365手机app的助理教授。 “有什么要帮助削减通过所有的设备是非常有用的。”

与 MIT-IBM沃森人工智能实验室 和他的 几何数据处理组 在bt365手机app,所罗门最近提出了一种新技术,通过在文本的大量切割 会议对神经信息处理系统 (Neurips)。他们的方法将三个流行的文本分析工具 - 主题建模,文字的嵌入,以及最佳的交通 - 不是一个受欢迎的基准文档分类方法的竞争,以更好地实现,更快的结果。

如果算法知道你过去喜欢的东西,它可以扫描数以百万计的可能性,这样的事情。自然语言处理技术的提高,那些“你可能还喜欢”的建议越来越更快和更相关。 

在neurips提出的方法,算法总结的,比方说,藏书的基础上,主题为集合中的常用词。然后将其划分为五个每本书的15个最重要的主题,用多少每个主题有助于整体的账面的估计。 

书籍比较,研究人员使用其他两个工具:字嵌入物,技术,轮流话到数字的列表,以反映它们在普遍使用的相似性,以及最佳的交通,计算移动物体的最有效的方法框架 - 或点数据 - 在多个目的地。 

字的嵌入使其能够充分利用最佳的交通两次:先在集合作为一个整体进行比较的话题,然后在任何一对书籍,来衡量如何紧密重叠的共同主题。 

该技术尤其适用当扫描的书籍和冗长的文件大集合。在研究中,研究人员提供这种预期核武器的上升坦诚斯托克顿的“伟大的战争辛迪加”,19世纪的美国小说的例子。如果您正在寻找一本书一样,主题模型将有助于确定与其他图书共享主导的主题 - 在这种情况下,航海,小学,和武术。 

但主题模型仅此一项就不能识别身份托马斯·赫胥黎1863年演讲,“有机性质的过去状态“作为一个很好的匹配。本文作者是查尔斯的冠军达尔文的进化理论,化石和沉积,地质关于反映新兴想法的演讲中,穿插着提及。当赫胥黎的演讲主题是再配上通过优化运输斯托克顿的小说,一些交叉出现的图案:赫胥黎的地理,植物/动物和知识的主题密切分别映射到斯托克顿的航海,小学,和武术主题。

他们的代表书籍造型主题,而不是简单的词,能够实现高层次的比较。 “如果你问别人比较两两本书,一进各个击破他们容易理解的概念,然后比较的概念,”该研究的主要作者说: 米哈伊尔yurochkin在IBM的研究员。 

其结果是更快,更准确的比较,研究表明。该1720对在Project Gutenberg的数据集研究人员比较了书在一秒钟 - 比下一个最好的方法快800次以上。

按作者古腾堡的数据集,按部门对亚马逊的产品评论,并通过体育BBC体育故事,例如,在分组书籍 - 技术做了更好的工作,而且准确地分拣比对手方法的文件。在一系列的可视化,作者展示自己的方法巧妙地通过聚类类型的文件。

在加分类文件快速,准确地多,方法提供了一个窗口,进入模型的决策过程。通过出现的主题列表,用户可以看到为什么模型推荐的文档。

该研究报告的其他作者是 塞巴斯蒂安claici 和 爱德华·简一个研究生和博士后,分别在电气工程和计算机科学和计算机科学和人工智能实验室的bt365手机app的部门, Farzaneh mirzazadeh在IBM的研究员。


主题: 追求智慧, MIT-IBM沃森人工智能实验室, 电气工程和计算机科学(EECS), 计算机科学和人工智能实验室(CSAIL), 工程学院, 算法, 人工智能, 计算机科学与技术, 数据, 机器学习, 自然语言处理

回到顶部