新的测试表明,缺乏常识仍然是人为的“智力迟钝”

导读自然语言处理最近取得了很大的进步,但是人工智能对它所读内容的理解有多少呢?据南加州大学计算机科学系的研究人员称,比我们想象的要少!在最近的一篇论文中,助理教授Xiang Ren和博士生Yuc

自然语言处理(NLP)最近取得了很大的进步,但人工智能理解它所读的内容有多少? 据南加州大学计算机科学系的研究人员说,比我们想象的要少! 在最近的一篇论文中,向任助理教授和林玉晨博士发现,尽管人工智能取得了进步,但它仍然没有产生合理句子所需的常识。

新的测试表明,缺乏常识仍然是人为的“智力迟钝”

“目前的机器文本生成模型可以写文章,让很多人对自己感到不舒服,但他们基本上是在训练阶段看到的。” 林玉晨说:“我们的目标是研究最先进的文本生成模型是否能写出一些句子来描述我们日常生活中的自然场景。 “

新的测试表明,缺乏常识仍然是人为的“智力迟钝”

了解日常生活中的场景

具体来说,项仁和林玉晨测试了文本生成模型的推理能力,表明目前的文本生成模型与人们的表现有很大的差距。 给定一组普通名词和动词,最先进的NLP计算机模型的任务是创建描述日常场景的正确句子。 虽然这些模式产生的句子在语法上是正确的,但它们在逻辑上往往是不连贯的。

例如,由最先进的模型生成的句子使用“狗,飞盘,扔,抓”这个词“:

两只狗互相扔飞盘。 “

这个测试是基于这样的假设,即如果对常识的概念没有更深的理解,就不能产生连贯的想法(在这个例子中应该是:“一个人扔飞盘,一只狗抓住它“)。 换句话说,常识不仅仅是对语言的正确理解,它意味着你不必在谈话中解释一切。 这也是开发可伸缩人工智能的一个基本挑战——但学习在艺术世界之外,它也与消费者有关。

在不懂语言的情况下,基于这些最先进的自然语言模型构建的聊天机器人和语音助手很容易被揭示。 机器人是否能更多地出现在人类环境中也是至关重要的。 毕竟,如果你让机器人加热牛奶,你想让它知道你想要的是一杯牛奶,而不是一整盒牛奶。

“我们的研究还表明,如果一个生成模型在我们的测试中表现得更好,它也可以有益于其他需要常识推理的应用,例如机器人学习。” 林宇晨说:“机器人需要了解我们日常生活中的自然场景,然后才能做出合理的行动与人互动。 “

一般测试

常识推理,利用世界基本知识进行推理的能力——就像狗不能互相扔飞盘一样——几十年来一直是人工智能研究者的障碍。一个最先进的深度学习模型现在可以达到90%的精度,所以NLP似乎接近它的目标。

然而,作为自然语言处理的专家,项仁和他的学生林玉晨需要更多的证据来证明这一统计的准确性。 他们的论文于11月16日在自然语言处理(EMNLP)经验方法发现会议上发表,挑战了基准的有效性,因此,挑战了该领域取得的实际进展水平。

“人类通过学习理解和使用他们在周围环境中认识到的共同概念来获得造句的能力。” 林禹晨说道。

“获得这种能力被认为是人类发展的一个重要里程碑。 但我们想测试机器是否真正获得了产生常识的能力。 “

为了评估不同的机器型号,他们打开了限制的文本生成任务,称为CommonGen,可以作为测试机器生成常识的基准。 研究人员展示了35141个概念和77449个句子的数据集。 他们发现,即使是表现最好的模型也只有31.6%的准确率,而人类的准确率为63.5。

令我们惊讶的是,这些模型不记得简单的常识,即‘人们扔飞盘’应该比‘狗扔飞盘’更合理。” 林宇晨说:“我们发现即使是最强的T5模型,经过大数据集的训练,仍然会犯愚蠢的错误。 “

研究人员说,以前的测试似乎没有充分挑战这些模型的常识能力,而是模仿他们在训练阶段看到的东西。

“以前的研究集中在区分常识上。” 项仁说:“他们用多项选择题来测试机器,而机器的搜索空间很小——通常是四五个考生。 “

例如,区分常识测试的一个典型设置是选择题的答案任务,例如:“成年人在哪里使用固体胶水?” A:教室B:办公室C:办公桌抽屉。

当然,答案是“B:办公室。” 即使是计算机也能毫不费力地解决这个问题。 相比之下,生成环境更开放,例如CommonGen任务,需要模型从给定的概念生成一个自然句子。

向仁解释说:“广泛的模型训练很容易在这些任务中有良好的表现。 与常识推理任务不同,我们的测试集中在机器常识的生成方面。 “

任和林希望这些数据集将来成为将常识引入自然的新标杆语言生成的研究是有益的。 事实上,他们甚至有一个排名来描述各种流行模型的分数,以帮助其他研究人员确定他们在未来项目中的可行性。

“机器人需要了解我们日常生活中的自然场景,然后才能做出合理的行动与人互动。” 林说。

我相信有一天,我们会在电影《她》中看到像萨曼莎(萨曼莎,斯嘉丽寡妇的声音)这样的人工智能特工,他们自然地做出反应,并与我们的生活互动。 “

编译/未来经济学家应用程序信息股

资料来源:

https://techxplore.com/news/2020-11-reveals-ai-lacks-common.html

免责声明:本文章由会员“刘悦林”发布如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系