独家|可能导致通用汽车在人工智能方面的下一个重大突破

导读导读作者Karen Hao 翻译张一然 校对欧阳锦 本文约 2500字, 建议阅读 8 分钟。 研究者们正在教一个大型的语言模型如何去看以帮助他们更好的理解这个世界。 标签自然语言处理,计算

导读:郝凯伦翻译:张艺兰校对:欧阳进这篇文章2500字左右,建议阅读8分钟。 研究人员正在教一个大的语言模型如何看待它,以帮助他们更好地理解世界。 标签:自然语言处理,计算机视觉,你可能听过无数次我们说:它可以产生大规模的人类语言制品...郝凯伦:

独家|可能导致通用汽车在人工智能方面的下一个重大突破

张一然

校对:欧阳瑾

本文约2500字,建议阅读8分钟。

研究人员正在教授一种大型语言模型,以帮助他们更好地理解世界。

标签:自然语言处理,计算机视觉

你可能听过我们无数次地说这句话:一个大的人工智能模型,可以产生类似人类的语言GPT-3是一个奇迹和一个巨大的海市蜃楼。 你可以用一种简单的技术来区分:问它的羊的颜色,它回答“黑色和rdquo;和“白色和rdquo一样多;这反映了“害群之马&这个短语出现在我们的日常语言中。

这是语言模型的一个问题,因为它们只训练文本,缺乏常识。 一位来自北加利福尼亚大学的研究人员,教堂山设计了一种新的技术来解决这个问题。 他们把这种技术称为voken化的能力,比如GPT3“look”。

这不是第一次尝试将语言模型与计算机视觉结合起来,真实在国际上,这是一个快速发展的人工智能领域。 一个想法出现了,因为这两种类型的人工智能都有不同的优势。 像GPT-3这样的语言模型是通过无监督学习来训练的。 该过程不需要手动数据标记,因此易于扩展。 相反,像目标识别系统这样的图像模型可以更直接地从现实中学习。 换句话说,他们学到的并不取决于文本提供了什么。 他们可以从羊的照片中看到,它们实际上是白色的。

能够解析语言和视觉输入的AI模型也有非常实用的应用。 例如,如果我们要建立机器人助手,他们需要计算机视觉来导航世界和语言来与人类交流。

但结合两种类型的人工智能说起来容易做起来难。 这不是简单地将现有的语言模型绑定到现有的目标识别系统。它需要从一开始就使用包含文本和图像的数据集来训练新的模型,也称为视觉语言数据集。

获取此类数据集的最常见方法是收集带有描述性标题的图像集合。 例如,下面图片的标题是“一只橙色的猫坐在一个准备打包的手提箱里。 这与典型的图像数据集不同,它只使用一个名词来标记下面的图片,例如“Cat”。 因此,视觉语言数据集不仅可以教人工智能模型如何识别目标,而且还可以使用动词和介词来告诉模型目标如何相互作用和相互作用。

但是制作这个数据集是非常耗时的。 这就是为什么现有的可视化数据集如此琐碎的原因。 常用的明文数据集,如英语维基百科(几乎所有的英文维基百科条目),可能包含近30亿个单词。 像MS COCO这样的视觉语言数据集只包含700万。 根本没有足够的数据来训练AI模型来提供有用的信息。

通过使用无监督的学习方法将MSCO中的少量数据扩展到英语维基百科,解决了这个问题。 在今天最难评估AI语言理解的测试中,由这个训练集训练的视觉语言模型优于最好的。

Thomas Wolfe(Thomas Wolf),自然语言处理启动拥抱脸的联合创始人和首席科学官说:“不要做大的改变,在这些测试中你不能超过最先进的水平。 这不是一个简单的测试。 所以才这么刺激。 ”

令牌到Voken

首先,让我们来整理一下这些术语是什么voken? 去

用于训练人工智能语言语言模型的单词称为标记(令牌)。 因此,UNC的研究人员决定在视觉语言模型中调用与每个标记相关的图像;。。 为每个令牌查找voken的算法称为Vokenizer,整个过程称为voken化。

这样做不仅是为了显示AI研究人员有多喜欢编造单词。 (他们知道)。 它也有助于理解voken化背后的基本思想。 联合国军司令部的研究人员不会从图像数据集开始,手动编写句子作为一个标题(这是一个非常缓慢的过程),但从语言数据集开始,并使用无监督的学习将每个单词与相关图像匹配(稍后详细介绍)。 这是一个高度可伸缩的过程。

因此,无监督学习技术是本文的最大贡献,即如何为每个单词找到相关图像。

语言化

回到GPT-3。 GPT-3是变压器语言模型家族的一员,2017年变压器的出现带来了重大突破,因为它将无监督学习应用于自然语言处理。变压器通过观察上下文中单词的使用来学习人类语言的模式,然后根据上下文为每个单词创建一个数学表示,称为“单词嵌入”1.例如,单词“cat”的嵌入可能表明它经常被使用在单词“meow”和&&&#ldquo;橙色”周围的单词&#bark&#blue&#rdquo;。

这就是变压器如何近似表达的意义,以及GPT-3如何写类似人类的句子。 它在一定程度上依靠这些嵌入来告诉它如何将单词组合成句子,将句子组合成段落。

有一种并行技术也可以用于图像。 它不扫描文本以找到单词使用模式,而是扫描图像以找到视觉模式。 假设它列出了猫出现在床上而不是树上的频率,并使用这些上下文信息创建猫的嵌入。

联合国军司令部的研究人员认为他们应该在MS两种嵌入技术都在COCO上使用。 它们将图像转换为视觉嵌入和标题转换为单词嵌入。 这些嵌入的真正微妙之处在于它们可以嵌入到三维空间中,并直接看到它们之间的关系。 与单词嵌入密切相关的视觉嵌入在图中显示得更近。 换句话说,视觉嵌入(理论上)应该与基于文本的猫嵌入重叠。 很酷。

你应该看看下一步怎么走。 一旦所有嵌入都以图形方式表示和比较并与其他嵌入相关联,就很容易将图像(Vokens)与单词(令牌)匹配)。 很容易匹配。 记住,由于图像和单词根据它们的嵌入匹配,它们也在上下文中匹配。 当一个词有完全不同的意思时,这可能是有用的。 这种技术通过为单词的每个实例找到不同的voken成功地解决了这个问题。

例如:

这是她的联系人。

免责声明:本文章由会员“刘俊明”发布如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系