人工智能系统如何理解语言和视频

人类通过不同形式的组合来观察世界，例如视觉，听觉和我们对语言的理解。而机器通过算法可以处理的数据来解释世界。

因此，当机器“看到”照片时，它必须将该照片编码为可用于执行图像分类等任务的数据。当输入采用多种格式（如视频、音频剪辑和图像）时，此过程将变得更加复杂。

“这里的主要挑战是，机器如何调整这些不同的模式？作为人类，这对我们来说很容易。我们看到一辆汽车，然后听到一辆汽车驶过的声音，我们知道这些是一回事。但对于机器学习来说，这并不是那么简单，“计算机科学与人工智能实验室（CSAIL）的研究生Alexander Liu说，他是一篇解决这个问题的论文的第一作者。

Liu和他的合作者开发了一种人工智能技术，该技术可以学习以捕获视觉和音频模式之间共享的概念的方式表示数据。例如，他们的方法可以了解到视频中婴儿哭泣的动作与音频剪辑中的口语单词“哭泣”有关。

利用这些知识，他们的机器学习模型可以识别视频中某个操作发生的位置并对其进行标记。

在跨模式检索任务中，它比其他机器学习方法表现得更好，这些任务涉及查找一段数据（如视频），这些数据与以另一种形式（如口语）给出的用户查询相匹配。他们的模型还使用户更容易看到为什么机器认为它检索到的视频与他们的查询相匹配。

这项技术有朝一日可以用来帮助机器人通过感知来了解世界上的概念，更像是人类的方式。

与Liu一起撰写论文的是CSAIL博士后SouYoung Jin；研究生Cheng-I Jeff Lai和Andrew Rouditchenko；Aude Oliva，CSAIL高级研究科学家，麻省理工学院-IBM Watson AI实验室主任；资深作者James Glass，高级研究科学家，CSAIL口语系统组负责人。该研究将在计算语言学协会年会上发表。

学习表征

研究人员将他们的工作重点放在学习表征上，这是一种机器学习形式，旨在转换输入数据，以便更轻松地执行分类或预测等任务。

制图表达学习模型采用原始数据（如视频及其相应的文本字幕），并通过提取特征或有关视频中对象和动作的观察结果对其进行编码。然后，它将这些数据点映射到网格中，称为嵌入空间。该模型将类似的数据聚类在一起，作为网格中的单个点。这些数据点或向量中的每一个都由单个单词表示。

例如，一个人杂耍的视频剪辑可能被映射到标记为“杂耍”的矢量。

研究人员限制了模型，使其只能使用1000个单词来标记向量。模型可以决定要将哪些操作或概念编码到单个向量中，但它只能使用1000个向量。模型选择它认为最能表示数据的单词。

他们的方法不是将来自不同模态的数据编码到单独的网格上，而是采用共享的嵌入空间，其中两个模态可以编码在一起。这使得模型能够学习两种模式之间的关系，比如显示一个人玩杂耍的视频和一个人说“杂耍”的音频录音。

为了帮助系统处理来自多个模态的数据，他们设计了一种算法，指导机器将类似的概念编码到同一个向量中。

“如果有关于猪的视频，模型可能会将’猪’这个词分配给1000个向量之一。然后，如果模型听到有人在音频剪辑中说’猪’这个词，它仍然应该使用相同的矢量来编码。“Liu解释说。

更好的回收器

他们使用三个数据集在跨模式检索任务上测试了该模型：一个包含视频剪辑和文本字幕的视频文本数据集，一个包含视频剪辑和语音音频字幕的视频音频数据集，以及一个包含图像和语音音频字幕的图像音频数据集。

例如，在视频音频数据集中，模型选择了1000个单词来表示视频中的操作。然后，当研究人员向它提供音频查询时，模型试图找到与这些口语最匹配的剪辑。

“就像谷歌搜索一样，你输入一些文本，机器会试图告诉你你正在搜索的最相关的东西。只有我们在向量空间中这样做。“Liu说。