让 AI 对话：视频通话训练是 ChatGPT 式 AI 的下一步

CTI观察 • 来源：daily • 2023年2月2日下午12:02 • 技术文章

对话式 AI，例如 ChatGPT，近年来取得了重大进展，使其越来越能够模拟类人对话。这项技术的用例广泛多样，从客户服务交互到语言学习和娱乐。

此外，聊天机器人技术变得越来越复杂，许多聊天机器人现在能够理解上下文，甚至随着时间的推移使用机器学习来改进他们的响应。这使他们能够为用户的问题提供更有针对性和相关性的答案。反过来，这可以改善用户体验并提高服务满意度。

对话式 AI 的下一步是实际接受对话训练。目前，它是根据从 Web 和其他地方下载的大量文档进行训练的。这些文档建立了庞大的知识库。

但它也会导致实际上不那么自然的问答类型的交互。在 ChatGPT 中输入任何问题，您将得到看起来经过深思熟虑的答案，并附有一些“事实”和可能的警告。

要从问答式交互中继续前进，需要对 AI 进行实际对话的训练。

为了应对这些挑战，对话式 AI 的前进方向是建立一个视频通话语料库，并使用这个语料库来训练 AI 进行自然对话。 在视频通话上训练 AI 将导致更自然的对话形式。

视频通话包含大量信息，包括音频和视觉提示，可以为训练 AI 系统提供有价值的输入。视频通话的音频部分可用于训练语音识别和自然语言处理 (NLP) 算法。AI 将学习理解人类语音的细微差别（例如口音、语调和发音），这将提高其理解和响应人类语音的能力。

视频通话的视觉成分，如面部表情和肢体语言，可用于训练计算机视觉算法。人工智能将学会识别和理解对话伙伴的情绪状态，以及点头和指点等微妙的暗示。这将提高其理解对话上下文并做出适当回应的能力。

此类信息可以与音频数据整合，以更全面地理解对话。总而言之，这将为训练大型语言模型解锁一个新的数据源。这将解决大型语言模型缺乏训练数据的问题，福布斯认为这是人工智能当前状态的一个重要挑战。

本次培训的重点应该是赋予 AI 使用自然语言进行有效交流的能力——在自然的双向对话中。使用视频通话语料库将是实现这一目标的最有效方式，因为该数据目前可用，并且包含自然发生的对话。

此外，在视频通话中，说话者的脸大部分是可见的，因此可以分析面部表情和肢体语言并使其成为对话的一部分，而无需标准化输入数据。

视频通话语料库还可以训练 AI 针对特定用例进行对话。想要人工智能医生？使用远程医疗访问数据集训练 AI。想让 AI 为您的企业处理客户服务吗？使用真实客户服务电话的录音对其进行训练。视频通话语料库自然会导致为这些功能创建人工智能代理。运行此类服务的公司今天已经可以而且应该构建此类语料库。

引申

在视频开发者平台中，服务商可以专注于创建支持这种发展所必需的通信技术。方便客户将视频体验（如视频通话、交互式直播和云录制）嵌入到他们的网站和应用程序中。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/10865.html