Modulate 为企业用户扩展 Velma 平台，引入原生语音实时对话智能

2026年6月3日，对话式语音智能公司 Modulate 通过其开发者 API 发布了旗舰产品 Velma 模型。此前该模型仅限企业用户使用，现在任何开发者都可以访问并部署这款领先的原生语音对话智能模型。该模型能够原生理解音频，并实时洞察用户的情绪、意图、行为风险和对话上下文。Modulate 将在2026 年 6 月 22 日至 25 日于拉斯维加斯举行的客户联络周 (CCW)上展示其强大的语音智能 API。

Velma 企业版 API旨在帮助企业从通话后分析过渡到持续、实时的对话理解和干预。此次扩展标志着 Modulate Velma 平台进入了下一个发展阶段，超越了转录和点解决方案，迈向更广泛的企业智能层，以支持实时语音对话。

随着企业竞相在客户体验、欺诈预防、信任与安全、联络中心和 AI 代理工作流程中部署语音 AI，大多数系统仍然依赖语音转文本作为理解的基础。这种方法将对话简化为扁平化的文本记录，抹去了诸如紧急程度、犹豫、困惑、沉默、情绪状态、欺骗行为和对话上下文等关键信息，从而更加凸显了以文本记录为先的系统的局限性。企业需要一种基础设施，能够持续监控实时交互，及时发现欺诈、升级风险、合规性问题、客户脆弱性以及 AI 代理的行为，以便在有时间进行干预时及时应对。

Velma旨在弥合这一差距。它基于Modulate的集成监听模型（ELM）架构，其API为企业提供了一个实时监听层，能够识别和解读对话中实际发生的情况，而不仅仅是对话内容本身。

Modulate首席执行官兼联合创始人Mike Pappas表示：“随着企业在客户互动中部署更多 AI，他们逐渐意识到，仅靠转录不足以全面理解对话。我们看到，运营人员、合规团队和客户体验负责人之所以如此兴奋，是因为他们终于拥有了能够实时解读对话和情感背景的基础设施，而不仅仅局限于转录文本。”

与依赖单一大型模型或先转录后分析的通用语音系统不同，Velma 使用一组协同工作的专用模型，从多个维度分析对话音频。Velma 直接分析原始对话音频，而非仅仅依赖转录文本，因此能够检测到传统语音转文本流程常常忽略的情感信号、对话动态、行为模式和非语言线索。这种方法使企业能够实时从语音中提取结构化洞察，同时保持生产环境所需的透明度、效率和可扩展性。

Velma Enterprise API 可支持以下使用场景：

欺诈和风险检测：在实时互动中识别合成音频、紧急性、操纵、规避政策或其他风险信号的迹象。
客户体验和联络中心智能：帮助团队实时了解来电者的情绪、沮丧、困惑、升级风险和服务需求。
AI代理监督：检测AI代理何时可能做出不准确的声明、违反政策或未能适当回应客户需求。
信任与安全：识别实时语音环境中的有害、辱骂或违反政策的行为。
运营智能：将对话音频转化为结构化的、可解释的信号，从而为审查、升级、培训和决策工作流程提供信息。
合规性和弱势客户保护：帮助组织在实时互动中识别困境、困惑、信息披露失败或监管风险的迹象。

Velma 更新引入了扩展的实时对话理解功能，旨在帮助组织超越通话后审查，实现跨语音渠道的持续监控、可解释的决策支持和实时运营感知。

Pappas 补充道：“欺诈、客户不满、政策违规和 AI 故障不会仅仅在通话的前30秒内悄然发生。企业需要能够持续监听、解释所听到的内容并帮助人们快速采取行动的系统。”

Modulate 在一些要求极高的真实音频环境中开发了其语音智能技术：例如大型在线视频游戏，在这些游戏中，对话实时、嘈杂且充满情感。这一经验塑造了该公司在企业级 AI 领域的策略，即语音系统必须精准、经济高效、易于解释，并且足够强大，能够大规模运行。这些经验也影响了 Modulate 的语音智能基础设施构建方式，即持续监听、理解上下文中的对话行为，并生成企业可以信赖并实时部署的结构化输出。

借助 Velma 企业 API，Modulate 将这种现实世界的语音智能基础设施带给构建下一代 AI 驱动的客户体验、欺诈预防、安全和自动化系统的企业团队。