以下文章来源于AI语音AI思考。
链接:https://mp.weixin.qq.com/s/yK00uOKJiOvBSGH4EPFOYg
任何一项新技术,都是螺旋式上升的。技术产生→催生应用创新→反哺技术→ 应用迭代→技术再升级……。语音技术,从2013年前的HMM-GMM为主导的语音识别(HTK上古工具包)和语音合成(HTS),到DNN的时代的Kaldi,再到端到端,大模型。无论是技术、工具,还是应用,从业者和用户都能感受到明显的进步。在这个技术变革的时代,本文分享 10 点个人对于智能语音技术和应用在未来几年发展的看法。
1. 架构简化,模型统一
大道至简。
与语音相比,无论是图像还是文本,从数据特点、技术路线到研究及从业人员规模,语音都显得相对“小众”。这也导致在大模型兴起之前,语音技术长期维持着一套相对独立的技术体系。
与离散的文本不同,语音是连续的信号;与图像相比,语音又具备明显的序列性(当然,视频是更为综合的媒介形态)。这些特性决定了语音任务常使用特定的模型结构、损失函数等,也形成了一定的技术门槛。
进入大模型时代后,语音技术呈现出以下几个明显趋势:
- 必须融入大模型框架。一方面效果确实更好,另一方面也很关键:如果语音仍保持独立的模型结构和损失函数,将难以充分利用大模型领域成熟的开源生态、优化加速等已有成果。
- 技术门槛大幅降低。在大模型时代,通常只需明确输入和输出即可开展工作。当然,若要深入优化,仍需一定的语音信号处理基础——除了SFT(监督微调),也要懂STFT(短时傅里叶变换)。
- 语音技术积累转化为数据工具。过去十几年的语音技术积累,越来越多地转化为数据清洗的流程工具。比如以往只有语音研究者才会用到的强制对齐(force alignment)等技术,如今更多成为数据预处理的一部分。这并非悲观,反而说明行业在不断发展、推陈出新。
2. 端到端是相对概念,短期应用有限
在语音领域,“端到端”通常指用一个模型实现“语音输入-语音输出”(Speech In, Speech Out, SISO)的任务。为什么说它是相对概念?
- 如何定义“端到端”?一个模型完成多少任务才算端到端?
- 在语音助手等应用中,输出往往不是语音,而是具体动作(如自动驾驶中的控制指令),这时输出形式就发生了变化。
我并不否认SISO形态端到端模型的价值。它融合了语音理解与生成的能力,是技术演进的下一代方向,适用于闲聊、通用语音翻译等对准确性要求不高的场景。
但从业务落地和应用效果的角度考虑,SISO形态的端到端模型存在不少劣势,例如难以引入外部知识、可控性降低、成本较高等。
3. 单一任务模型将不再是主流,理解为先
为每个任务单独训练一个模型——如声纹识别、情感识别、语音识别、声音事件检测等——将逐渐失去意义,也违背技术趋势。如果某家公司仍投入大量资源清洗数千小时的语音数据,仅为训练一个独立的语音识别模型,我认为这样的技术路线并非最优选择。
目前在我看来,Gemini 2.5 Pro 在语音任务中是唯一的领先者。它是少数能在商用场景、真实数据上表现出色,而非仅仅为刷榜而设计的模型。
Qwen-Audio 等开源模型也在推进语音模态的理解任务,无论是开源贡献还是学术价值,我都非常认可。但不得不承认,它们与Gemini目前仍有较大差距。语音生成必须建立在高质量的理解基础之上。而“理解”远不止将语音转成文字,而是需要结合语言内容、副语言信息(如语调、节奏)以及环境音进行更高维度的综合分析。
语音识别等单一任务仍有大量应用场景,但它们都应被视为“理解”的子任务。随着模型理解能力的提升,我们会发现单纯的语音识别已无法满足更复杂的需求。
4. 算力降价是必然,云端融合有潜力
算力成本下降是必然趋势,芯片性能会越来越强,价格也会逐步降低。当然,我们也不必担心“路宽了就不堵车”——需求总会随能力同步增长。
为什么我认为“云端融合”更具潜力?
并非所有应用都适合完全放在端侧运行。端侧受限于算力、电池等因素,但在某些场景下具有不可替代的优势,例如涉及生物信息(如大量音视频数据)的处理、用户隐私敏感场景,以及网络无法覆盖的环境。
端侧还有一个显著优势是降低成本。例如,一个车载NPU的成本可能只有几美元(几十元人民币)。如果使用语音识别API,仅转录几十小时语音的成本就可能超过这个数额。因此,在对效果要求不高的场景中,端侧处理是非常经济的解决方案。
5. 具身智能落地后,语音交互与理解将更进一步
具身智能目前仍处于发展初期,研究重点主要集中在视觉感知和动作的精确控制上。
但我认为,当其真正落地应用时,我们会发现有一个方面被严重忽视,那就是听觉感知。请注意我这里用的是“听觉”而不仅仅是“语音”。无论是人类还是机器人,获取信息的方式都应是多模态的。
智能音箱时代将语音交互带入千家万户,那时的技术重点在于收音、降噪、唤醒和识别。
而到了机器人时代,如果仍停留在这些技术层面,将无法满足人类对高级智能的期待。因此我认为,未来人们对听觉感知的理解和语音交互的技术水平,还将迎来一次质的飞跃。
6. 多模态技术的变革
我不认为将所有模态离散化,然后不分模态地进行自回归预测是解决多模态问题的理想方法。
人类在处理多模态信息时,往往遵循“模态间并行,模态内串行,高维度模态融合”的原则。而现行的技术方案,采用不同模态暴力融合的方式,总感觉不够优雅。
随着算力的不断增强、模型能力的持续提高,以及新型便携AI硬件的进一步发展,多模态交互可能会取代各模态独立运行的系统。
7. 个性化AI时代,被动记录的价值远大于主动交互
语音交互是一种功能性很强的需求。90%的情况下,语音是在“特定场景下”作为输入法使用。而且我认为,限制交互的不是技术,是场景。
这里有三个关键词:个性化、被动和记录。
为什么强调个性化?
- 人在个性化。人们越来越重视个性和自我独立。研究产品,最终要回归用户需求。
- AI在个性化。即使现在,推荐算法早已实现个性化。在大模型时代,信息越丰富,对用户了解越深,提供的AI服务就越精准。
被动的价值不同于主动:
- 主动记录带有很强的目的性,甚至表演性。
- 主动记录相对低频,因为记录门槛高,需要用户的意识参与。
- 被动记录信息量丰富,记录门槛低,能捕捉无意识行为。
- 被动记录应独立于手机存在,为用户创造额外的24小时。
记录的意义:
- 记录为AI提供大量个性化数据,支持长上下文和记忆功能。
- 记录不仅具有功能性,还有情绪价值,甚至情绪价值高于功能价值。
8. Voice Agent 仍需深入探索
Voice Agent 的重点,还是在 Agent。
Agent 更注重执行,是一系列动作的集合。Voice Agent 可分为两类:
- 执行明确命令的 Agent;
- 深入理解对话,自主规划任务的 Agent。
第一种是目前常见的语音助手类产品。
第二种更具智能,可应用于会议记录、销售对话分析等场景,不仅仅是简单的纪要总结,而是结合已知信息与垂直知识,制定详细可执行的计划。这在很多场景中都有深入探索的空间,有助于形成更坚固的数据与知识壁垒。
9. 音频智能硬件的新机会
以 Plaud 为代表的录音笔是纯音频智能硬件,形态便携,推出时机与 ChatGPT 同步,可谓天时地利,将一个小众赛道带火。但即使已出货100万台,若仍定义为“录音笔”,它依然是小众赛道。相比之下,消费级摄像头(价格约300元)在2025年第一季度出货1208万台,其中室内摄像头约800万台。
无论是纯音频硬件(录音笔、耳机、会议设备),还是多媒体硬件(摄像头、记录仪、眼镜),都占据重要位置。随着多模态AI、大模型和算力的持续发展,智能硬件可能呈现以下特点:
- 智能硬件与普通硬件的商业模式不同,其最终赢利点在于AI服务,而非一次性硬件利润;
- 优秀的硬件应是手机的延伸,服务手机无法覆盖的场景,满足用户更高层次需求;
- 融合语音与多模态的理解、分析、剪辑功能;
- 成本结构将发生变化,从硬件成本转向AI服务带来的语音、图像、文字处理成本。
即使是AI硬件,仍要抓住主要矛盾:AI赋能是否真正带来收益?是为了提高销量,还是主打AI服务?
10. 从功能实现到体验提升
随着AI普及,语音大模型对用户不再遥远,而是真正进入工作与生活。如果说之前AI多在后台服务,现在像DeepSeek、豆包等应用已成为国民级工具。用户对语音产品的期待越来越高,不仅要求功能实现,更追求自然舒适的体验。我们既不能高估用户对产品的耐心,也不能低估他们对体验的挑剔。
因此,语音交互的每个环节都需要精心设计。让产品更有“活人感”,对话更丝滑,提供情绪价值,甚至适时承认能力边界,反而更容易获得用户认可。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。