语音识别
-
AAAI 2026|MARS:基于多模态检索和选择增强的对话LLM语音识别
随着以智能助手为代表的人机语音对话系统和会议转录与纪要等应用的爆发,对话语音识别(Conversational ASR) 技术变得愈发重要。对话语音(Conversational …
-
Meta AI 发布 Omnilingual ASR:一套支持1600 多种语言的开源语音识别模型
如何构建一个能够理解数千种语言(包括许多以前从未有过有效自动语音识别 (ASR )模型的语言)的语音识别系统? Meta AI 发布了 Omnilingual ASR,这…
-
微软通过语音识别新方法增强联络中心语音 AI
微软为其 Dynamics 365 联络中心平台添加了一项新功能:受限语音识别(Constrained Speech Recognition)。 这项创新引入了结构化规则来提高语音…
-
TwinMind 推出 Ear-3 语音识别模型,现有 ASR 解决方案竞争的有力产品
总部位于加州的语音 AI 初创公司 TwinMind 发布了 Ear-3 语音识别模型,声称其在多项关键指标上均达到了业界领先水平,并扩展了多语言支持。此次发布使 Ear-3 成为…
-
即构科技发布云端实时语音识别服务,较传统识别方案成本节省50%以上
如今,实时语音识别已经成为直播、语聊、在线课堂和在线会议中影响用户体验的一大因素。为解决诸多实时语音识别的痛点,即构科技推出云端实时语音识别服务,端到端延迟低至600ms、较传统识…
-
Qwen3-ASR:阿里基于 Qwen3-Omni 构建的全新语音识别模型,实现更强大的语音识别性能
阿里云 Qwen 团队推出了Qwen3-ASR Flash,这是一种一体化自动语音识别 (ASR) 模型(可作为API 服务提供),建立在 Qwen3-Omni 的强大智能之上,可…
-
OLMoASR 是什么?它与 OpenAI 的语音识别 Whisper 相比如何?
艾伦人工智能研究所 (AI2) 发布了OLMoASR,这是一套开放的自动语音识别 (ASR)模型,可与 OpenAI 的 Whisper 等闭源系统相媲美。除了发布模型权重外,AI…
-
NVIDIA 开源 Parakeet TDT 0.6B:打造自动语音识别 ASR 全新标准,一秒转录一小时音频
NVIDIA 发布了Parakeet TDT 0.6B,这是一款先进的自动语音识别 (ASR) 模型,现已在Hugging Face上完全开源。该模型拥有6 亿个参数、商业许可的 …
-
Gladia 推出 Solaria:一个多语言、具有全球可扩展性的语音转文本模型
2025年 4 月 2 日,AI 转录和音频智能提供商 Gladia 宣布推出 Solaria,这是一种下一代自动语音识别 (ASR) 模型,旨在重新定义联络中心和其他语音优先平台…
-
到 2028 年语音识别软件市场规模将增长 200 亿美元
研究公司Technavio预测,2024年至2028年全球语音/语音识别软件市场将增长200.7亿美元,复合年增长率为15.7%。 该公司在最新市场报告中表示,市场正在经历显著增长…
-
Moonshine:一种快速、准确、轻量级的语音转文本模型,用于边缘设备转录和语音命令处理
语音识别技术已成为各种现代应用中的关键,尤其是实时转录和语音激活命令系统。它对于听力障碍人士的辅助工具、演示期间的实时字幕以及智能设备中的语音控制至关重要。这些应用需要即时、精确的…
-
Interspeech2024|基于离散语音单元的流式解码器语音识别
在当今数字化时代,大模型以其强大的数据处理和复杂问题解析能力,正深刻改变着我们的现实生活。以GPT4o等为例,大模型已经具备了令人惊叹的全双工语音交互能力,其中实时交互是语音对话的…
-
使用 LLM 评估和改进自动转录质量
转录是现代联络中心活动的重要组成部分,自动语音识别(ASR)系统在很大程度上为其提供了便利。然而,这些工具在准确性和可靠性方面可能存在不足。因此,评估转录质量变得势在必行,而传统的…
-
机器聆听:使语音识别系统更具包容性
与亚马逊的Alexa、苹果的Siri和Google Assistant等语音技术的交互可以提高效率和生产力来让生活更轻松。但是,在交互过程中生成和理解语音的错误很常见。当使用这些设…
-
谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术
声学室模拟允许在AR眼镜上以最少的真实数据进行训练,用于开发鲁棒的语音识别声音分离模型。 随着增强现实(AR)技术的强大和广泛应用,它能应用到各种日常情境中。我们对AR技术的潜能感…
-
Trust Stamp面部生物识别层解决了深度伪造的语音漏洞
Trust Stamp推出了一项计划,旨在帮助金融机构通过多因素生物识别身份验证快速跟踪其深度造假检测能力。人脸生物识别公司的一份新闻稿将Trust Stamp的生物识别人脸认证产…
-
自动语音识别(ASR)常用的 ASR API 和提供商
自动语音识别(ASR),又称语音转文字,是一种能让机器将口语转换成书面文字的技术。它在虚拟助手、转录服务和声控界面等各种应用中日益普及。 ASR 的核心是依靠复杂的算法和机器学习模…
-
CHiME-8多通道远场语音识别Baseline介绍
语音领域每年都有很多比赛,每个比赛都有自己的侧重点,其中CHiME系列比赛的侧重点就是多通道远场语音识别,与其他的语音识别比赛有所区别的是,CHiME提供分布式麦克风和麦克风阵列数…
-
面向多种阵列拓扑的多通道语音识别模型:自动通道选择和空间特征融合 | ICASSP2024
多通道语音识别(Multi-channel ASR)的目标是识别由多个麦克风(如麦克风阵列)拾取的多通道音频,相较于标准的单通道语音识别,多通道语音识别通过有效利用多通道信号提供的…
-
波士顿大学计算机科学教授获得9.8万美元资助以改进语音识别技术
波士顿大学大都会学院计算机科学系的助理教授Shengzhi Zhang获得了思科98,197美元的资助,该项目将通过改进处理错误识别输入的方式来帮助构建更好的语音识别系统。 Zha…