语音识别

行业资讯

Adobe 和 Speechmatics 为 Premiere 提供“云级”的设备端语音识别功能

Adobe 扩大了与 Speechmatics 的合作，为其 Premiere 编辑软件提供云端级别的设备端语音识别功能。该公司表示，该功能可以在本地进行准确的设备端转录，并且功能…

厂商动态
2026年4月22日
行业资讯

aiOla推出QUASAR，一个用于高度个性化语音识别路由的网关

2026年2月9日，致力于推进语音识别技术和语音代理的语音 AI 公司 aiOla 推出了 QUASAR（质量加权无监督 ASR 评估和排名），这是一个语音智能网关，通过将每个音频…

海外观察
2026年2月10日
技术文章

NVIDIA AI 发布 Nemotron Speech ASR：全新的开源实时转录模型

NVIDIA 近日发布了其全新的英语实时转录模型（Nemotron Speech ASR），该模型专为低延迟语音助手和实时字幕生成而设计。Hugging Face平台上的测试版本 …

AIGC
2026年1月8日
技术文章

AAAI 2026｜MARS：基于多模态检索和选择增强的对话LLM语音识别

随着以智能助手为代表的人机语音对话系统和会议转录与纪要等应用的爆发，对话语音识别（Conversational ASR）技术变得愈发重要。对话语音（Conversational …

AIGC
2025年12月1日
技术文章

Meta AI 发布 Omnilingual ASR：一套支持1600 多种语言的开源语音识别模型

如何构建一个能够理解数千种语言（包括许多以前从未有过有效自动语音识别 (ASR )模型的语言）的语音识别系统？ Meta AI 发布了 Omnilingual ASR，这…

AIGC
2025年11月12日
行业资讯

微软通过语音识别新方法增强联络中心语音 AI

微软为其 Dynamics 365 联络中心平台添加了一项新功能：受限语音识别(Constrained Speech Recognition)。这项创新引入了结构化规则来提高语音…

CTI观察
2025年9月16日
技术文章

TwinMind 推出 Ear-3 语音识别模型，现有 ASR 解决方案竞争的有力产品

总部位于加州的语音 AI 初创公司 TwinMind 发布了 Ear-3 语音识别模型，声称其在多项关键指标上均达到了业界领先水平，并扩展了多语言支持。此次发布使 Ear-3 成为…

AIGC
2025年9月12日
行业资讯

即构科技发布云端实时语音识别服务，较传统识别方案成本节省50%以上

如今，实时语音识别已经成为直播、语聊、在线课堂和在线会议中影响用户体验的一大因素。为解决诸多实时语音识别的痛点，即构科技推出云端实时语音识别服务，端到端延迟低至600ms、较传统识…

ZEGO即构科技
2025年9月11日
技术文章

Qwen3-ASR：阿里基于 Qwen3-Omni 构建的全新语音识别模型，实现更强大的语音识别性能

阿里云 Qwen 团队推出了Qwen3-ASR Flash，这是一种一体化自动语音识别 (ASR) 模型（可作为API 服务提供），建立在 Qwen3-Omni 的强大智能之上，可…

AIGC
2025年9月11日
技术文章

OLMoASR 是什么？它与 OpenAI 的语音识别 Whisper 相比如何？

艾伦人工智能研究所 (AI2) 发布了OLMoASR，这是一套开放的自动语音识别 (ASR)模型，可与 OpenAI 的 Whisper 等闭源系统相媲美。除了发布模型权重外，AI…

AIGC
2025年9月5日
技术文章

NVIDIA 开源 Parakeet TDT 0.6B：打造自动语音识别 ASR 全新标准，一秒转录一小时音频

NVIDIA 发布了Parakeet TDT 0.6B，这是一款先进的自动语音识别 (ASR) 模型，现已在Hugging Face上完全开源。该模型拥有6 亿个参数、商业许可的 …

AIGC
2025年5月6日
行业资讯

Gladia 推出 Solaria：一个多语言、具有全球可扩展性的语音转文本模型

2025年 4 月 2 日，AI 转录和音频智能提供商 Gladia 宣布推出 Solaria，这是一种下一代自动语音识别 (ASR) 模型，旨在重新定义联络中心和其他语音优先平台…

海外观察
2025年4月3日
行业资讯

到 2028 年语音识别软件市场规模将增长 200 亿美元

研究公司Technavio预测，2024年至2028年全球语音/语音识别软件市场将增长200.7亿美元，复合年增长率为15.7%。该公司在最新市场报告中表示，市场正在经历显著增长…

茉莉
2024年11月21日
技术文章

Moonshine：一种快速、准确、轻量级的语音转文本模型，用于边缘设备转录和语音命令处理

语音识别技术已成为各种现代应用中的关键，尤其是实时转录和语音激活命令系统。它对于听力障碍人士的辅助工具、演示期间的实时字幕以及智能设备中的语音控制至关重要。这些应用需要即时、精确的…

音频技术
2024年10月24日
技术文章

Interspeech2024｜基于离散语音单元的流式解码器语音识别

在当今数字化时代，大模型以其强大的数据处理和复杂问题解析能力，正深刻改变着我们的现实生活。以GPT4o等为例，大模型已经具备了令人惊叹的全双工语音交互能力，其中实时交互是语音对话的…

音频技术
2024年7月17日
技术文章

使用 LLM 评估和改进自动转录质量

转录是现代联络中心活动的重要组成部分，自动语音识别（ASR）系统在很大程度上为其提供了便利。然而，这些工具在准确性和可靠性方面可能存在不足。因此，评估转录质量变得势在必行，而传统的…

实时互动
2024年5月23日
行业资讯

机器聆听：使语音识别系统更具包容性

与亚马逊的Alexa、苹果的Siri和Google Assistant等语音技术的交互可以提高效率和生产力来让生活更轻松。但是，在交互过程中生成和理解语音的错误很常见。当使用这些设…

音频技术
2024年5月8日
技术文章

谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

声学室模拟允许在AR眼镜上以最少的真实数据进行训练，用于开发鲁棒的语音识别声音分离模型。随着增强现实（AR）技术的强大和广泛应用，它能应用到各种日常情境中。我们对AR技术的潜能感…

音频技术
2024年4月22日
行业资讯

Trust Stamp面部生物识别层解决了深度伪造的语音漏洞

Trust Stamp推出了一项计划，旨在帮助金融机构通过多因素生物识别身份验证快速跟踪其深度造假检测能力。人脸生物识别公司的一份新闻稿将Trust Stamp的生物识别人脸认证产…

海外观察
2024年4月10日
行业资讯

自动语音识别(ASR)常用的 ASR API 和提供商

自动语音识别（ASR），又称语音转文字，是一种能让机器将口语转换成书面文字的技术。它在虚拟助手、转录服务和声控界面等各种应用中日益普及。 ASR 的核心是依靠复杂的算法和机器学习模…

茉莉
2024年3月26日

1 / 3
1
2
3
下一页