语音识别

技术文章

CHiME-8多通道远场语音识别Baseline介绍

语音领域每年都有很多比赛，每个比赛都有自己的侧重点，其中CHiME系列比赛的侧重点就是多通道远场语音识别，与其他的语音识别比赛有所区别的是，CHiME提供分布式麦克风和麦克风阵列数…

音频技术
2024年3月20日
技术文章

面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合 | ICASSP2024

多通道语音识别（Multi-channel ASR）的目标是识别由多个麦克风（如麦克风阵列）拾取的多通道音频，相较于标准的单通道语音识别，多通道语音识别通过有效利用多通道信号提供的…

音频技术
2024年2月24日
行业资讯

波士顿大学计算机科学教授获得9.8万美元资助以改进语音识别技术

波士顿大学大都会学院计算机科学系的助理教授Shengzhi Zhang获得了思科98,197美元的资助，该项目将通过改进处理错误识别输入的方式来帮助构建更好的语音识别系统。 Zha…

海外观察
2024年2月21日
技术文章

接入语音翻译SDK，快速实现实时语音识别和文本翻译识别功能

本文介绍如何接入 ZegoRealtimeTranslation SDK(提供语音翻译SDK)，实现“边说话边输出文字”等无障碍沟通效果。ZegoRealtimeTranslati…

ZEGO即构科技
2024年1月24日
技术文章

ASRU2023 | BA-MoE: 基于边界感知混合专家的中英混杂语音识别

语种混杂（Code-mix）是一句话中交替使用两种或多种语言的行为，在当今全球化和文化多样的世界中变得越来越普遍。这种语言现象对语音和语言处理任务，特别是语音识别（ASR）形成了新…

音频技术
2023年12月29日
技术文章

端到端语音识别中的建模单元

端到端语音识别中不同的建模单元有着不同的应用场景，本文对中英文常用的一些建模方式以及如何生成对应的标签进行总结，希望对大家有所帮助。 I. 中文建模单元音素（phoneme）音…

音频技术
2023年10月17日
技术文章

西工大 ASLP 实验室在 WeNet 中开源基于 CPPN 的神经网络热词增强语音识别方案

语境偏置（Contextual biasing）旨在将语境知识集成到语音识别（ASR）系统中，以提高在相关领域词汇（俗称“热词”）上的识别准确率。在许多ASR场景中，待识别语音中可…

音频技术
2023年9月11日
行业资讯

OOONA 和 AudioShake 联手提高 ASR 转录准确性

2023 年 9 月 6 日，为媒体本地化行业提供专业管理和制作工具的全球供应商 OOONA 今天宣布与 AudioShake 建立战略合作伙伴关系，以提高自动语音识别（ASR）转…

海外观察
2023年9月7日
技术文章

基于对比学习的一体化模型 | Interspeech2023

导读：Interspeech 是国际语音通信协会（ISCA）举办的年度会议，也是全球最大、最全面的专注于语音通信领域的学术盛会。2023 届 Interspeech 会议于 202…

大厂Animal
2023年8月31日
技术文章

人工智能的进步，提升了芯片语音识别能力

21dB声学人据悉，IBM和加州大学（California universities）旧金山和伯克利分校在语音识别技术方面的独立研究，为患有声带麻痹和失语症的患者带来了好消息。 I…

音频技术
2023年8月31日
行业资讯

人工智能仅通过打字声音即可识别并窃取信息准确率高达95%

研究发现，AI经发展到可以透过聆听视讯软件Zoom和其他录音设备上录制的键盘打字声，来辨识出输入电脑的资讯和密码。且根据实测，精准度最高可达到95%。据报导，这项研究发表于IEE…

追风者
2023年8月11日
技术文章

基于交互式注意力的语音情感识别联合网络 | IEEE ICME 2023论文

研究背景：语音情感识别（Speech Emotion Recognition，SER）指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如…

音频技术
2023年7月14日
技术文章

基于Kaldi的语音识别引擎后端架构设计

1 概述语音识别技术，是将语音信号转换为文本内容的技术。目前比较流行的语音识别技术主要有两种。一种是基于Kaldi的传统语音识别技术，另一种是目前流行的基于深度学习模型的端到端语…

音频技术
2023年7月6日
应用场景

语音识别如何改善电信业客服体验

近年来，电信业出现了大量 AI 驱动的技术，尤其是语音识别和翻译。多语种 AI 虚拟助手、数字人、聊天机器人、语音客服、音频转录等技术正在大幅改变电信业。企业正在呼叫中心部署 AI…

音频技术
2023年6月28日
技术文章

语音鉴伪&说话人识别

随着语音处理技术的不断提升，伪造语音的身影在社会生活中出现的更加频繁，一方面语音提醒、语音解锁以及短视频配音等自动化语音技术极大的丰富了人们业余生活，但是随之而来的滥用问题也给生活…

音频技术
2023年5月15日
技术文章

低延迟流式语音识别技术在人机语音交互场景中的实践

美团语音交互部针对交互场景下的低延迟语音识别需求，提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程，极大地简化了延迟优化的难度，仅通过一个正则…

大厂Animal
2023年4月14日
技术文章

顺丰科技基于WeNet端到端语音识别方案落地

顺丰作为国内领先的快递物流综合服务商，一直致力于为用户提供更优质、更高效便捷的快递物流服务。顺丰科技作为顺丰集团旗下的科技公司，以科技深耕于物流与供应链行业，通过在大数据、人工智能…

大厂Animal
2023年3月31日
技术文章

语音识别系列之基于脉冲神经网络的语音唤醒

语音唤醒（Keyword Spotting，KWS）是较为初级的语音识别任务，在2014年陈果果的工作[1]后，学界兴起大量研究，业界也获普遍应用，如智能家居（音箱、TV）、智能穿…

音频技术
2023年3月20日
技术文章

语音识别资料汇总：常见库和特征对比

语音识别基础语音数据是一种时间序列数据，它记录了声音在时间轴上的变化。通常通过麦克风收集，每个时刻的声音信号被采样成数字形式，形成一个时间序列。语音数据通常需要进行…

音频技术
2023年3月18日
技术文章

ICASSP2023论文分享 | DST：基于Transformer的可变形语音情感识别模型

本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Reco…

音频技术
2023年3月10日