语音识别
-
接入语音翻译SDK,快速实现实时语音识别和文本翻译识别功能
本文介绍如何接入 ZegoRealtimeTranslation SDK(提供语音翻译SDK),实现“边说话边输出文字”等无障碍沟通效果。ZegoRealtimeTranslati…
-
ASRU2023 | BA-MoE: 基于边界感知混合专家的中英混杂语音识别
语种混杂(Code-mix)是一句话中交替使用两种或多种语言的行为,在当今全球化和文化多样的世界中变得越来越普遍。这种语言现象对语音和语言处理任务,特别是语音识别(ASR)形成了新…
-
端到端语音识别中的建模单元
端到端语音识别中不同的建模单元有着不同的应用场景,本文对中英文常用的一些建模方式以及如何生成对应的标签进行总结,希望对大家有所帮助。 I. 中文建模单元 音素(phoneme) 音…
-
西工大 ASLP 实验室在 WeNet 中开源基于 CPPN 的神经网络热词增强语音识别方案
语境偏置(Contextual biasing)旨在将语境知识集成到语音识别(ASR)系统中,以提高在相关领域词汇(俗称“热词”)上的识别准确率。在许多ASR场景中,待识别语音中可…
-
OOONA 和 AudioShake 联手提高 ASR 转录准确性
2023 年 9 月 6 日,为媒体本地化行业提供专业管理和制作工具的全球供应商 OOONA 今天宣布与 AudioShake 建立战略合作伙伴关系,以提高自动语音识别(ASR)转…
-
基于对比学习的一体化模型 | Interspeech2023
导读:Interspeech 是国际语音通信协会(ISCA)举办的年度会议,也是全球最大、最全面的专注于语音通信领域的学术盛会。2023 届 Interspeech 会议于 202…
-
人工智能的进步,提升了芯片语音识别能力
21dB声学人据悉,IBM和加州大学(California universities)旧金山和伯克利分校在语音识别技术方面的独立研究,为患有声带麻痹和失语症的患者带来了好消息。 I…
-
人工智能仅通过打字声音即可识别并窃取信息准确率高达95%
研究发现,AI经发展到可以透过聆听视讯软件Zoom和其他录音设备上录制的键盘打字声,来辨识出输入电脑的资讯和密码。且根据实测,精准度最高可达到95%。 据报导,这项研究发表于IEE…
-
基于交互式注意力的语音情感识别联合网络 | IEEE ICME 2023论文
研究背景:语音情感识别(Speech Emotion Recognition,SER)指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如…
-
基于Kaldi的语音识别引擎后端架构设计
1 概述 语音识别技术,是将语音信号转换为文本内容的技术。目前比较流行的语音识别技术主要有两种。一种是基于Kaldi的传统语音识别技术,另一种是目前流行的基于深度学习模型的端到端语…
-
语音识别如何改善电信业客服体验
近年来,电信业出现了大量 AI 驱动的技术,尤其是语音识别和翻译。多语种 AI 虚拟助手、数字人、聊天机器人、语音客服、音频转录等技术正在大幅改变电信业。企业正在呼叫中心部署 AI…
-
语音鉴伪&说话人识别
随着语音处理技术的不断提升,伪造语音的身影在社会生活中出现的更加频繁,一方面语音提醒、语音解锁以及短视频配音等自动化语音技术极大的丰富了人们业余生活,但是随之而来的滥用问题也给生活…
-
低延迟流式语音识别技术在人机语音交互场景中的实践
美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则…
-
顺丰科技基于WeNet端到端语音识别方案落地
顺丰作为国内领先的快递物流综合服务商,一直致力于为用户提供更优质、更高效便捷的快递物流服务。顺丰科技作为顺丰集团旗下的科技公司,以科技深耕于物流与供应链行业,通过在大数据、人工智能…
-
语音识别系列之基于脉冲神经网络的语音唤醒
语音唤醒(Keyword Spotting,KWS)是较为初级的语音识别任务,在2014年陈果果的工作[1]后,学界兴起大量研究,业界也获普遍应用,如智能家居(音箱、TV)、智能穿…
-
语音识别资料汇总:常见库和特征对比
语音识别基础 语音数据是一种时间序列数据,它记录了声音在时间轴上的变化。 通常通过麦克风收集,每个时刻的声音信号被采样成数字形式,形成一个时间序列。 语音数据通常需要进行…
-
ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型
本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Reco…
-
B站语音识别技术的落地实践
自动语音识别(Automatic Speech Recognition,ASR)技术目前已大规模落地于B站相关业务场景,例如音视频内容安全审核,AI字幕(C端,必剪,S12直播等)…
-
MFCCA多通道多说话人语音识别模型上线魔搭(ModelScope)
实验室研发的基于多帧跨通道注意力机制(MFCCA)的多说话人语音识别模型近日上线魔搭(ModelScope)社区,该模型在AliMeeting会议数据集上获得当前最优性能。欢迎大家…
-
语音识别系统在嘈杂的工厂环境中控制机器
如今,我们已经习惯使用语音识别软件来控制智能手机和家用电器,但类似的语音控制系统还没有进入嘈杂的工业场所。 这种情况可能很快就会改变,这要得益于德国奥尔登堡弗劳恩霍夫数字媒体技术研…