语音识别
-
语音识别资料汇总:常见库和特征对比
语音识别基础 语音数据是一种时间序列数据,它记录了声音在时间轴上的变化。 通常通过麦克风收集,每个时刻的声音信号被采样成数字形式,形成一个时间序列。 语音数据通常需要进行…
-
ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型
本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Reco…
-
B站语音识别技术的落地实践
自动语音识别(Automatic Speech Recognition,ASR)技术目前已大规模落地于B站相关业务场景,例如音视频内容安全审核,AI字幕(C端,必剪,S12直播等)…
-
MFCCA多通道多说话人语音识别模型上线魔搭(ModelScope)
实验室研发的基于多帧跨通道注意力机制(MFCCA)的多说话人语音识别模型近日上线魔搭(ModelScope)社区,该模型在AliMeeting会议数据集上获得当前最优性能。欢迎大家…
-
语音识别系统在嘈杂的工厂环境中控制机器
如今,我们已经习惯使用语音识别软件来控制智能手机和家用电器,但类似的语音控制系统还没有进入嘈杂的工业场所。 这种情况可能很快就会改变,这要得益于德国奥尔登堡弗劳恩霍夫数字媒体技术研…
-
AI 看唇语,在嘈杂场景的语音识别准确率高达75%
事实上,研究表明视觉线索在语言学习中起着关键的作用。相比之下,人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练,通常需要数万小时的记录。 为了研究视觉效果,尤其是嘴部…
-
如何把语音识别功能加到你的项目中?
如何用2分钟的时间,把语音识别功能加到你的项目中? 早在十年前,就有一些大厂推出了AI开放平台,这里面就包含语音识别的功能。 用法也非常简单,大概的流程就是,先把你的语音录制成文件…
-
Maqsam 推出突破性的阿拉伯语语音识别技术
2023 年 2 月 7 日—— 总部位于中东和北非的领先云通信公司 Maqsam 在阿拉伯语自动语音识别 (ASR) 领域取得了重大的全球突破;也称为语音转文本 (STT)。在准…
-
VoxEQ取得了语音分析方面的突破,超越了以前最先进的 “从声音中预测年龄 “的系统
2023 年 2 月 6 日,为了解声音背后的人而提供世界级专有人工智能工具的VoxEQ今天宣布,在 “从声音看年龄 “的预测方面取得了突破性进展,准确率提…
-
语音识别系列之脉冲神经网络特征工程
人工神经网络(Artificial Neural Network, ANN)中的单个人工神经元是对生物神经元的高度抽象、提炼和简化,模拟了后者的若干基本性质。得益于误差反向传播算法…
-
语音识别系列之CTC延迟削减
连接主义时间分类(Connectionist Temporal Classification, CTC)是自动语音识别(ASR)领域的一项经典技术,它的算法简单而优美,漂亮地解决了…
-
卡内基梅隆大学团队推出适用于数千种语言的语音识别项目
全世界使用的7000到8000种语言中只有一小部分受益于现代语言技术,如语音到文本转录、自动字幕、即时翻译和语音识别。卡内基梅隆大学的研究人员希望将自动语音识别工具的语言数量从大约…
-
网易易盾多级建模方法提升汉语语音识别效果
导读:语音是人类信息沟通的重要途径,同时也是人机交互的重要桥梁,自动语音识别可以表述为通过计算机将人类语音信号转录为书面形式的文字输出的过程。本文分享了网易易盾提出的多级建模单元的…
-
语音识别系列之基于CTC的VAD
语音活动性检测(Voice Activity Dection, VAD)常作为语音识别系统的前端模块过滤非语音段,为后续增强模块提供语音/非语音判据,从而更好的掌握背景噪声特性,进…
-
直接开源,阿里达摩院公布下一代工业级语音识别模型
12 月 22 日消息,阿里巴巴达摩院今日发布了新一代语音识别模型 Paraformer,适用于语音输入法、智能客服、车载导航、会议纪要等场景。 据介绍,这是业界首个应用落地的非自…
-
自动说话人识别技术在法庭上优于人类听众
在一些法庭案件中,确认录音中的人声是否属于已知发言人是非常关键的,例如:确认被截获的电话录音中的发言人是否是被告。 在大多数英语国家,专家证词只有在可能有助于法官或陪审团做出决定的…
-
丰田与Google合作,不用连网也能做到语音识别
目前比较先进的语音识别系统几乎都需要连接网络才能使用,这是因为要辨识语音并且转换成特定指令,需要大量运算。而携带式装置运算能力大多数不够,所以需要通过网络使用云服务协助。因此,现在…
-
多家科技公司寻求为残障人士改进语音识别工具
多家大型科技公司正在与高校合作开发语音识别技术,以更好地识别与残障人士相关的语音模式。亚马逊、苹果、谷歌、Meta和微软正在与伊利诺伊大学厄巴纳-香槟分校(University o…
-
喜马拉雅自动语音识别技术SpeechIO TIOBE评测夺冠 超低错误率展现强大AI技术实力
近日,SpeechIO TIOBE评测(简称“评测”)第三季度结果公布,喜马拉雅自动语音识别技术(简称“ASR”)在本次评测中夺冠。喜马拉雅这一技术已在喜马拉雅App的“AI文稿功…