即构云端实时语音识别上线,实现语音通话实时字幕&翻译、直播字幕等功能

近日,即构科技(ZEGO)发布云端实时语音识别 API,将语音通话、视频直播、在线会议等实时音视频场景中的语音内容实时转为文字结果。 实现 1v1 语音通话实时字幕&翻译、在线会议实时字幕及会后纪要总结、全球直播字幕、直播间实时主播内容总结等场景。

ZEGO云端实时语音识别优势

  1. 延迟600ms左右:从用户说话结束到获取到ASR识别结果,仅需要600ms即可快速获得识别结果。
  2. 识别准确度提升40%+
    • 为语音识别特定优化的降噪能力,去除环境噪声、远处人声等对识别的干扰
    • 更优的AI 回声消除能力,去除包括直播间礼物音效、BGM、语聊房内其他用户说话等造成的误识别
  3. 相较于传统方案节省50%+成本:仅针对包含了真实有效的内容时,启动语音识别能力,提高利用率,降低成本

产品功能

识别任务维度

房间维度:将RTC房间内的所有音视频流进行识别,并分别输出识别结果,包括roomid、userid、streamid、userdata及ASR的识别结果等信息

识别语言

中文普通话、粤语、英语、韩语、日语、泰语、印度尼西亚语、越南语、马来语、菲律宾语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印地语、法语、德语、上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话

断句配置

设置断句间隔的时长,默认500ms

应用场景及接入方式

针对 RTC 房间内的所有音频流进行实时语音识别,将语音转为文字,可实现在线会议实时字幕、多语种语聊房互动、全球直播字幕等场景。

接入文档:

https://doc-zh.zego.im/cloud-realtime-asr/quick-start

了解更多,请联系我们👇

即构云端实时语音识别上线,实现语音通话实时字幕&翻译、直播字幕等功能

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/60401.html

(0)

相关推荐

发表回复

登录后才能评论