云知声AI开放平台，打造有情感有温度的定制音库

元二 • 2022年4月25日上午10:29 • 行业资讯

随着时代的高速发展和人工智能技术的愈加完善，智能家居、智能客服、电台等具有AI智能化特征的应用场景在生活中随处可见。其实，语音智能交互功能的实现，和人与人间的互动十分类似，均需满足三个条件，即耳朵听、大脑理解、嘴巴回答，分别对应着语音识别技术（ASR）、自然语言处理技术（NLP）、语音合成技术（TTS）这“三大技术”。在其中的语音合成技术中，想要让声音富有情感和表现力，一直是一大难点。云知声AI开放平台面向企业对接定制音库服务，通过定制化专属IP发音人让原本冰冷生硬的合成语音有了情感与温度。

与市面上传统的TTS产品所不同，云知声推出的“定制音库”是一款面向企业做个性化语音定制的产品。云知声AI开放平台不仅可以根据企业的个性化场景需要定制专属的IP发音人，还可以通过私有化部署语音服务，将定制发音人部署到客户自身的服务器上，使用更私密、更安全。

现如今，TTS技术不断发展进步，用户不再满足于没有情感的机械声，而是对于语音合成的音质质量提出了更高要求，因此，优化语音合成中的声音风格和音色、让智能客服更具人情味的生命力、让智能接待更加真情实感、让声音形象与用户产生更多情感互动，成为了业界的难点和共同追求的方向。

为了使合成发音更具专属发音人特点，云知声AI开放平台音库定制功能中使用的端到端合成技术，更加重视个性化与情感共鸣，合成效果也具有更高的自然度、辨识度。它通过端到端声学模型将输入文本转换成声学参数，然后通过神经网络声码器将声学参数转换成语音，对原音的音色和风格全面学习，合成效果贴近真人1:1还原的真人数字声音，实现真实还原个人音色，实现有温度、有感情、零距离感的真实分享。

在现有的技术基础上，更多个性化场景也将运用到语音合成技术，云知声AI开放平台音库定制功能的应用场景将极具想象力，为工作和生活提供更多种可能的表达方式。根据使用主体的不同，应用场景从技术层面可以分为“大众应用级”和“专业应用级”。

大众应用级主要适用于C端客户在无干扰噪音的纯静录音环境，自行录制不同情感表达的语音数据，上传到相关语音制作平台即可，在基础模型训练和调优具有一定的还原性，适用于个人娱乐等场景；专业应用级是则更需要专业TTS数据制作机构进行高质量语料采集，通过专业技术调优后合成效果无限贴近真人，适用于企业做个性化的TTS定制服务。

样本的获取在机器学习领域是很重要的环节，TTS技术同样如此，想要发出更有情感表现力和精准韵律的声音，数据的采集与模型训练至关重要。云知声AI开放平台音库定制功能由专业团队对接服务，基于客户的实际使用场景，为客户提供定制化制作流程。采用标准模型训练、最终模型训练多重非实时语音模型训练方案，定制企业的“专属IP发音人”，从而有效保障服务质量和音库定制质量。

技术的种子已然落地，科幻影片中描述的未来已来。云知声AI开放平台将在TTS技术能力上区别低程度复刻，娱乐化的应用领域，凭借过硬的实力突破语言与文字的边界，用技术为声音温暖赋能。