阿里公布新语音合成技术,97%接近原始录音


最近,阿里巴巴发布了由佛法机器智能研究所独立开发的新一代语音合成技术KAN-TTS。据阿里巴巴称,新的语音技术可以大大提高合成语音与人声之间的相似性,并将语音合成定制成本降低10倍以上。阿里还表示,目前的商业商业系统的合成语音通常接近原始录音的85%到90%,而基于KAN-TTS技术的合成语音可以将数据增加到97%以上。

e35e32cdc55545eeb692a580ae1310b6

数据显示语音合成是一种通过机械和电子方法产生人工语音的技术。 TTS技术(也称为文本到语音技术)是语音合成的一部分。它是一种将计算机生成或外部输入的文本信息转换为可听和流利的中文口语输出的技术。语音合成和语音识别技术是实现人与语言交流和建立具有听说技能的口语系统所必需的两项关键技术。使计算机具有与人类相同的说话能力,是现代信息产业的重要竞争市场。与语音识别相比,语音合成技术相对成熟,并已开始走向工业化。

c97a99863de14eed94053d2bace822dc

由Dharma机器智能研究所发起的KAN-TTS已经独立开发并与当前主流的端到端TTS技术和传统TTS技术深度集成,以在许多方面改善语音合成。传统的语音合成定制需要超过10小时的数据记录和标记,这对记录器和记录环境非常苛刻。从启动定制到最终交付,项目周期成本很高。

现在,Ali使用多扬声器模型与扬声器感知高级传输学习相结合,将语音合成定制的成本降低了10倍以上,并将循环压缩降低了3倍以上。换句话说,标准TTS定制可以使用一小时的有效记录数据和不到两个月的生产周期来完成。另外,这允许普通用户自定义“AI声音”阈值较低,只需一部手机录音十分钟,即可获得与录制声音高度相似的合成声音。

81bee7faf0dd43dfa722b1727f2c7ace

在语音合成领域,Ali推出了Tmall Elf等商业产品。天猫?槭前⒗锇桶腿斯ぶ悄苁笛槭铱⒌牡谝豢钪悄苡镆糁郑彩瞧湎鸭禔I产品开发的第一个成果。根据阿里巴巴人工智能实验室产品和运营总经理杜海涛的说法,“在过去的18个月里,我们已经完成了110亿天猫精灵的吵醒,回答了用户的100亿问题,我们已经认识了1500万中国人。过去,我们的技能增长了120%,现在我们覆盖了市场上70%以上的互联家用设备。“在成功推广新技术的过程中,用户将能够通过天猫听到更多情感和人性化的语音服务。

[本文来自网络]