微软 Azure AI 又一里程碑：Neural TTS 新模型呈现真人般情感饱满的 AI 语音

IT之家 1 月 27 日消息，如何让 AI 语音有效模仿人类对话的丰富动态与情感，已成为全球研究者的共同挑战。据微软官方消息，就在不久前，微软 Azure Neural TTS（神经网络文本转语音）推出的新一代模型“Uni-TTS v4”在这一领域取得了里程碑式的重大突破。在“2021 国际语音合成大赛（Blizzard Challenge 2021）”的测试中，Uni-TTS v4 的语音表现与通用数据集上的自然语音相比几乎没有明显差别，展现出足以“叫板”真人对话的实力。Uni-TTSv4 的研究出发点是 XYZ-代码，它是三种认知属性的联合表示：单语文本（X），音频或视觉感官信号（Y），以及多语言（Z）。相关研究可参阅此链接。“耳听”为实，微软官方还放出了几段 TTS 和真人对话的对比，一起来感受下新模型带来的逼真语音表现。英语：The visualizations of the vocal quality continue in a quartet and octet.真人录音：Uni-TTS v4：英语：Like other visitors, he is a believer.真人录音：Uni-TTS v4：中文：另外，也要规避当前的地缘局势风险，等待合适的时机介入。真人录音：Uni-TTS v4：用户可以在 Azure TTS 在线服务中使用自创文本来创建新的 demo。目前 Uni-TTS v4 可支持 TTS 语言库中 7 个语种的 8 个语音，研发团队还将持续使用最新模型优化 Neural TTS 已支持的其它语言以及自定义神经语音，以便能让用户通过 Azure TTS API、 Microsoft Office 和 Edge browser 直接获得更出色的新一代 TTS 语音。官方介绍，为了让 TTS 在以上两方面获得提升，Uni-TTS v4 在声学建模中引入了两项重要更新，研究团队首先采用了一个带有 transformer 和卷积块的新架构，以更好地模拟声学模型中的局部和全局依赖关系；其次，从显性视角（身份 ID、语种 ID、音调、语速）和隐性视角（话语级和音素级韵律）系统地对变量信息进行建模。这些视角分别使用监督学习和无监督学习，确保端到端的音频具有足够自然的表现力。IT之家了解到，作为微软 Azure 认知服务中的强大语音合成功能，Neural TTS 可用于帮助开发者将文本转换为真人一般的逼真自然语音，常被用于语音助手场景、文字朗读功能，及作为辅助性工具等等，同时也被整合到微软的 Edge Read Aloud、Immersive Reader 和 Word Read Aloud 等旗舰产品中，还被 AT&T、Duolingo、Progressive 等众多客户采用。Neural TTS 已拥有 330 多个音色，支持来自不同国家和地区的近 130 种语言或方言。用户和企业可以通过搜索“Azure TTS”进入产品网站，测试体验 Neural TTS 的丰富预设语音，抑或录制并上传自己的样本，来创建独有的自定义语音。

3399IT网

微软 Azure AI 又一里程碑：Neural TTS 新模型呈现真人般情感饱满的 AI 语音

作者: 远洋

作者: 远洋

为您推荐

曾学忠：小米手环销量累计达 1.4 亿只，小米手环 7 是“有史以来最强的小米手环”

再秀肌肉？特斯拉第二届 AI 日活动确认将于 8 月 19 日举行

众筹价 699 元，小米推出米家智能 IH 多功能料理锅：支持煎烤蒸煮焖炒，可 OTA 一键升级

小度发布添添智能健身镜：能捕捉 19 个人体关键骨骼点，4199 元起

小度智能摄像头电视 V75 发布：4K 分辨率，支持杜比视界，5699 元

5 笔涂出一只 3D 猫咪模型：可跑可跳无需手动绑定骨骼，浙大出品，代码已开源