出门问问论文入选全球语音技术顶会INTERSPEECH 2022

砍柴网 • 3年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

如何让AI语音更富有人类情感？

近日，全球语音领域顶级会议INTERSPEECH 2022公布论文入选名单，出门问问与西工大谢磊教授ASLP实验室合作撰写的团队情感语音合成论文入选，并将在会议上进行展示。

INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力，是由国际语音通讯协会（ISCA）创办的旗舰级国际会议，也是全球最大的综合性语音领域的科技盛会，对参会企业和单位有着严苛的准入门槛，历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。此次论文入选，代表出门问问在语音合成领域的科研实力和技术创新能力获得国际学术界的认可。

出门问问论文入选全球语音技术顶会INTERSPEECH 2022

论文贡献：跨说话人情感迁移语音合成的实现路径

如何让AI语音更富有人类情感，更有情绪化的表达？出门问问在题为《端到端语音合成中基于韵律补偿的跨说话人情感迁移》的论文中作以阐述。

跨说话人情感迁移语音合成主要是将情感从具有情感数据的源说话人迁移到新的没有该情感的目标说话人上，使目标说话人能够表达其训练数据中不存在的各种情感。“情感迁移”是跨说话人场景中最流行的策略。在这项研究中，从源说话人的情感参考音频中提取与说话人无关的情感嵌入至关重要。否则，情感嵌入中保留的说话人信息就会影响目标说话人的音色。然而，在消除源说话人音色信息的过程中，情感嵌入所传递的情感信息往往会被削弱，导致合成目标说话人的情感语音表现力平淡。

如何防止情感嵌入中的情感信息被削弱是一个挑战。具体来说，在合成语音中，具有足够情感信息的reference embedding 往往会导致源说话人音色泄漏，而进一步消除reference embedding中的说话人信息可能会使迁移的情感表达削弱。为了应对这一挑战，出门问问在论文中提出一种韵律补偿策略来补偿情感嵌入中由于说话人信息消除造成的情感信息损失，以提升合成语音的情感表达能力。

出门问问论文入选全球语音技术顶会INTERSPEECH 2022

论文中表达，由预训练的 Automatic Speech Recognition（ASR）模型产生的隐藏表征保留了一定的韵律信息，但没有明显的说话人信息，于是我们提出了一个韵律补偿模块（prosody compensation module, PCM）以参考音频通过ASR模型得到的中间表征作为输入用于补偿情感信息。本文提出的带韵律补偿的跨说话人情感语音合成模型，包含说话人解耦模块（speaker disentangling module, SDM）、说话人嵌入模块和PCM模块。其中，SDM是从参考频谱中获得说话人无关的情感嵌入，PCM是从AIF中获得额外的情感信息，以补偿因解藕说话人音色而导致的情感嵌入中的情感信息损失。为了有效地从AIF中提取全局韵律信息，还引入了一种由全局上下文模块global context（GC） (如Figure 2所示) 辅助的韵律补偿编码器。实验表明，该方法能够有效地缓解解耦后的情感嵌入中情感表现力受损的影响，在提升迁移情感表现力的同时保持目标说话人的音色。

语音合成示例:

出门问问论文入选全球语音技术顶会INTERSPEECH 2022

行业应用：打造业内领先的AI配音神器「魔音工坊」

近年来，出门问问在语音技术上的积累日渐成熟，并逐渐打磨一款面向消费者的AI配音产品——「魔音工坊」。该产品基于出门问问自研语音合成系统MeetVoice，发音精准，韵律流畅，现已成为深受短视频创作者们喜爱的顶级配音神器。

魔音工坊拥有丰富的配音编辑功能，在类似word「编辑器」界面，可轻松实现停顿调节、多音字、多发音人、局部变速等全方位的编辑，另有行业独创的重读、拖音等调音功能，让AI配音进一步媲美真人。

但如何应用魔音工坊的海量数据，让不同风格、不同情感的说话人互相结合，使之拥有更多情感丰富、风格多样的发音人，如何让发音人的情感更生动充沛，是魔音工坊一直追求的极致产品体验。

当前语音合成系统对风格/情感匹配的高质量音库有较强的依赖性，该项技术可以通过风格/情感迁移，实现“单人千音”的效果。该项技术的落地将大大提升风格化情感化语音合成系统的构建效率，降低系统构建的成本。

为了实现“单人千音”的效果，魔音工坊也研发实现了“声音转换”，即把A的说话风格（节奏和韵律等）迁移到B上。转换后的声音，会有B的音色，并拥有A的节奏和韵律等信息。

图片5.jpg

（魔音工坊产品界面）

「魔音工坊」的“声音转换”可实现：

1、AI合成效果不佳之处，比如破音、发音不清晰/不饱满等，可以使用这个功能，让你的AI主播，学习其他AI主播的播报效果，或学习你的朗读效果；

2、某个地方需要重读，但是AI却轻描淡写，这时候可以尝试使用声音转换功能，实现「知轻重」的效果；

3、某个地方想要拖音，但是AI读的比较短平快，这时候使用声音转换，实现「懂缓急」的效果；

4、某句关键的台词，AI合成的效果不够出色，感觉AI配音的效果不佳（比如视频的开头黄金10秒，用户都希望配音能够出彩），这时可以尝试使用声音转换，让你的精彩演绎，赋能给魔音工坊的AI发音人，让声音更生动，富于情绪，更有情感。

此篇论文是我们的一部分探索，期待一下魔音工坊上线更多样性的发音人，也让每一个人都成为声音的导演，助力AI配音行业的蓬勃发展。

未来，出门问问将继续深耕语音、声学研发积累，并逐步落地在更多产品服务中。以更智能的技术创造更贴心的语音体验，富于情感，按「需」发音。让人和机器的交互更自然，让AI走进更多人的日常生活。

论文：《Cross-speaker Emotion Transfer Based on Prosody Compensation for End-to-End Speech Synthesis》

作者：李涛，王新升，谢启聪，王智超，江明奇，谢磊