标贝科技CTO李秀林:标贝语音合成技术升级,赋予AI语音更强表现力
李秀林,中科院声学所博士,10余年语音相关技术研发和相关的学术研究,专利数30多项,涉及文本处理、韵律预测、声学模型、拼接系统、模型自适应、神经网络、情感合成等多个关键领域。曾作为百度语音合成技术负责人带领团队折桂百度百万美元最高奖。现任标贝 科技 联合创始人&CTO。
【导读】近几年AI人工智能迅猛发展,语音识别技术也逐渐走向成熟,2020年疫情防控更是加速了智能语音交互技术在多场景落地。致力于智能语音交互和AI数据服务的标贝科技近日也完成了语音合成TTS3.0解决方案的升级迭代,在使用全新的声学模型和声码器优势下,深度学习端到端系统,可以实现承载更多的声音细节,显著提升TTS语音合成稳定性及表现力,助力更多场景落地。
语音合成,让机器人开口说话
语音合成技术解决的是从文本到语音转换,为服务机器人担当“嘴巴”的角色。为了让机器开口说话,与人类更进一步交流,语音合成的自然度、多语种能力、快速定制能力也就十分重要。
从技术架构来看,语音合成主要经历了三次大变革。
九十年代初,随着PSOLA方法的提出和计算机能力的发展,基于大语料库的单元挑选与波形拼接合成方法出现,可以合成出高质量的自然人语音。法语、德语、英语、日语等语种的文语转换系统相继研制成功。但波形语音合成法是一种相对简单的 TTS语音技术,通常只能合成有限词汇的语音段。
由于波形拼接方法需要的语音语料库非常占用资源而且要求设计精细,训练模型的时间长,为了解决这个难题,20世界末,隐马尔科夫模型(HMM)结合谐波加噪声模型一起面世了。这种方法也被看作是最有用的统计建模方法,灵活度高、库小、建构时间也少,非常适合移动嵌入式平台。
第三个阶段就是利用深度神经网络了,这是语音合成技术的一次飞跃式进步。深度学习的算法可以更好地模拟人声变化规律,音色、情感上的改善让语音合成效果越来越接近真人水平,使合成的声音更加自然和个性。谷歌的 WaveNet、Tacotron,百度的 ClariNet,都是基于深度神经网络的TTS系统。
标贝TTS语音合成技术,打造更温暖的声音
事实上,也是随着智能语音音质的提升,越来越多新的场景开始出现对语音技术的强烈需求,智能语音市场初现规模。也正是看准了这一时机,标贝科技作为一家专注于做语音技术的 创业 公司,在积累了丰富的语音合成数据基础上,于2018年正式推出语音合成TTS1.0行业解决方案。
李博士介绍,为了提高语音合成的自然流畅度,标贝科技的语音合成技术在声学、韵律上采用了基于Attention机制的深度神经网络技术模型,充分利用文本数据,构建前端模块、选择合适的声码器,降低运算量,创新语音合成模型,实现合成的语音发音自然、清晰、韵律感流畅,让机器与人的互动显得更亲近。
而随着市场的发展,人们对智能语音技术有了更高的要求。比如企业的智能客服需要嗓音轻柔甜美,新闻虚拟主播需要吐字清晰流畅,儿童有声读物则需要亲切可人等。为了满足不同客户群体需求,标贝科技在音色和场景丰富度上持续发力。基于海量语音数据的优势,标贝科技对音色库进行充分扩容,推出可以支持男女老幼多音色,中文、英文、中英混读、小语种等多语种的TTS2.0解决方案,可以根据用户个性化需求定制,满足多场景业务需求。
“其实我们第二版的TTS技术相对来说已经算是很成熟了,不管市场需求如何变化,我们始终聚焦AI语音的应用价值,在语音合成技术的基础上,不断拓展场景应用边界,打造丰富的技术产品及方案,构建更加完善的业务体系。“李博士表示。
“例如,在语音技术方面,我们打造声音复刻、情感合成、声音转换与AI歌曲等多元化语音技术服务。其中,声音复刻与情感合成是语音技术本身的创新应用,通过复刻声音和让声音更富有情感的表现力,来挖掘合成语音的个性化价值,更好的匹配有声阅读、AI教育场景应用,而声音转换和歌曲合成,则是语音技术延展能力的体现,在虚拟偶像、短视频方等方面有巨大的市场应用空间。“说到标贝科技语音交互技术的落地应用,李博士很自豪。
”在解决方案上,我们全新推出了AI数字虚拟人、智能客服、智慧 媒体 等一站式解决方案;在产品方面,推出标贝悦读、恐龙贝克两大C端产品,从原有的单点语音技术升级至语音、图像、虚拟人等多点技术融合。“
标贝 TTS 升级,实现端到端完美融合
2020年是智能语音交互技术加速落地的一年。防疫常态化的要求下,远程会议、在线教育、在线办公的已成为人们生活中的标配,智能语音交互技术规模化发展由此得到了极大的推动。为了赋予声音更丰富的情感表现力和个性化特点,让语音合成技术能够“恰好”适配到各种非标准化的场景中,在原有的技术基础上,标贝再一次进行“升级改造”。
“我们这次TTS3.0的迭代采用了全新的声学模型和声码器,同时也保持对TTS2.0旧模型的全部兼容,最大程度地保证无缝升级。”李博士强调。
全新升级的TTS3.0技术采用全新的声学模型在发音效果上有了显著提升,普通人自然讲话、刻意带情绪讲话、角色模仿讲话等场景下,对角色和情感表达的判断更加准确,输出的音质稳定、清晰、顺畅,音色富有表现力;声码器则采用GAN结构,可以高效且真实的还原波形,增加了合成声音的真实质感。
此外,李博士还介绍到,此次TTS3.0升级在一些细节及专业领域的发音上也进行了优化。“例如,对多音字的处理,我们基于Mask-based Model神经网络多音字模型,对所有多音字进行统一建模,提升了语音合成时多音字发音的准确率。在韵律方面,采用多任务的神经网络模型,利用韵律间的层次关系,在同个模型结构下对多个韵律等级进行建模,在朗读时高低音、停顿处更加自然流畅。“
如今,标贝科技语音合成解决方案已经实现全面支持中文普通话、中文方言、粤语、英语等多种语言。不论是温柔甜美的女声,清爽端正的男声,活波可爱的童声,标贝科技的语音合成技术都能快速实现企业个性化需求,打造专属“声音”形象。
“需要注意的是,合成一个理想的声音的前提是要有足够多的不同特征的语料,也就是声音样本。标贝科技以数据服务起家,在这方面拥有显著优势。我们拥有400余种音库,大量优质发音人的资源储备,比如普通音库、明星音库以及深受小朋友热捧的卡通IP音库等。用户可通过 SDK、API 技术接口随时调取自己中意的语音数据进行使用,快速搭建自己的语音产品。“说到这里,李博士不忘夸一下自家强大的语音数据基础。
打破有声内容生产壁垒 强势助推有声场景落地
在最后,李博士还结合当下趋势提到了今年标贝产品布局的主要方向。“TTS升级是结合了我们最新的语音技术、海量的文本和声学数据以及大规模计算能力,对语音合成技术进行的一次全面优化,让机器的声音情感表现力更加真实自然,这也是为我们发力有声读物和虚拟人的应用场景打下基础。”
据中国新闻出版研究院发布的2020年第十七次全国国民阅读调查报告显示,成年国民和未成年人有声阅读继续较快增长,成为国民阅读新的增长点,移动有声App平台已经成为听书的主流选择。在碎片化信息时代,有声读物越来越受到更多人的青睐。在此背景下,有声书、音频已成为出版业数字化转型的重要发展方向。
“其实去年我们推出的情感合成技术已经在有声阅读场景得到落地应用,例如面向儿童有声内容市场的恐龙贝壳App ,一经推出就引发热烈反响。今年,我们将继续发力有声读物市场,借助于标贝科技更具表现力以及个性化的语音合成技术,细化有声读物场景,给有声阅读市场提供更多个性化玩法,满足现代人求新的需求,提升用户对有声阅读 App 专属声音的 “粘性”。“李博士表示,“近期,我们的TTS3.0就将上线到标贝官网,对外提供升级的TTS服务,需要的客户可以多关注一下标贝官网动态。”