腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

雷锋网 • 7年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

雷锋网 (公众号：雷锋网) AI 科技评论按：2017年8月20日，语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开，腾讯音视频实验室王燕南博士的一篇论文入选，并获邀在大会作了oral报告。

Interspeech是由国际语音通信协会ISCA（International Speech Communication Association）组织的语音研究领域的顶级会议之一，是全球最大的综合性语音信号处理领域的科技盛会，该会议每年举办一次，每次都会吸引全球语音信号领域以及人工智能领域知名学者、企业以及研发人员参加。

今年的Interspeech，除了学术界巨擘之外，苹果、谷歌、微软、亚马逊、腾讯、阿里巴巴、百度、滴滴等在内的国内外知名公司也悉数亮相。腾讯音视频实验室王燕南博士论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》入选 Interspeech 2017。

下图为历年Interspeech论文收录情况，过去三年收录文章的数量分别为614、746、779。

腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

王博士的论文主要内容是研究在单通道语音分离中应用的深度神经网路的训练优化，该技术旨在从混合的多个说话人的语音信号中分离出目标说话人的语音，在语音识别、语音通话以及残疾人助听领域等均具有重要应用。

在这篇论文中，王博士的研究着重于改进单通道语音分离汇总基于深度神经网络的频谱映射方法中常用的最小均方误差准则（MMSE, minimum mean squared error）。在基于深度神经网络的单通道语音分离中，通过多类回归方法从混合语音频谱中恢复目标说话人的语音，主要是基于MMSE准则最小化网络输出的语音频谱和目标频谱的差异。对此，王博士等人通过对深度神经网络的输出的预测错误进行统计分析，发现输出的对数功率谱每一维分量都服从一个单峰分布，如下图所示：

腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

由此引入零均值的高斯分布函数来描述神经网络的预测错误矢量，引入对其进行概率分布的学习，从而使用最大似然估计方法训练深度神经网络的参数，如下图所示。

腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

通过实验对比发现，基于该最大似然方法训练的神经网络分离的语音在不同的客观指标上均超过了使用传统的最小均方误差准则训练的神经网络。

腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

另外，通过在验证集上的reconstruction loss的变化情况对比，王博士等人发现该模型有更强的泛化能力，而在收敛速度上，该方法也具有明显的优势，对比情况如下图所示。

腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

关于王雁南博士

王燕南，毕业于中国科学技术大学语音信号与信息处理国家工程实验室，研究领域包括语音增强和分离、语种识别、手写识别等，在Interspeech等著名语音国际会议以及IEEE Transaction on Audio,Speech and Language Processing期刊发表多篇文章，在无监督语音分离方法上做出了重要贡献。王博士于2017年加入腾讯音视频实验室，专注于语音增强以及分离等前端信号处理领域研究。

关于腾讯音视频实验室

腾讯音视频实验室，组建于2016年11月，专注于音视频通信技术的前瞻性研究，包括全球实时音视频网络优化，音视频编解码前沿算法研究、计算机视觉图像处理、基于AI 的音频语音增强、声音美化及音视频质量评测等。

雷锋网版权文章，未经授权禁止转载。详情见。

随意打赏

深度神经网络腾讯语音

腾讯音乐娱乐集团执行董事长彭迦信：持续发掘中国传统文化价值

砍柴网 • 4分钟前

11月28日，贵阳迎来了备受瞩目的第八届中国网络版权保护与发展大会，这场盛会迅速成为行业焦点，各界精英纷至沓来，聚焦于“加强版权法治保障护航新质生产力发展”这一主题，围绕“强化版权执法保护”“探索 AIGC 版权问题”“微短剧行业版权保护与发展”以及“ 科技赋能数字音乐产业发展”等前沿议题
服务超300家能源企业，腾讯自主创新软件体系助力能源产业升级

砍柴网 • 32分钟前

在全球能源转型加速的大背景下，中国能源行业的自主创新发展正成为行业升级的关键驱动力。作为国内领先的数字科技企业，腾讯积极响应国家战略，凭借自身在软件创新领域的技术优势，与能源企业展开深度合作，共同推动行业创新升级。目前，腾讯云在能源和资源行业已服务超过300家能源企业。中国是能源消
腾讯公关总监张军辟谣微信送礼会议纪要

i黑马 • 1天前

12月24日，腾讯张军在朋友圈发文否认微信送礼物有商业计划，并表示是谣言，“为什么总是有人宁可信其有不可信其无？我们并没有给自己一个远大的计划，只是想做点脚踏实地的事。拜托大家，不要给我们定商业计划了。”文章评价匿名用户发布发布
QQ音乐14.0版本上线发布首个AI大模型音效

砍柴网 • 2天前

12月24日，QQ音乐14.0版本正式上线，「企鹅星光岛」首次开启盛大公测，偶像专属像素风音乐岛，粉丝相聚新据点；大模型音效基于自研的AI大模型智能匹配，为用户提供“最懂你的听歌音效”体验；伴唱模式再次升级在伴奏和人声随心切换的同时，增加变调和变速等更多自定义能力。此外，新版本还推出复古风、游戏
Canalys：三季度阿里巴巴、华为、腾讯占中国大陆云市场70%份额

砍柴网 • 2天前

12 月 24 日消息，今日分析机构 Canalys 发布报告称，2024 年第三季度，中国大陆云基础设施服务支出达到 102 亿美元，同比增长 11% ，重回两位数增长。 IT之家注意到，本季度中国前三大云服务供应商的位置保持不变，阿里云、华为云和腾讯云继续占据领
《澳门回归祖国廿五周年作品集》正式上线QQ音乐

砍柴网 • 2天前

为庆祝中华人民共和国成立七十五周年暨澳门回归祖国二十五周年，澳门文化推广协会携手腾讯音乐娱乐集团旗下QQ音乐特别推出《澳门回归祖国廿五周年作品集》，作为此次庆双庆的音乐献礼。本次歌单以原创歌曲作品为主题，严选近60首涵盖不同时代背景和音乐风格的音乐佳作，以音乐的形式表达澳门同胞对国家、对领袖的感激深情，表达澳门青年对澳
全系列模型开源，腾讯混元大模型公布最新开源成绩

砍柴网 • 2天前

12月20日，腾讯云副总裁，腾讯混元大模型负责人刘煜宏在2024开放原子开发者大会暨首届开源技术学术大会上表示，腾讯将开源协同作为公司的核心技术战略，积极推动内外部技术开源共享。腾讯混元大模型语言大模型、文生图大模型、文生3D大模型以及文生视频大模型等多个模态模型均已开源，未来大模型各版本也将进一步开源，与社区开发者一
电动飞机初创公司Lilium停止运营并裁员1000人，曾获腾讯投资

砍柴网 • 2天前

12 月 24 日消息，曾一度在电动飞机新兴产业中备受瞩目、上市前融资额超过 10 亿美元的德国企业 Lilium，在寻求融资和摆脱破产困境的努力失败后，已停止运营并解雇了约 1000 名员工。据德国媒体 Gründerszene 报道，Lilium 联合创始人兼首席执行官帕特里克・纳滕在领
QQ音乐2024年度听歌报告上线，听你的年度音乐回忆

砍柴网 • 3天前

2024年岁末，太多经历值得回忆。12月23日，QQ音乐正式发布2024年度听歌报告，用音乐的方式讲述每个人生活的年终回望。今年的QQ音乐年度听歌报告首次以“年度个人音乐专辑”方式呈现，用户登录QQ音乐App搜索“听歌报告”，即可点击进入认领属于自己的专辑，这其中有“2024你的单曲循环”“2024你的音乐流派”“20
AI时代，需要怎样的架构师腾讯云架构师峰会来了！

砍柴网 • 3天前

架构设计对应用有关键性的影响，不仅决定应用的整体品质，还直接影响开发、维护和扩展的难易度。卓越的架构设计不仅能够确保系统的稳定性、高效性和可扩展性，还能大幅提升研发效能，同时显著降低维护成本。在快速变化的技术环境中，架构师们面临业务需求快速迭代、数据量急剧膨胀以及系统复杂性不断提升等挑战。随着云计算、大数据、人工智能

评论