阿里 iDST 新人「物理学家」冯津伟:声学设计与语音信号处理,是 AI 算法的核心前提
雷锋网 AI 科技评论按:阿里巴巴人工智能核心团队 iDST 近期又将一名顶级大牛纳入麾下——世界级声学专家、原宝利通(Polycom)声学设计与信号处理首席工程师冯津伟博士于近期加入阿里巴巴 iDST,担任语音交互团队研究员。
据悉,他的研究方向是「下一代人机自然交互技术」,该领域已得到阿里巴巴重点投入, 「达摩院」的研究范围就包含了这一方向。
冯津伟博士本科毕业于南京大学电子科学专业,先后在南京大学攻读声学(1992-1995)及南洋理工大学电子信号处理的硕士学位(1996-1997),随后赴美深造,于 2000 年获得弗吉尼亚理工大学声学博士学位。冯津伟博士毕业后一直在音视频会议行业领先者宝利通担任声学设计和信号处理首席工程师(Principal Engineer),拥有十余项美国专利,大部分已产品化,是世界级的音频专家,主持开发视频跟踪系统等创新产品,多次领业界之先。
在传统行业耕耘 17 年的顶级工程师、专注研究声学的「物理学家」,缘何会加入阿里巴巴这样一个新兴互联网企业?加入阿里巴巴 iDST,他又将如何把自己的老本行与目前已有的业务进行融合?抱着这些疑问,雷锋网 (公众号:雷锋网) AI 科技评论与远在美国西雅图的冯津伟博士进行了一次电话交流,他向 AI 科技评论阐述了加入阿里巴巴 iDST 的原因与期待。
作为专业开发、制造和销售高质量音视频会议系统及解决方案的提供商,宝利通的多代会议产品曾经一度占据 90% 以上的市场份额。在这背后,以 2000 年加入宝利通工作的冯津伟博士为代表,他主导开发的圆形麦克风阵列算法与音频信号分类器成为沿用至今的业界标杆。
而 17 年过去,包括宝利通在内的传统行业发生了新的变化。身处其中的冯津伟博士向雷锋网 AI 科技评论坦言,他从中看到了新兴互联网企业的高速发展,这也是他选择加入阿里巴巴 iDST 的一个重要原因。
「我加入阿里,也反映了互联网行业与传统行业的一种融合变迁。」此外,冯津伟博士也表示,阿里巴巴的价值观与他个人的想法不谋而合,这种契合也让他对这家公司产生了特别的好感,并促使他最终加入阿里巴巴 iDST。
「我第一次了解阿里巴巴时,发现它们家的产品名字都非常有趣,比如金融叫蚂蚁金服,物流叫菜鸟物流,音乐叫虾米音乐,信用叫芝麻信用。(这些名字)很亲切很讨人喜欢,我认为这个命名思维的出发点是为普通百姓服务。我本身也是一个『草根』,因此觉得阿里巴巴的想法非常地贴近我的价值观。」
从传统行业加入阿里巴巴 iDST,冯津伟博士的主要工作又是什么呢?冯津伟博士告诉 AI 科技评论,他与阿里 iDST 的交集,就是自己的老本行——声学设计与信号处理的有机结合。
一个完整的语音识别系统需要通过前端的声学设计,进行信号的采集、处理,再通过后端的相关算法进行识别。任何一个语音产品要投入使用,最主要的挑战依然是端上语音信号的采集和处理。
今年 7 月,阿里巴巴发布智能音箱天猫精灵 X1,其中的声纹识别功能便是其中的一大卖点。这项连亚马逊 Echo 都不具备的功能,一大难点就在于远场语音识别在实际应用中存在不少问题,受到噪声、回声、混响的干扰太大。而声纹识别,很大程度上又是一种基于数据驱动的模式识别问题。像远场的混响、噪声问题,还有鸡尾酒效应问题,都是非常常见的信号处理难点。只有在特定环境中尽可能地保证声音的高保真度,才能为后续的算法处理提供高质量的数据。试想,如果收集到的声音信号都非常模糊,谈何后续的语音识别、合成甚至是同声传译?
而冯津伟博士的就学经历正好涉及了声学与信号处理这两个领域,而他在博士毕业后一直在宝利通工作,在这两个领域的结合上拥有深厚的理论研究经验与实践应用经历。
宝利通在上世纪 80、90 年代就开始做声学设计与信号处理的相关研究,至今已经拥有二三十年的技术沉淀,冯津伟博士表示,最重要的一点就是在于老当家在声学设计上颇为重视,特别在减小失真上做到了极致。在最鼎盛的时期,宝利通的全球市场份额达到了 90% 以上。
「声学设计与信号处理两者的有机融合是非常必要的。我们以前经常跟做声学的公司打交道,有些音频失真到 10%,但没有人重视,因为企业觉得人耳听不出来。但是我们的麦克风听得出来,所以回波抵消就有可能成为问题。因此,我们不能只是处理线性问题,而对非线性问题不够上心。这两方面都需要懂,性能才可以更好地体现出来。」
加入阿里之后,冯津伟博士在传统行业的声学设计经验可以完美地与阿里的业务相衔接。声学设计与信号处理作为前端信号处理的主要技术,毫无疑问将会为阿里巴巴的整个语音识别系统奠定坚实的数据基础。
冯津伟博士表示,以「达摩院」为代表的研究机构逐步建立,阿里巴巴的研发实力肯定会比以前更上一层楼,并且可能会看到很多与众不同的创新,「现在的智能音箱实际上跟着亚马逊 Echo 走的很多,但阿里巴巴不一定会沿着它的老路,我们甚至可以引领行业。」
近年来,随着深度学习的兴起,以谷歌 WaveNet 为代表的技术甚至尝试颠覆传统的基于信息及控制论的信号处理与生成方法。对于人工智能的迅猛发展,冯津伟博士一方面叹服时代趋势的惊人变化,认为 AI 的不断发展终究会逐步取代原有的信号处理技术;但基于现实状况来看,他又认为这一天仍未那么早到来。
一方面,有很多人用麦克风原有的尺度去 PCM(Pulse-code modulation,脉冲编码调制),直接引入神经网络进行训练,但效果并不理想。这种研究在目前来看依然需要一定的时间,就像语音识别一样,从 90 年代开始,直到近几年才大规模商用起来;计算机视觉也同样花了近 20 年才实现腾飞,同样地,采用神经网络来做信号处理也需要经历这样一个厚积薄发的过程。
而另一方面,神经网络擅长处理非线性的工作;而一些线性的工作,在前端的信号处理阶段就可以用很低的成本解决。以回拨抵消为例,相对于提升 AI 算法而言,我们解决前者的成本与资源要小得多。也就是说,在做过前端信号处理后,我们可以大大降低后续 AI 在算法处理上的非线性工作量。从成本这个角度来看,前端信号处理还是有它存在的必要的。
在 2017 杭州云栖大会上,冯津伟教授听了不少教授、专家的演讲,其中有人与自己的想法一致:语音系统的算法只是一部分,在实际应用领域,更重要的一环是声学设计,要从源头上保证数据的采集质量。「在源头上追溯整条数据链,如果有某个环节很弱,那么就会『牵一发而动全身』,甚至使链条断掉。」
冯津伟博士告诉雷锋网 AI 科技评论,阿里巴巴的一大核心竞争力在于,从源头到链条的最后一环,从声学设计、到前端信号处理,到 AI 识别算法三大模块,阿里巴巴在每环技术都有自己的独立研发团队。
「我们拥有完整的数据链,在每个模块上我们基本上都有一支小团队,可以实现独立研发。在这之后,我们可以把三大模块更紧密地融合在一起。结合声学设计与信号处理的从业经历,我相信三个环节可以做到无缝融合。」阿里巴巴全链条、多业务、多线程的研发模式,在冯津伟博士看来是构建了一个完善的生态系统,在做细分项目的时候也很容易把各个部分的技术结合起来。
另一个令冯津伟博士深深认同的地方在于阿里巴巴具有优秀的核心团队。「现在我们有五个跨越全球的语音小组(北京、杭州、西雅图、硅谷、新加坡),拥有世界一流的团队,聚集着世界一流的人才。阿里 iDST 中有非常多优秀的科学家与工程师,我自己也非常高兴,能够在与他们共事的过程中提升自己。」
冯津伟博士告诉雷锋网 AI 科技评论,加入阿里巴巴 iDST 后,他计划带领团队,结合自己丰富的从业经验,把声学设计与信号处理有机地融合起来,并且把每一个环节做到极致,「业余与专业的区别就在于细节,如果要做到行业领先,我们就要把每个细节做到完美,做到最好。」雷锋网 AI 科技评论也期待,冯津伟博士未来在阿里的产品上,能给我们带来更多的体验惊喜。
。