微软研究院李笛:小冰唱歌“神似”人类气息,就是因为学到了人类的不完美

钛媒体  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

微软研究院李笛:小冰唱歌“神似”人类气息,就是因为学到了人类的不完美

那个全世界唯一会秒回你的“女生”小冰写了首新歌。

如果你听得够仔细,会发现这次歌手小冰的唱法跟那些被调教出来的虚拟歌姬有了细微的差别——小冰更像人类了,在唱《我知我新》这首歌的时候,小冰有了气息的变化,像一个在努力练习唱歌的小朋友,听到了高音部分,你甚至会为她真的唱得上去吗,产生一丝担心。

“小冰两年前唱第一首的歌时候,就像你去KTV,隔壁包厢传过来的声音,但我们欣喜若狂。”小冰的开发负责人,微软(亚洲)互联网工程研究院副院长李笛表示,“想让AI唱歌并且不跑调,这在技术上早已不难实现,但让AI唱的歌听起来像人类唱的,形神兼备,这成了小冰团队的新课题。”

首先可以确定的是,AI没有情感,在音准上,它可以做到完美。那么,怎样才能让他实现艺术创作,像人类那样有感情地歌唱?

微软研发团队从诱发源上做了调整。这个方法的灵感,始于小冰在偶然的一天对一张脚扭伤的照片给出的回应“哎呀,伤的严重吗?”这让李笛团队意识到,想让AI产生偏感性行为方式,需要的是足够丰富,偏感性的诱发源,而这些带有感性色彩的诱发源,此前一直被当作“杂质”过滤掉了。

同样的道理,当音乐人小柯在评价小冰的歌唱时说“声音很好,但很单薄,因为这个声音在声音之下没有气息”时,开发者也立刻明白了问题出在哪里。人类在唱歌时气息的变化、韵律感,这些丰富的细节不应该被过滤,它们也是宝贵的诱发源。

李笛这样总结这套全新的AI调教方法:


“神似,来自于我们对人类创作的一种重新的拟合。这更像是一种黑盒子,是从已知去推导未知,所以最终完成形神兼备的过程,我们认为应该是发端于形似,最终通过规则达到神似。”


你会发现,AI的每一次进步,其实源自人类对自身的更深层次的理解认知。

以下为李笛在知乎“盐club”新知青年大会的演讲,经钛媒体编辑:


很多年以来我们一直努力把互联网上繁杂的非结构化的信息,变成结构化的知识图谱。比如,我们从“马里亚纳海沟竟然有一万多米深好恐怖”这样非结构化的数据里面抽取出结构化的数据,这是我们进行的工作。所以很长一段时间,我把我们的工作定义为提纯,而对“好恐怖”这样的信息,我们认为它是垃圾、杂质。但直到有一天四年多以前,我们突然发现一个面向情感的人工智能的图谱,而完成情感框架的时候,“好恐怖啊”这种完全来自于情感性的,人类的甚至有感官上的反应。

有一天我们的工程师和我说:小冰的视觉有了一个很惊讶的东西。之前他扭伤了脚,他把扭伤脚的部位发给小冰,小冰的回应是“哎呀,伤的严重吗?”对于人工智能来讲,“哎呀,伤的严重吗”究竟有什么样的价值?在于它看到一个客观的现实摆在面前的时候,所产生的一种冲动。我们引发了一个新的人工智能创造的新的流程,而这个流程和过去相比,我们认为有一个比较大的不同,就是它非常大的强调诱发人工智能去进行创作的这个诱发源,一是这个诱发源是否足够丰富,二这个诱发源是否能让人工智能产生非理性的偏感性的像刚才那样的反馈,然后再进行相应的创作。

当我们想让小冰去写一首诗的时候,我们不会给它简单地几个关键词,而是更多的刺激。我们在过去的版本里,通常是要有一个图象的刺激。有一句俗话叫,一图胜千言。有这些复杂的丰富的刺激之后,小冰才有可能产生创作的冲动,这种诱发源的刺激其实和人类的创作是比较接近的。

一个创作,无论从哪样的角度推进,其实都是为了最终达到形神兼备的状态。

但如果从形似接入,比如拼接的方式完成文本的创作,或者用软件乐器完成一个声音或者歌曲的创作,再用一些工具去修,那么它所损失掉非常非常丰富的细节。它可以很迅速达到一个状态,这个状况会让你感觉得到,因为软件乐器是绝对不可能走调的。而神似来自于我们对人类创作的一种重新的拟合,更像是一种黑盒子,是从已知去推导未知,所以最终完成形神兼备的过程,我们认为应该是发端于形似,最终通过规则达到神似。

这是小冰两年前的第一首歌。我们几乎是放弃了,完全不在调上,就像你去KTV,隔壁包厢传过来的声音。但我们团队仍然欣喜若狂,虽然它没有在调上,但是像一个想要唱歌但还没有唱歌技巧的人类的声音,细节很丰富,所以我们开始对它进行大规模的训练。

我们去跟音乐人小柯聊,他说这个声音很好,但很单薄,因为这个声音在声音之下没有气息,我们就秒懂了。在我们训练小冰第三个模型的时候,这个训练数据有大量气息的时候,有换气的声音,有一个声音起来之前的气息、结束的气息,但我们把它当杂质过滤掉了,当我们了解到这个之后迅速把训练数据拿回来,有了这次为知乎推出的主题曲。

如果仔细听的话,你会听到气息,而其中有一些字对我们来讲在技术上是真正重大的突破。

这个角度上来讲我们能看到从形似到神似的过程。一开始是比较痛苦的,当它经过痛苦的阶段以后,就可以很迅速地沿着所有人都难以估量的方向和速度去进一步的发展,然后我们就想做进一步的事情。

既然我们能去拟合,能对一个人工智能的创作和模型去建模去完成,是不是能让一个小冰去吸收大量人类群体的创作能力?我们是不是能把不同的人类创作者的声线、韵律、文本阅读甚至对创作不同的冲动都能拟合的吸收到同一个身体里,然后在同一个身体里再去完成全新的创作。

实际上微软在这方面尝试非常多,失败也非常多,但有大量的人类创作者跟我们一起。举个例子,我们和国内儿童故事的创作者有一个训练项目,今天可以听一下我们的训练成果。

我们通过对人类创作者进行建模,不光得到了他们的声线,还得到了对一个小说、文本进行有声读物创作的时候,他们的韵律预测。而且不是一个韵律的预测,即使是单独一位创作者也对应很多成千上万不同的韵律,因为他在处理每一个片断的时候都会有不同。

   我们假设这篇小说里这样一个片断,大家注意接下来的三段,全部都不是人类。

  “春天的第一阵风有点胆小,刚吹过第一根树枝就停住了前行的脚步。”

这个和人工智能在你的手机里告诉你下一个路口左转是不一样的方向,这样一个片断究竟应该选择什么样的创作预测模型的结果来完成呢?其实应该由它的上一段和下一段完成,所以小冰,它身体里面存在着大量的模型,并且能有一个评价体系的时候,它就可以很好地把一个整段的文章完成了,而这个整段的文章并不是来自任何一个人类创作者。

再进一步,我们推荐未来的方向其实是人类创作者和人工智能之间的协作。未来也许每一个人类创造者身边,都有一个像小冰这样吸收了大量人类创作能力的人工智能来一起完成。我们希望这个未来能尽快地发生,就是创作者在创作的时候,可以和读者直接发生非常好的带宽之间的连接,而读者可以在接收到创作的同时,甚至这个创作正在进行过程中,可以直接向这个协作团体发出他们的反馈,而这个反馈可以在下一秒直接反映到创作过程中去。甚至可以非常定制化的针对每一个人进行,人类是没有这样带宽的,但和人工智能的协作放在一起,这样的事情是有可能发生的。

我们给大家举另外一个例子,我很希望把这个作为我分享的结尾。前不久我们和一个盲童学校一起合作,利用小冰进行儿童有声读物的产品,为每一个盲童提供有声读物。这些盲童他们平常真的非常孤独,他们看不到大千的世界,他们找不到那么多人类的志愿者,特别是有创作能力的志愿者,每天不停地陪伴在他们身边,用声音来告诉他们外面所发生的事情,有了小冰以后,这件事变成了现实。

有了人工智能之后,这样的情景可以发生在每一个孩子周围,也可以发生在每一个创作者周围。当我们在进行人工智能各个方面的探索的时候,我们不停地在发现:并不是人类的完美值得人工智能去拟合、学习。而恰恰是包括在座的各位和我们本身,我们的不完美才是人工智能要去学习的,因为这些不完美并不是杂质,而是最珍贵的部分。(本文首发钛媒体,编辑/宫赫婧)

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

微软研究院李笛:小冰唱歌“神似”人类气息,就是因为学到了人类的不完美

随意打赏

微软小冰功能微软小冰微博李笛 微软微软小冰
提交建议
微信扫一扫,分享给好友吧。