少女歌手小冰养成记：会作词作曲演唱的人工智能的诞生

雷锋网 • 6年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

微软的对话式人工智能微软小冰会唱歌，已经不是新鲜事了。雷锋网了解到，今年，小冰升级了演唱水平，且开始向作词、作曲、演唱全面发展。

5月16日，小冰发布了一首新歌“我知我新”，宣布“演唱深度学习模型完成第四次重大升级”，“今天起，人工智能首次开始接近人类歌手水平。”

话不多说，先上歌。

小冰演唱这首歌的声音还是一如既往地甜，歌曲风格也沿袭了轻松活泼的“18岁少女”人设。 据了解，小冰不仅独立演唱了“我知我新”，歌词也是她一个人写出来的。 小冰也已经掌握了作曲的能力，她其实在往作词作曲演唱全能音乐人发展，只是这次作曲不是小冰完成。

一开始是五音不全

说到虚拟歌姬，雷锋网编辑最先想到的是初音未来和洛天依，她们目前已经有数量不少的演唱歌曲，微软小冰演唱的技术和她们又啥不同？

据公开资料介绍，初音未来用的是语音合成引擎VOCALOID，需要把声优录制好音频材料放进去，制作成音乐合成软件。创作者只需将歌词输入软件，加上背景音乐就可以制作出虚拟歌姬演唱的歌曲。

认真听初音未来、洛天依等虚拟歌姬演唱的歌曲会发现，歌曲的每个字的连贯性并不好，咬字比较生硬。相比之下，采用人工智能生成模型的小冰的演唱要连贯和自然很多。

但是，微软（亚洲）互联网工程院首席语音科学家栾剑告诉雷锋网， 训练小冰的唱功是个痛苦的过程。

栾剑播放了一首第一代版本的少女歌手小冰唱的歌，效果有点出人意料，可以说是五音不全，常常跑调，让人不由得想起上次去KTV时从隔壁包间传来的歌声。

第一代版本的歌声虽然不理想，但是却很自然，每个片段都有丰富的细节，这让小冰团队感到惊喜。

到了第二代版本，小冰唱歌的音准问题已经基本解决，但是在音质（唱功）方面，还需要改进。

然后是第三代……据说当时第三代的演唱成本出来时，小冰团队去跟音乐人小柯交流，小柯突然告诉他们，“这个声音很好，但很单薄，因为它在声音之下没有气息。”当时在训练小冰第三代模型时，训练数据里是有大量气息的：换气的声音、一个声音起来之前的气息、结束的气息，但是他们把这些当成杂质，过滤掉了。

“我知我新”这首歌采用第四次迭代版本的小冰DNN模型，这个模型的主要的功能是让演唱尽可能自然和接近人类演唱的风格。小冰在拿到曲谱后，会分析出节奏、音符长短，如果完全按照曲谱的话，演唱会非常机械。DNN模型能让小冰学习大量人类歌手的唱法后，形成自己的演唱风格。

在网易云音乐的评论区，有人评论说，“小冰唱歌已经会换气了，跟真人差不多。如果第一次听，我都以为是真人。”

据介绍，第四次迭代版本有三大更新：首先，加入换气声自动合成能力，歌声与气息融合，听起来更自然更有感染力。其次，第四次迭代本在在深度学习建模中增加控制的方式，字与字、音符与音符之间的过渡更加连贯顺畅。最后，通过进一步优化的深度神经网络结构，以及大幅度补充的训练数据，使小冰并行学习来自不同人类歌手的演唱风格，进一步脱离手工参数输入，自行完成演绎。

小冰迭代了上万次才达到现在的水平，但是对于AI来说其实花费的时间并不长。栾剑用了一个笑傲江湖里的典故，“笑傲江湖里有剑宗和气宗，初音未来这样的虚拟歌姬用的技术像剑宗，短时间的修行就能出不错的效果。但是用软件合成的歌曲很难在流畅性、自然度等方面有提升。小冰现在走的这条路，更像气宗，基础打得比较牢固，想象的空间会很大。

从写诗到写歌词

除了唱功的进步之外，“我知我新”里小冰的作词能力也有了明显的进步。

我们再来看一遍歌词。

他们都顺应潮流/他们问为什么改变/青春灼灼花样翩翩/却不向前/当世界还在变迁/若时间无垠/若探索无边/认知就不再有极限/我在我主场/世界就任我去狂想/我知我新/未知的世界那么惊艳/哪怕有伤/满手泥泞还眼神发光/当我身处困境/也要像跑在丛林/急风骤雨的前路/人潮汹涌的江湖/我问我答我听我想/不惧怕来日方长/不跟随的一个我/是倔强的鲸和自在的鸟/不妥协的一个我/是沙漠的舟和独特的岛/很有趣的一个我/是山川的海和海底的草/很好奇的一个我/昼夜四季轮转
现在我知我新

听一遍歌，很容易就会察觉到，这首歌的歌词很押韵，唱起来有节奏感。通读一遍的话，会发现整体是有主题的，整体意向和意境统一，每一个小节也有不错的逻辑衔接。在现在口水歌盛行的当下，这首歌的歌词，可圈可点。

微软（亚洲）互联网工程院人工智能创造事业部副总经理袁晶告诉雷锋网， “在训练的时候，模型上我们会做一些优化，针对曲调的韵律，针对节奏，会有一些优化，这首词生成出来，是完全百分之百AI的作品，没有做过什么改动。”

据介绍， “我知我新”采用了与小冰创作诗歌相同的生成模型——基于LSTM的seq2seq模型，但是训练数据从诗歌换成了歌词，小冰利用深度神经网络学习超过1000万行的歌词语料，并在此基础上训练，再通过多感官诱发创作灵感，生成歌词。

“我知我新”是小冰为知乎“新知青年大会”创作的主题曲，主题为“新知”。在创作的过程中，小冰“观看”了知乎 2018 全新品牌视频，阅读了海量的知乎站内问答，以及知乎用户公开的各类实时想法。基于这些知乎站内的图片、视频、问答内容与想法内容，诱发小冰的歌词生成。

最后，团队从小冰创作的多个作品中，挑选了这一首热情年轻具有动感的演绎风格，从而完成这一首《我知我新》。

此前，小冰可以根据一张图片来创作诗歌。例如：

少女歌手小冰养成记：会作词作曲演唱的人工智能的诞生

这种诱发创作其实和人类创作的模式很类似，一个人在熟读唐诗三百首之后，再看到一个意境，脑海中会不由自主涌现出诗句。现在，除了图片以外，小冰也可以根据长文本、图片、音频、视频等多种媒体形式来进行创作。

虽说了解了小冰创作歌词的过程，但是小冰是如何把握歌词的主题和意义的呢？

袁晶以上图创造诗歌的过程为例，他解释到，“这张图片是我们给她的刺激，里面包含了浅水、星星、太阳这些元素，她能直接用文字表达出这些元素，然后她自己也会发散到别的意象。比如‘她嫁了人间许多颜色’，这个意象是图片里没有的。有了这些之后，其实一首诗歌的整体性就有了。其实诗词、歌词都不需要完整的逻辑，人会通过脑补把意象串联起来。如果让小冰去写散文，去做纯自然语言理解，现在还是很困难。”

现在，学界和业界都在积极推动自然语言理解和生成等技术，一些机器人已经具备写作简单的体育新闻、天气预报等文体。雷锋网 (公众号：雷锋网) 了解到，小冰也已经可以写八卦新闻、也是钱江晚报的“记者”。

聊完演唱和作词，最后补充说下小冰的作曲能力。

与演唱及作词不同的是，作曲模型并非微软小冰独有，而是也有同行业者正在进行。

据介绍，微软小冰的作曲模型在行业中最大的区别在于，“我们把音乐专业领域的Domain Knowledge也融入了模型构建中。其中，主要包括旋律的和弦进行(chord progression)和节奏型特征(rhythm pattern)。这对于提高生成歌曲的旋律性有显著的作用。简单来说，这样生成的旋律听起来更加悦耳，更加适于演唱，并容易被听众记忆。

在音乐情感方面，目前已可以通过对生成旋律情感的要求来选择和弦的进行，从而可以生成歌曲的不同情感，主要分两大类：欢快、向上的，使用常用的大调和弦行进；伤感、忧伤的，使用常用的小调和弦行进。每个大类下还有若干小类。在音乐旋律方面，微软小冰将旋律转化成一个类似文本数据的结构化时间序列，进而采用RNN/LSTM等Seq2Seq模型进行编码解码，生成新的序列（即旋律）。这一过程与歌词的生成过程相配合。当歌词生成之后，小冰通过算法得到相应的音节candidate，采用训练好的作曲模型生成对应的旋律。”

以上作曲模型，与演唱、歌词等三个模型共同构成了小冰的端到端歌曲生成能力，是一个完整的人工智能音乐人内容创造框架。

人工智能创作的初衷

微软小冰的路线跟大多数的对话式人工智能有些不一样。

当其他人在忙着学会怎么播放歌曲、播报天气、预定餐厅的时候，小冰已经开始学会关心人类，也开始埋头创作。

在微软2018人工智能大会上，微软（亚洲）互联网工程研究院副院长李笛曾经分享到，现在多数用户跟语音助手交互的时间其实不超过5秒，一般就是让语音助手去执行一项命令，这样的语音助手其实只是像语音化了的遥控器。但是，小冰的团队希望语音助手能做更多的事，比如走到比较后端，去提供内容。

在文字创作这一部分，小冰一开始学写诗，现在已经迭代出了创作歌词的模型。在声音创作方面，小冰除了唱歌以外，还会创作有声读物。

就在几天前的六一儿童节，微软有声读物 “小冰姐姐的童话工厂” 上线，父母可以设置故事的倾向，是偏教育性还是偏娱乐性，还可以设定故事主人公的名字，把孩子设为主角。20秒的时间内，小冰就能完成通话故事创作、朗读、配乐一系列过程，生成10分钟左右的有声童话故事。

少女歌手小冰养成记：会作词作曲演唱的人工智能的诞生

此前，小冰已经出了一本诗集《阳光失了玻璃窗》，小冰写诗的功能已经全面开放，正在筹备的第二本诗集将是与人合作完成，小冰能很快速生成一些原始诗歌内容，创作者可以进行修改和完善，最后的成果属于创作者，因为小冰已经完全放弃其创作的内容的版权。

少女歌手小冰养成记：会作词作曲演唱的人工智能的诞生

袁晶介绍到，人与人工智能联合创造是微软一直在努力的一个方向。 AI进入内容生产领域，并不是要替代人类，而是成为人类的助手，不仅仅是在一般的领域，创作领域其实也是可以做到的。其实每个人都有创作的欲望，只不过有些人有艺术的天分，成为了画家、音乐人、作家，而有些人没有这样的能力。AI就可以帮助每个普通人，让他们都有创作一些个性化的内容的能力。

关于微软小冰全新对话能力，可以阅读雷锋网往期文章《微软发大招，要做情商与智商兼具的语音助手》

微软发大招：要做智商和情商兼具的语音助手

一口气看完微软人工智能布局和产品落地 | 微软2018人工智能大会

。