亚马逊推出一款有机器学习功能的 MIDI 键盘
本周早些时候,AWS(亚马逊云服务) 推出了 DeepComposer 和一款售价 99 美元的 MIDI 键盘,前者是一套用于学习人工智能生成音乐的网页工具,后者则是用于输入旋律。然而,这次产品发布让大家感到 非常困惑 。所以,我们采访了 AWS 人工智能设备部门的主管迈克·米勒(Mike Miller),向其询问 DeepComposer 在该公司人工智能设备阵容中处于什么样的位置——在这个阵容中,我们已经看到了 DeepLens 相机 和 DeepRacer 人工智能玩具车 ,这两者也都是用来让开发者学习特定人工智能概念的。
首先要记住的是,DeepComposer 是一件学习工具,它不是为音乐人准备的,而是为那些希望了解生成人工智能的工程师准备的。不过,AWS 将其标榜为 “世界第一款面向开发人员的机器学习音乐键盘”,这并没有帮助我们解开疑惑。毕竟,键盘本身只是一款标准的、基本的 MIDI 键盘,它并不智能。所有的人工智能魔法都发生在云端。
“这里的目标在于让开发人员学习生成人工智能,这是过去 10 年机器学习领域最有趣的发展趋势之一。” 米勒告诉我们,“我们特别讲了 GANs,也就是生成对抗网络,让两个网络一起进行训练。在我们看来,这能够引起开发人员兴趣的原因在于,它非常复杂,当开发人员同时训练两个网络时,他们所学关于训练机器学习模型的很多东西就会混淆在一起。”
有了 DeepComposer 之后,开发人员可以逐步学习基础知识。通过 MIDI 键盘,开发人员可以输入一段基本的旋律——但如果没有音乐键盘,开发人员也可以使用软键盘进行输入或者是使用一些默认的旋律(比如《欢乐颂》)。在实际使用中,这时候系统就会发挥作用,根据开发人员选择的音乐风格为输入的旋律生成背景音轨。不过,为了简单起见,系统会忽略来自键盘的一些值,比如说按键的力度(这又是该键盘并非以音乐人为目标受众的一个证据)。但更为重要的是,开发人员然后可以深入研究系统生成的实际模型——甚至可以将其导出到 Jupyter Notebook(译注:一款用于交互计算的网页应用)。
就 DeepComposer 的目的来说,这些 MIDI 数据只是又一个让开发人员学习 GANs 和 SageMaker 的数据源——SageMaker 是 AWS 推出的机器学习平台,DeepComposer 正是由它驱动
“使用 MIDI 文件以及基于 MIDI 进行训练的优点在于,训练所使用数据的表示形式实际上跟,比如说,一张图像中的数据表示形式是相同的。” 米勒解释说,“因此,它实际上具有很强的适用性和模拟性。这样,当开发人员查看 SageMaker 笔记本并了解了数据格式以及我们传递数据的方式,这些知识也能适用于其他领域。”
这就是 DeepComposer 也会公开所有原始数据的原因,包括损失函数、分析和各种模型在试图得出一个可接受结果时生成的结果,诸如此类。由于这明显是一款用于生成音乐的工具,它还会公开一些有关音乐的数据,包括音高和空小节。
“我们认为,随着开发人员深入了解 SageMaker 模型,他们会明白,嘿,我可以把这个应用在其他领域,我可以对这个加以借鉴做出自己的模型,然后看看我能生成出什么东西。” 米勒说道。
在聆听了到目前为止生成的一些音乐之后,我觉得可以肯定地说,DeepComposer 无法马上就创作出一首热门曲目。它似乎非常擅长生成鼓点音轨,但在低音部的表现则有些不稳定。尽管如此,DeepComposer 仍然是对这种机器学习技术非常酷的演示,尽管在我看来,它的成功潜力可能比不上 DeepRacer,后者的概念更易于被大多数人理解,因为拿 DeepComposer 来说,大多数开发人员在看到它后会认为自己需要懂乐器才能使用,然后就此擦身而过。
罗恩·米勒(Ron Miller)对本报道亦有贡献。
翻译:王灿均( @何无鱼 )
Why AWS is selling a MIDI keyboard to teach machine learning