为什么谷歌AI系统可以学贝多芬谱曲,却无法像郭德纲一样讲相声?
用AI来创作钢琴曲、绘画猫图,这些听起来可能不太像是谷歌会做的事情,但是这对Douglas Eck来说是非常有意义的。
Eck已经花了大约15年的时间研究AI和音乐,现在他也是谷歌Brain团队里的研究科学家,主导了谷歌的开源研究项目Magenta,该项目旨在通过机器学习创作艺术和音乐。
在采访中,他谈论了谷歌如何使用深度神经网络创作新的乐声,以及计算机无法讲笑话的原因。
我们正在探索这个非常具体的方向是否与深度神经网络、周期性神经网络或者其他机器学习类型有关。同时,我们也很努力地将艺术家和创意程序员、开源开发人员联系起来,所以我们将这个项目进行了开源。
说实话,这只是我的偏好所决定的。我的整个研究生涯都围绕着音乐和音频。我认为Magenta的研究范围一直都是围绕着艺术——无论是讲故事、音乐、叙事还是图像,简单来说就是尝试理解如何将AI当作创意工具使用。但是你必须要从一个具体的方向突破。如果我们能够在创作复杂音乐上取得进展,那么就可以将这一模式推广到其他领域。
这里是Performance RNN原型生成的一段音乐。
仔细听一听这段音乐。这不仅是一段音乐作品,同时也是一段音乐表演。该原型不仅仅会生成4音符,也会决定乐曲的播放速度、声音大小。实际上,原型所接受的训练是钢琴比赛中的部分钢琴演奏。
我们正在努力。对我们而言,在整个生成原型领域中,未来的主要研究方向之一就是机器学习模型的学习架构。
我们不仅可以让它学习和弦的符号变化,也可以让它学习如何在内容里利用和弦变化。我们甚至可以有一个单独到模型来生成和弦变化。我们的目标是生成这种端对端的模型,以自己的方式计算出所有的层次结构。
我们可以获取到人们在玩Pictionary时的一些数据,这些数据都是来自于谷歌创意实验室的AI绘画实验。当然,这些数据是有限制的。你只能从短短的20秒绘画中获取一些相关数据。但是,我认为Sketch-RNN的负责人David Ha的工作真的很不错。他训练了一个周期性神经网络来学习如何复制这些绘画。他强迫模型学习什么是重要的部分。模型没有强大到能够记住整个绘图。因为它不能记住它看到的所有笔画,它的工作只是复制猫的图像。它被强迫学习猫图像中的重点,也就是这些数百万张猫图像的共同点。所以当你玩这个模型时,你可以要求它凭空生成一只猫。当然,这些生成的猫图像看上去像不知道如何画猫的人画出来的。
这个项目令我们产生了一个原始的问题:我们是如何理解笑话中的包袱的?我们之所以能够理解笑话,是因为能够理解笑话中的双关语。其实所谓的双关语也只是普通的词句而已。只是你的大脑能够通过这些词句联想到其他东西。这是一种被迫进行的回溯。所以,我们想要研究一些特殊的机器学习模型,它能够产生被称为真实向量的东西,能够理解一个句子的语义。
是的,你必须知道很多。这个模型不仅没有说出任何笑话,它所说的内容我们也无法理解。
我尝试理解音乐的长期结构,并希望能够获得来自观众的反馈。
这将艺术过程看成是一种迭代。甲壳虫乐队拥有12张专辑,每张专辑都是不一样的。这是因为他们不断的从同僚或者观众中获得反馈,并根据反馈进行改变。他们所做的事情真正的与文化连接在一起。艺术家并不是静态不动的。
同样,我们也期望模型能够从反馈中学习。当它们了解到好的反馈时,会使用强化学习来设置对应的参数。
我想这要取决于我们原本的意图。我认为机器学习算法不大可能会具有独立性,产生一些具有变革性的艺术方式。但是利用这种技术的人可能会。何况,我们离AI创造真实世界的那一天还有很远的距离。AI现在所做的事情也许不是复制数据集,但也只是将多个数据集混杂在一起而已。