AI + 影视,学会「避坑」再「吟诗 」|CNCC 2024
“在影视行业, 越专业的人越觉得 AI 就是个傻瓜相机 !它只会产生一些让人「致幻」的 demo,实际应用起来往往会让人大失所望。”
“艺术创作不仅是结果,也是过程,而 AI 可能永远学不会艺术创作的过程, AICG也永远不会懂艺术。 ”
“AI 技术可能会实现创作平权,让非专业人士也能创作作品。但人人都可以写字,却不代表人人都能写出好故事, AI 技术可以帮助创作,但创造性仍然需要人类发挥 。”
... ...
以上均是来自 CNCC 2024 圆桌辩论上大佬们的观点,在 AI 热得发烫的今天,影视行业也逐渐融入了 AI 技术,只不过对于艺术与科技的交融,很多人秉持不同观点,也碰撞出了不同的火花。
此次大会邀请了中国电影美术学会理事董未名、北京灵动音科技有限公司 CTO苑盛成、清华大学计算机系博世AI教授、人工智能研究院副院长朱军、中国人民大学高瓴人工智能学院长聘副教授宋睿华、英特尔数据中心与人工智能集团首席工程师何万青、阿里巴巴通义实验室应用视觉Human AIGC方向负责人张邦、快手科技副总裁、大模型团队负责人张迪、爱奇艺副总裁兼智能制作部负责人朱梁等一众AI和影视领域的大佬参与讨论,激情辩论。
这次的“AI +影视创作”圆桌论坛,雷峰网 (公众号:雷峰网) AI 科技评论在不改变原意的基础上,对内容进行了编辑整理。希望能够给你带来更多的启发与思考。
AI +影视的“诗”与“坑”
主持人:很荣幸能够与几位老师一同探讨“AI+影视创作”这一话题。我准备了大约三个与此相关的小议题。第一个议题,我们来聊一聊 AI 与影视的“优势与挑战”。谁会使用一部傻瓜相机去拍摄电影呢?在这个行业技术与产业融合的过程当中,各位真实感受到了什么?首先请朱总谈一谈。
朱梁:谈到AI与影视结合的“诗”与“坑”,以及预期与实践之间的差距,这是一个长期存在的问题。我们都知道,电影的创作在影像和声音上有着极高的要求。尤其是连续性这一点,大多数基于DIT架构的模型都无法实现。
如果要求人物、装扮、光线方向和镜头运动都完全一致,就像电影中的镜头运动一样,这是难以做到的。因此,我们对儿童动画片项目进行了一些测试。片方或希望合作的伙伴提供的样片让我们感觉非常好,但它们是否100%由AI生成呢?
如果AI真的有这样的能力,对我们的制作帮助将是巨大的。对于视频平台来说,这是一个巨大的吸引力。但经过深入研究和沟通,我们了解到人工参与的部分仍然很多,人工智能中的“人工"部分可能没有达到我们的预期。要获得高质量的专业级成品,人工参与的比例需要降低。因此,虽然不能说这是一个100%的坑,但确实与我们对AI真正应用的预期还有一定差距,这是我们的实际感受。
主持人:宋老师的观点呢?
宋睿华:对于专业人士来说,他们可能会对某些技术持保留态度,因为艺术不仅仅是最终的作品,还包括创作的过程。例如,艺术家构思故事、修改故事、绘制故事板,或者导演需要通过团队的努力,经过一两年的时间才能看到最终的画面。这个过程本身就是非常重要的。
我一直在思考一个问题,那就是如何提高创作的新颖性。AI可能会陷入套路,对于创作者来说,可能无法满足他们的需求。例如,虽然我不制作视频,但当我阅读别人写的故事或文本时,我仍然觉得AI的想象力不如人类。对于高水平的创作者来说,他们有自己的要求,而AI目前还无法达到他们的水平,因此他们可能不会考虑使用AI。
但我不认为“傻瓜相机”不好,因为它们的销售量和产值可能远远超过专业相机和专业设备。虽然专业人士可能难以接受,目前也可能无法帮助他们,但对于业余爱好者来说,市场可能是巨大的,而且“傻瓜相机”不愁卖不出去。
主持人:是的,我还想补充问一下朱军老师,就刚才我说的这个过程当中,大家真实感受到的是技术端推着影视行业在往前走,还是影视端拽着技术行业?它是一个需求驱动的市场,还是一个供给逼出来的市场?
朱军:我认为技术确实是推动力,特别是在视频领域,今年我们都在讨论为什么现在这个时间点要讨论这个问题。这是因为技术正在快速发展。去年,当大家讨论AI生成视频时,还觉得这是非常遥远的事,但今年情况一直在变化,最大的变化原因还是技术的变革。
但是这个“坑”我也需要再讲一下,很多时候,所谓的“坑”其实是因为我们的预期与实际情况有差距。比如,无意中踩到坑会让人感到惊讶,但如果我们知道坑的存在并绕过去,这是正常的。并不是所有的路都是平坦的,技术也是如此。我们的技术正在快速发展,对于今天讨论的影视主题,可能大家对于AI的期待过高。
AI生成的内容与专业质量之间仍有差距,虽然大家都在努力缩小这个差距,但目前直接达到高端生成还不现实。更实际的是,AI可以帮助专业人士在生产流程中降低成本和提高效率,这可能很快就会成为现实。
例如,一些短片和大型院线电影的制作中,很多环节可以用AI来提高效率,正如朱总所说。如果我们对AI有过高的预期,可能会陷入“坑”中。但我对技术持乐观态度,相信它会快速发展。即使不能直接替代,AI也可能在许多环节上更好地帮助我们。
主持人:朱总有什么要补充的吗?
朱梁:我想补充一点,并不是说从爱奇艺的角度来看我们存在问题,实际上爱奇艺非常欢迎新技术。但对创作者来说,无论是爱奇艺的影片还是整个长视频领域,都是以艺术家为中心,由导演主导创作,他们有自己的视听表达方式和固定的表达习惯及范式。
这个范式需要被突破,我坚信随着我们能力的不断提升,尤其是在过去的一年里,我们见证了令人难以置信的进步。因此,未来的创作范式必将发生巨大变化,这是一个重大的议题。它关系到人才培养、产业未来发展方向、平台与内容创作者之间的关系,以及未来的剧组是否还需要以当前的形式存在。这些都是非常重要的问题。我相信未来一定会发生变化,唯一不变的就是变化本身。
何万青:我从事的是传统的CG领域,也就是数字内容生成。这是影视行业过去和现在一直在使用的主流方式,涉及到大量的渲染软件和渲染流水线工作。我非常同意刚才提到的一点,但是我想强调的是,VG 的模式实际上是基于语义空间转换成视频的。这种模式也会面临一个问题,即一些技术在刚出现时非常新奇,但如果它们没有进一步的突破,我们称之为naive的模式。比如,很多人在朋友圈里使用它,但结果却千篇一律。如果技术停留在这个阶段,它就永远无法进入主流产业。
到目前为止,我的判断是,我们现有的工具还只是一些单独的功能,还没有达到这样的程度:一部电影的百分之七八十完全是通过生成技术制作出来的。但最重要的一点是,我们需要理解什么是“无穷大”。我的意思是,在某个领域不断投入,就能不断产出更多的东西,而不是说在某一项技术上达到了极限。
苑盛成:我来补充一下,虽然我不是影视行业的专家,但我对音乐行业非常熟悉。我认为在创作过程中,不同领域可能存在共通之处。我们与许多音乐人、创作者以及我们产品的用户进行了一对一的交流。我注意到,不同的人创作欲望和创作能力各异。在能力有限的情况下,他们会倾向于选择适合自己能力的工具来满足创作欲望。例如,我们遇到过一个用户,他只会写词,之前写的是诗歌。
有了 AI 后,他花了一个星期坐在电脑前,将诗歌输入电脑,不断生成新的内容。一天能生成好几百条,直到找到满意的一条。一周后,他完成了所有诗歌的创作,并感到自己进行了创作。这背后代表的是,尽管他没有相应的能力,但他有强烈的创作欲望,并希望得到结果。
我认为,这样的创作虽然与专业影视或音乐人的创作过程和结果大相径庭,但不能因此否认其价值。他的作品可能没有版权价值,或者在QQ音乐、网易云音乐上鲜有人听,但对他个人而言意义重大。他创作的作品承载的价值与他的人生经历紧密相关。我发现许多人都处于这种状态:有创作和表达的欲望,但缺乏相应的能力。虽然现在的AI模型尚未达到理想状态,但至少提供了一种可能的解决方案。过去,他们可能根本无法尝试,但现在至少有了一条途径,即使需要不断尝试,最终从300个选项中找到一个满意的,也会认为是自己的创作。
因此,我也会关注教育相关的场景。在音乐领域,我们发现在小学、初中和高中,有些学生对音乐创作很感兴趣,甚至想制作音乐剧或校园剧。他们可能没有相应的能力或设备,但他们不会因为这些限制而放弃。他们会用最简陋的工具,向老师请教,即使老师也不会,他们也会尝试制作。
最终,他们可能会制作出一些作品,从而获得满足感,激发他们的兴趣。这种满足感可能会促使他们在未来的学习和生活中更加关注这一过程,最终可能进入这个行业,逐渐培养成专业人士。这也是AI技术在创作领域的一种意义。
主持人:现在 AI 加影视到底是朝着让小白就能够上这个船,还是去真正改造严肃的影视工业的?譬如降本增效等等的这个诉求呢,可以一两句话概括一下吗?
苑盛成:我认为创作有多种形式,不同的工具满足不同的需求,并不是单一的工具或产品形态能够满足所有需求。
朱军:我想插一句,现在我们在讨论什么是通用的基础平台。比如,当我们在做申诉时,我说我的愿景是什么,我认为愿景就像刚才苑总所说的,我们希望让每个人都能释放他们的创作梦想,让每个人都能够表达自己,而不仅仅是那些专业的人。
这也不应该是AI最终特别要追求的目标,但我们可以在通用工具上让大家去表达,让每个人都能尝试。比如,帮助导演展示他的想法,可能这些想法最终不会直接使用,但可以作为参考。比如,他可能需要找真人或演员来拍摄,这样的工具可能会大大提高效率。我认为短期内可能会是这样,但长期来看,我也不认为AI一定要完全取代真正的人的创作。
何万青:实际上,我们观察到中国影视特效行业的发展始于2000年代初。当时,在北京的许多地铁站,你可以看到各种3D Max学习班的广告。从那时起,全国各地建立了许多所谓的文创基地。但这里存在一个问题:虽然有很多基地,但在传统的影视制作中,像3D Max这样的软件是生产资料,而今天我们AI技术还处于打基础阶段,还没有产生作为生产资料的软件或服务,这是必须要做的,才能真正推动影视行业的发展。
第二点,从2007年到疫情前,我们注意到一个现象:许多艺术院校在培养CG人才方面开始凋零。最初,大家都在学习模仿日韩的风格,但如何创作具有中国特色的作品?在技术上,这是一个非常缓慢的过程。我记得有一次我们组织了一个会议,一个班级的学生花了一整个学期的时间制作了19分钟的动画。
过去采用CG的方式,因为它涉及到大量的物理背景和理工知识,实际上它很大程度上依赖于软件本身。我们不断在这方面努力,但软件领域,就像我们的工业仿真软件一样,大多是海外的,要自主研发非常困难。但今天,CG和VG技术开辟了新的道路,因为它是基于模型生成的。然而,这里有一个最大的问题尚未解决,那就是交互问题。过去CG的生成模式是有原理的,如果参数不合适,你可以调整的东西很少。
因此,我认为这两种模型的方式,即基于科学计算或建模的方式,是准确、可调的。最大的优势在于,它可以解决艺术教育的问题。过去,大多数人觉得太难了,就止步不前。最终,是那些专门做特效的公司培训了很多工程师,不断地进行这方面的工作。
所以我认为我们面临的是两条路,但其中一条路要解决的问题是,我的答案在于要把交互性做好。而交互性在某种程度上是由可解释性带来的,即可观测和可解释。当我改变它,我知道我往这个方向改变,它应该产生那个效果;我往另一个方向改变,它应该产生另一个效果。但对于神经网络模型,你往往并不清楚很多东西都是启发式的——你尝试改变它,看看会是什么样子。所以,如果不解决这个问题,我认为这就是我们这个行业面临的挑战和存在的必要性。我是觉得是这样的一个事。
技术发展的路线,统一了吗?
主持人:从技术发展的角度,去年可能大家还有不同的主,不同的路线,而年初 Sora 亮相,让那个 Transformer 加这个 diffusion model DIT 的路线成为了主流,到今天其实才过去了八九个月内,这个技术路线大家统一了吗?
朱军:让我先来谈谈我的观察。目前,从实际效果来看,最好的效果肯定是使用扩散模型结合Transformer。在实战中,当然包括扩大模型规模,也有一些其他的变种,包括最近大家提到的flow matching,但它们本质上还是基于同样原理的方法。同时,在学术界,大家也在不断探索各种其他架构,包括Transformer的各种尝试。但从最终效果来看,目前似乎还是比较倾向于使用DIT这种方法。
主持人:所以基本上现在是以这个以 Sora 路线为核心,我们更多的是快速对齐,对吧?
朱军:对的,是这样的。
主持人:那其实跟我们此刻隔壁世界正在发生的大语言模型是类似的逻辑,是吧?
宋睿华:我认为可能并不是像那个行业一样,即使是大型语言模型的差距也在缩小,也会追赶上来。实际上,我感觉他们作为领头羊的地位和影响力可能会掩盖掉我们的一些光辉,比如中国人民大学做的悟道·文澜模型,虽然独立研发,与CLIP模型同期独立发布,但声量没有Open CLIP那么大,又比如朱老师他们在更早的时候发表的那篇文章,,是关于diffusion算法的,后来这个算法就被整合到了SD和Sora中。其实我们一直在为技术贡献,但他们可能在商业上非常成功,整个形象就是作为领头羊的形象,影响力特别大。有时候我们并不是做得比他们晚,而是我们的声音没有他们大。
主持人:所以刚才朱老师的观点听上去还是 Sora 路线是主流路线。那么宋老师,你的观点是说,现在其实还是多条道路在同时探索的状态?
宋睿华:我认为,有些技术确实有效,比如Transformer模型,大家都发现它非常好用。我们的同学后来意识到,最初大家的研究思路是想要改造这个架构,但后来发现花费了很多时间却收效甚微,甚至越改越糟。最终,大家达成了一个共识:这个模型可能是一个很好的基础单元,就像乐高积木一样,找到了一些非常实用、多功能的积木块,这些积木块可以拼成各种各样的东西。你可以选择一直挑战,说我不要这些积木块,我要自己创造形状,无论是方形、圆形还是三角形;或者你可以选择认可这些积木块的确很强大,然后利用它们来构建自己想要的作品。
主持人:那么这个赛道大家现在竞争的是什么?
宋睿华:我认为这更多是关于个人愿景的问题,没有唯一的选择,而是看大家谁能看得更远。即使是同样有远见的人,他们也可能认为不同的方向是可行的。
主持人:这是可能偏学术的视角,对吗?那董老师你也是这么认为的吗?
董未名:我平时做研究,特别是在AI生成领域,我已经做了十几年。可能与大多数人不同,我更喜欢从艺术创作的角度来看待当前的生成技术。从技术角度来看,无论国内外,核心技术最终都归结为diffusion技术。在视频领域,最核心的是Transformer加上diffusion,所有模型都没有脱离这个框架。无论你在上层做多少改动,底层核心都是这些技术。
但是,当我从艺术创作的角度来观察时,我发现现在许多大型模型,无论是国内还是国外,其生成的结果存在严重的同质化问题。有些风格大家都做得不错,而有些风格则似乎谁都做不好,也没有人敢于尝试这些风格。例如,我可以肯定地说,有些风格是任何模型都做不好的,比如那些带有特定圈圈的或者大笔触、大色块的油画风格。我发现这些风格似乎大家都做不好,而且所有的论文中也不敢展示这样的结果。
我在思考,这是否意味着底层的技术框架,最核心的技术路线,可能无法涵盖所有的艺术风格和技法?如果技术继续按照当前的路线发展,那么从艺术AI推动艺术创作的角度来看,这是否真的是一个正确的方向?从艺术的角度来看,我认为可能还是存在一些问题。
何万青:我可能不太同意这个观点,关于老师提到的艺术问题,我认为当我们讨论AI在影视领域的AIGC时,有一个底线问题需要考虑。艺术和审美虽然是个人化的,但它们都有边界条件和目的。就像人们画鬼,其实是有一定样板的,比如人的样子加上角或其他特征。如果没有这些样板,就会变成现在手机上泛滥的那种应用,它们可以把你的照片处理成各种样子。如果我们在这方面花费太多时间,可能会陷入一种简单的快感中,这可能会导致我们在更重要的事情上落后更多。
我的意思是说我们作为这个整个 AIGC 出来之后,它其实就是提升了艺术创作者的无能基准线,过去你的基准线很低,但现在就不一样了。
AI+影视,会把我们送到什么地方去?
主持人:好,那我们直接进入到第三个话题。我在听的时候有一个隐约的感觉,如果影视制作变得人人都能参与,那么这个行业还会保持现状吗?我们是否只是提高了影视产业的效率,还是会引发整个文明形态的转变?就像视频已经改变了我们阅读文章和书籍的习惯一样。
当视频也被人工智能普及化之后,我们与内容的关系将会变成什么样?这是一个开放性的问题。作为我们今天的最后一个议题,我们可以不局限于技术层面,而是想象一下,在未来一年、五年、十年,甚至更远的未来,当谈到人工智能和影视时,我们将看到一个怎样的世界?
张邦:我畅想未来,AI与影视的结合将实现创作平权。这意味着创作不再局限于专业导演或编剧,普通人也能创作出感人肺腑、流传千古的作品。每个人内心都可能藏有一个值得分享、能够触动人心的故事,只是他们可能没有接受过专业训练,缺乏工具和团队来展现他们精彩的经历和故事。
AI与影视的结合在未来可能会让这种创作平权成为可能,让每个人都能轻松地将他们的经历和内心故事以出色的方式呈现出来。我认为这将是科技所能创造的美好未来,也是一个必然的趋势。
主持人:到那个时候影视还会是一个大的工业吗?还是说变成了非物质文化遗产?
董未名:情况是这样的,正如您刚才提到的,从艺术创作的角度来看,艺术创作的目的是什么?比如我写书,我输入一行文字,然后瞬间创作出一幅画,这种创作的快感是AI无法给予的,AI永远无法提供给人类的。
主持人:我觉得大部分短视频创作者创作短视频的时候没有快感,看到被点赞才有快感。到时候大家都在创作,没有人去点赞了,怎么办呢?
苑盛成:我确实有一些想法,虽然我不太懂影视领域,但我认为音乐与它有很多相似之处。比如,你听流行歌曲时,近几年你有没有关注这些歌是谁演唱的、谁编曲、谁作词、谁作曲?这可能反映了一个现象:大多数用户在听音乐时,并不在乎创作者是谁。
但也有一部分人创作是为了表达自己,让自己身边的人能听到,获得自己创作的人生体验。这部分可能与董老师刚才提到的创作中的表达欲有关,即背后的部分我表达出来了,整个结果被我自己所接纳,我真的认为是我主导创作了这个艺术作品,这个艺术作品代表了我的审美,代表了我的人生体验。
何万青:我补充一下,关于这种个性化和浪漫的想法。首先,我非常同意张邦老师的观点。我认为第一个结论是,AI这种平权可以改变我们大多数人的生产方式和娱乐方式。其次,这将产生一种新的经济模式。但同样重要的是,当每个人都能创作时,你需要购买别人的注意力,这就是现在的网红经济和直播经济的来源。
第三点是最关键也是最棘手的,如果在这个情况下,我们仍然由平台公司垄断,就像现在要在抖音上获得曝光需要花费很多钱一样,也就是说,这么多创作者中只有一小部分能够获得巨大的流量,剩下的长尾创作者则很难获得关注。这种模式仍然会限制创新。所以,这三个方面我都要强调,AI平权肯定是好事,但它必须有相应的生产关系和整个生态系统的配合才能发挥好的效果。
张邦:我认为创作平权绝对是一件好事。此外,物质生产可能会过剩,但文化和艺术的生产永远不会过剩。当创作平权实现后,因为参与创作的人数增多,生产信息的基数变得更大,同时,你的信息生产量也会增加。这也意味着文化和艺术创作的质量和数量都将得到提升。
苑盛成:我同意张总刚才所说的观点,即文化和艺术创作不会过剩。我的看法与他相同。我认为艺术创作是人类对自己精神层面的探索,它是主观的,每个人都是独一无二的,因此它不会过剩。
董未名:我的观点可以用一句话概括:艺术的作用不在于复制可见之物,而在于将不可见的东西变得可见。有了AI这个工具之后,它能够帮助我们把每个人心中的不可见之物——我们对这个世界的憧憬和想象——转化为可见的现实。
朱军:我的第一句话是,AI技术正在快速发展,但我们不能以完美来衡量它。所有技术都有不足之处。第二句话是,AI的最终目的是帮助人们实现梦想。就像我们所做的所有工作一样,我们希望帮助人们将自己的梦想变成可见的、可传播的、可观赏的成果。
宋睿华:我想总结的刚好用到这个论坛的名字, AI +影视≠创作,就人人都可以写字,但是不代表人人都能写出好的故事。
何万青:我想说的是,尽管AI在创作领域还处于起步阶段,但对于我们今天在线上和线下的受众来说,有一件事需要记住:人们往往不会珍惜那些容易得到的东西。所以,艺术也是这样,即使有了工具,你仍然需要发挥你的创造性。
张邦:我这里想表达的是,今天我们讨论的Sora,即视频生成大模型或视觉大模型,实际上与语言大模型属于同一代技术,包括OpenAI的chatGPT等技术。Sora和类似的技术从0到1的亮相是非常惊艳的,意味着从无到有的转变,这个亮相是迅速且极其引人注目的。但从1到100的过程可能并不那么容易。因此,我们希望学界和产业界都能有耐心,慢慢见证这些技术对社会和全人类的改变。
朱梁:万事万物,变化是唯一不变的真理。对于未来一年、五年、十年的发展趋势,我特别想说几句。未来一年,我特别期待在专业长视频领域能有实质性的进步,因为这个领域可以被视为影视行业的蓝宝石或金字塔的塔尖。一旦这个方向取得突破,解决了刚才各位专家讨论的问题,那么影视与AI结合的基点就真正到来了。
这个时刻将会真正地、极大地改善或改变我们所说的创作平权,影视行业的整体结构,以及创作方式和范式,发生根本性的改变。我觉得那个时候就真的到来了。所以我特别期待我们不仅仅是仰望星空,还要脚踏实地地把每一个项目做好,把每一个技术的进步点做好。
从影视行业的角度来看,它只看重结果,而不是大家所说的投入了多少算力、进行了多少训练、投入了多少钱。这个行业其实很残酷,有很多有才华的人,正如大家所说,他们有表达的欲望,创作出感动自己的作品,但观众不买账,行业也不会买账。所以,我们还是要这样和大家共勉。
主持人:朱总作为最后一位发言的嘉宾,实际上占据了一个很好的位置,为我们今天的讨论定下了基调。那么,我们今天的论坛就到此结束,感谢几位嘉宾带来的精彩观点和真诚分享,也感谢大家的参与。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。