视频生成的“ChatGPT时刻”究竟有没有到来?

虎嗅网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

视频生成的“ChatGPT时刻”究竟有没有到来?


今年2月Sora发布时,不少人认为这个时刻到来了。OpenAI使用基于Transformer的扩散模型 (Diffusion Model) ,使得Sora的生成长度可达1分钟,当时Pika的生成时长仅为3秒,Runway也只能生成18秒的视频。而且,Sora生成的视频比Runway等模型生成的“动”得更多,看起来更像真正的运动,而非Gif图片。不过,直到现在,Sora的所有发布也只是展示 (Demo) ,仅面向少数人开放测试,而没有像ChatGPT那样把功能开放给所有人体验。


多伦多视频制作团队Shy Kids的后期制作成员Patrick Cederberg在试用后称,Sora生成的300个视频中,大约只有1个是可用的,这意味着Sora的“抽卡率” (即“良率”) 不足。


如果视频生成市场上存在着时长派和良率派两个派别,而Sora是时长派的代表,位于伦敦的初创公司Haiper就是良率派。Haiper创始人缪亦舒对“新皮层”称,Haiper的视频模型目前只能生成8秒的视频,但“Haiper抽卡率相当高,大约每2个视频中就有1个被用户下载使用了”。


在缪亦舒看来,之所以更追求良率而非时长,是因为用户并不期待超长视频,视频生成的“最佳时长”仍在探索中。而目前4秒的生成长度可以为用户做的事情已经很多了,比如作为广告视频或用来讲个小故事。


不少人对于视频生成的期待是出现GenAI时代的TikTok,区别是视频不再来自相机拍摄,而是来自AI生成。缪亦舒也相信这样的平台将会出现,不过他认为 目前的模型即使解决了良率问题,仍不足以解决story telling的问题 ,高质量创作仍然是最难的。目前来看,这项工作仍然需要人类的介入才能完成。因此整体而言,视频生成目前只相当于语言模型的GPT-2阶段——能够生成像自然语言、视频的内容,但“内容是否有意义”的问题尚未解决。


Haiper正在筹建一个社区,让专业人士和小白可以交流视频生成经验。用缪亦舒的话说,这个社区更像小红书,而不是TikTok,对于视频生成来说,前者更像是一个交流视频生成经验的学习社区,后者则是一个AI视频的成品交易平台。在成为GenAI时代的TikTok之前,Haiper试图先成为GenAI时代的小红书。


以下是新皮层与缪亦舒的对话,他谈到了Haiper和Sora在受众定位上的区别,谈到了Haiper目前的产品定位,以及当前视频模型竞争中各家公司的竞争要素。此外,他还谈到了在DeepMind工作期间的收获,以及他对DeepMind为什么会被OpenAI后来居上的理解。


一、相较于时长,更重要的是视频生成的成功率


新皮层: 作为一家视频生成公司,Haiper的技术路线更接近于Runway、Pika还是Sora?


缪亦舒: 我不确定其他公司采用的具体技术,但可以肯定的是,不同公司的视频生成模型在架构细节上会有很大不同。视频生成是一个复杂的工程系统,从数据层面到模型架构设计,再到最终的输出选择,与很多因素相关。


我们使用的是Latent Diffusion Model (潜在扩散模型) +Transformer。目前还不能简单地说使用某个架构就能形成技术优势。这是一个需要不断研究和混合的过程。


因为AI产品的UI/UX设计接近,我们的产品在早期可能与Runway和Pika看起来相似,但使用后会发现有很大的不同。


新皮层: Sora发布之后,国内视频生成公司的方向似乎都转变为要成为下一个Sora。在硅谷或伦敦市场,视频生成领域是否还有不同的技术路线尝试?


缪亦舒: 我认为未来一段时间内,视频生成领域不会出现单一主流技术,可能会有类似语言模型的通用架构,但内容的多样性会带来视频生成模型的多元化,像YouTube、Bilibili和Netflix等平台在内容层面就具有明显的差异。


技术上,目前视频生成行业还在非常早期的阶段,并没有形成技术共识,需要不断推动研究。比如我们可能提出了一个视频架构,但之后在这个架构上扩展遇到了瓶颈,就会迫使我们提出新的网络架构。这个过程会因为新的算法而变得复杂,之前的训练可能就会无效。


新皮层: Haiper的目标不是成为下一个Sora吗?


缪亦舒: 在我看来,与其说Sora是一个视频产品,不如说它是OpenAI在追求AGI (通用人工智能) 路线上的一个重要节点。而这个项目最终要变成成熟的产品,距离普通用户仍然有距离。


对于初创公司来说,我们需要比大公司更接近用户,考虑他们为何要生成视频以及视频的用途。用户需求的不同会导致我们采用的技术路线不同。我们或许可以走把模型不断滚大的路线,但更难的是在训练过程中考虑用户使用速率和模型迭代效率。


挑选出一个优秀的demo视频相对容易,但要达到产品级别,确保用户满意度,这完全是另一回事。真正将模型商业化,并将其部署到云上供所有用户使用,这需要经过市场的验证。


新皮层: 在当前的视频模型竞争中,各家公司的竞争要素是什么?是时长、清晰度、连贯性、稳定性,还是与用户指令的符合度?


缪亦舒: 这些竞争要素都是重要的,但会有侧重点。专业用户可能更看重高清和时长,而普通用户可能更看重语言理解、连贯性和内容趣味性。当这些要素汇聚到产品中时,服务的用户类型不同,就需要产品有所取舍。


新皮层: 目前,Haiper最长能生成8秒 ,与Sora相比在视频长度上还有差距?


缪亦舒: 在技术上,我们已经实现了不限时长的视频生成,但还没准备好推向市场。其实一味地拉长视频的长度不难,但随着生成长度增加,视频内容的质量会下降。 (注:7月17日,Haiper发布其视频生成模型的1.5版本,可生成视频时长从4秒增加到8秒。此外,新模型中加入了分辨率提升器upscaler,可以将低质量视频提升至1080p分辨率,改善画质和细节。同时,模型将新增图像生成功能,在用户生成视频前先检查图像效果,提高生成的成功率。)


新皮层: 时长在目前的视频生成的竞争中意味着什么?


缪亦舒: 在视频生成领域,目前已经落地的产品通常不支持生成过长的视频,而支持生成长视频的产品尚未达到落地标准。


我的观点是, 初创公司不应该一开始就追求过大的模型和过长的时长,这可能会背离应用落地的目标 。除了技术方面的原因,我认为用户实际上并不期待超长视频。不考虑视频质量和用户体验,单纯讨论模型能生成多少秒的视频是没有意义的。


之前有报道提到,与Sora合作的工作室最终发布的视频是经过后期编辑的结果。针对某一个镜头,Sora生成的300个视频中只有1个是可用的。这样的成功率对于产品级的应用来说远远不够,因为普通用户不可能等待生成300个视频然后选一个使用。所以我认为,Sora面向的其实是专业用户,但我们的策略不同,我们的目标是提供给普通用户使用。


对于面向C端的产品,在早期追求视频时长并不是一个明智的选择,追求生成长时间视频意味着需要更大的模型,这会导致用户的等待时间更长,生成错误视频的概率也会增加。


我们希望让普通用户在短时间内获得满意的素材,降低用户尝试使用的成本,目前优化的方向包括语言理解、创造性风格组合等,但最重要的还是成功率。高成功率是我们产品的一个重要优势,它意味着用户能够更快地得到满意的视频结果,减少等待和筛选的时间。


新皮层: 成功率具体是指什么?


缪亦舒: 成功率在用户中间也被称为“抽卡率”,是指连续生成的多个视频中可用的数量。例如,如果我们连续生成10个视频,其中有一半是可用的,成功率 (抽卡率) 就是50%。目前,根据用户的下载率来推断的话,Haiper的成功率相当高,大约每2个视频中就有1个被用户下载使用了。


二、即使AI可以帮用户生成视频了,story telling的工作仍然需要人做


新皮层: Haiper目前的产品定位是做工具,还是构建社区,或者是技术攻坚实现AGI?


缪亦舒: 我们目前是在构建社区的状态,实现AGI是我们的长期使命。在还没有想清楚视频生成AGI的具体形态前,讨论AGI还太远。我们做AI的最终目标不是为了AI本身,而是在实现AGI的道路上找到自己的路径,这是我们的长远方向。但我们不会放弃产品落地,这有助于我们与用户交互,获得来自现实世界的反馈,而不是仅在技术层面自娱自乐。


我们看重普通用户在享受AI的过程中创造的内容,而不是仅为好莱坞电影制作人提供工具。早期,我们的产品看起来可能更像是一个工具,但我们下一步的主要努力方向是构建社区,希望最终从社区发展到平台。


新皮层: 你们怎么看待不同用户的审美多样性?


缪亦舒: 用户对视频内容的欣赏能力是一个问题,但并不困扰我们。AGI必然会与人类存在分歧,这是我们必须接受的现实。AI生成的内容有时与用户的期望不符,但这种分歧和审美差异是不可避免的。


AGI是一个智慧的集合,它会有自己的观点,但不必让所有人满意。我们做AI产品的目标是满足大部分用户的需求,而不是追求让所有人都满意。


新皮层: 不提供太多可能性,这可能是更好的商业化路径?


缪亦舒: 对,专业用户的审美的确不容易在一个模型中体现和表达。AGI无法满足所有人的共识,但它可以达到大部分人的审美期待。


新皮层: 社区的定义听起来很广泛,它是一个像TikTok那样的社区,还是像Character AI那样的社区?


缪亦舒: TikTok已经是一个成熟的平台,用户可以创建和消费内容。我们所说的社区更早期一些,主要是为用户搭建交流和分享的渠道,建立专业用户和普通用户的交流,降低生成AI视频的门槛。我们的社区可能更像小红书,用户可以分享生成视频的心得、使用的提示词、设计思路等,其他用户可以在此基础上进行二次创作。


新皮层: 构建这种社区是否意味着目前用视频模型生成可被消费的内容的门槛还很高?


缪亦舒: 对,在做平台之前需要先做一个社区,主要是因为视频生成的确有门槛,普通用户很难一步到位地创造出高质量的内容。目前,我们还没有达到大多用户只消费而不参与创作的阶段,鼓励用户积极创作是很重要的。最终我们希望社区能够发展成为一个平台,它不仅可以支持用户创作和消费内容,还能吸引新用户通过这些创作内容来参与消费,形成一个自我增长的生态系统。


新皮层: 抖音等短视频平台也在开发视频生成工具,试图提供给用户,你们的产品与他们的有什么区别?


缪亦舒: 大公司可能会专注于构建工具,围绕现有平台构建生态,我们的侧重点在于探索一种新的创作方式。尽管许多人使用过TikTok等平台,但真正成为创作者的人并不多,因为创作门槛相对较高。目前这类短视频平台上的内容创作还是需要摄像镜头的介入。而我们更倾向于一步到位地利用AI生成视频,不需要相机,我们提供的服务能让用户直接用文本和图片创作视频,这与现有的主流创作方式不同。


新皮层: Haiper目前生成的视频只有4到8秒,这个时长能够做什么?


缪亦舒: 4秒的视频能做很多事,例如作为广告视频或讲个小故事。如果要讲更长的故事,可能需要拼接和剪辑过程。


新皮层: 通过一键生成的方式,目前能生成可被消费的视频吗?


缪亦舒: 一键生成视频是奢求,目前的技术更适合多段式的表达。并不是因为对于4秒很难,是story telling这件事本身很难,对内容理解的要求极高,你很难在4秒里讲一个完整的故事或实现一个小的幽默。


新皮层: AI是否降低了用户的视频创作门槛呢?


缪亦舒: 工具上的门槛降低了,但story telling本身的门槛没有降低,高质量创作仍然是困难的。这不是工具的问题,而是创作能力的问题。做story telling是AGI可以做的事情,在AGI到来之前这是最难的。


新皮层: story telling的工作是否可能由另一个AI来做?


缪亦舒: 有可能,但现在还不行。AI如果能做story telling,那标志着AGI已经到来了。在AGI到来之前,story telling是我们认为最难的事。


新皮层: 你们是否会考虑在社区中加入story telling的agent?


缪亦舒: 我们一定会尝试。


三、视频模型的ChatGPT时刻还没有到来


新皮层: 目前视频类产品在用户群和活跃度上与语言模型存在差异,这是什么原因?


缪亦舒: 首先,视频模型本身的产品成熟度不如语言模型。此外,市场教育也不足,用户可能还没有意识到AI可以在视频内容方面做很多事情。


不过,虽然视频模型不成熟,已经有一些实际应用案例出现,比如在广告等领域的商业应用。早期的语言模型比如GPT-2主要应用于情感分析、分类或内容审核等,并没有大规模应用。与语言模型相比,视频模型更接近消费者,即便技术和产品还不成熟,其生成的内容也有更大的价值。


新皮层: 视频生成是否已到达“ChatGPT时刻”?


缪亦舒: 还没有。ChatGPT时刻起码意味着所有人都可以使用这项技术,而目前Sora等产品的发布带来了新体验,但它们还只是demo,没有大规模应用。


新皮层: 视频生成技术目前相当于GPT的哪个阶段?


缪亦舒: 大致是GPT-2,但我认为它在应用方面并不像GPT-2那样初级。


新皮层: 语言模型领域存在一种观点,认为只要投入足够的时间和数据量就能够达到预期效果,在视频模型的发展中是否也有相同的情况?


缪亦舒: 我之前有过语言模型方面的经历,其实语言模型并不像大家想象的那样简单,尽管时间和数据量是重要的,但仅仅增加这些并不足以保证成功。首先,工程实施方面存在很高的门槛,仅仅增加数据量、扩大模型规模或使用更多的计算资源,并不能完全解决问题。例如,一个模型在不同数量的GPU上训练会产生不同的结果,这涉及模型扩展的复杂性。


而视频模型相比语言模型需要考虑更多的问题,视频模型需要适应GPU内存,处理大量的元信息,考虑视频的时长、风格和内容的多样性等。这些因素都增加了视频模型开发的复杂性。


因此,虽然扩大规模是一个发展方向,但实际上它并不是一件简单的事情。人们可能会试图为scaling law (规模定律) 找到一个简单的解释,但这是一项庞大的系统工程,需要综合考虑多个方面的因素。


新皮层: 你怎么看视频生成在实现AGI过程中扮演的角色?和语言模型相比,哪个更容易通往AGI?


缪亦舒: 我倾向于视频,因为语言虽然是智慧的载体,包含了许多逻辑,但它并不能代表所有的智能。维特根斯坦曾说,语言的极限就是我的世界的极限。如果我有一个朋友躺在医院,无法出门,我可以每天用语言描述我看到的世界给他听,但这并不能代表他也真正看到了这个世界。总有一些用语言无法描述的东西,它们构建了我们对世界的独特理解,这就是多模态性 (multimodality)


现在的大语言模型可以理解和读取视频,但生成视频是另一回事。理解视频,将视频作为输入、文本作为输出是容易的,因为它可以成为一种表达方式。但感知是一项更加多元和先进的能力,是AGI路径上的重要一步。如果我们的AI停留在逻辑层面的智慧,和物理世界没有连接,只以文本形式与人类交流,我认为这样的AI还不能被称为AGI。视觉内容生成是AGI路线上不可或缺的一部分。


四、DeepMind教会我们如何分配资源


新皮层: Haiper将办公室设在了伦敦的国王十字(King’s cross)地区,为何众多技术公司,如Google、Facebook等也选择了这里?


缪亦舒: King’s cross确实已经成为技术产业的聚集地。自2012年起,Google来到King’s cross,带动了这一趋势,之后吸引了Meta、Uber、Waymo等公司,形成了自然的聚集效应。


新皮层: 与硅谷相比,伦敦在AI领域的发展情况如何?


缪亦舒: 由于DeepMind的影响,伦敦在AI人才方面储备充足,尤其是研究科学家类的人才储备,并不比硅谷少。但是伦敦的创业文化相对落后,毕业生很少选择直接创业。


此外,与硅谷相比,伦敦偏好的研究方向也有差异,英国有探索科学与人关系的倾向,所以对AI安全等课题有较为强烈的兴趣。


不过,一个有趣的现象是,尽管硅谷是许多技术人才梦寐以求的地方,但伦敦有很多人不愿远赴美国。我的很多同事都对欧洲有着深厚的文化归属感,他们钟爱欧洲的生活方式。他们最多会前往巴黎寻求新机会,但很少有人会去美国工作。


新皮层: 你们考虑过在湾区开设一个办公室吗?


缪亦舒: 考虑过,但现在还不是时候。我们确实希望能在湾区触及全球顶尖人才,但管理一个新的办公室需要有经验的经理来规划。我们可能不会很快开设,但确实在探索这一方案的可能性和合理性。


新皮层: Haiper是否在计划新一轮的融资,会在英国以外的市场去找钱吗?


缪亦舒: 我们即将关闭新一轮融资,并且不限于英国的资金。


新皮层: 你和另一位合伙人王子聿之前都有过在DeepMind工作的经历,DeepMind教给了你们什么?


缪亦舒: 我和子聿10年前就认识了,他是我在牛津的同学,我们在学校属于同一个课题组,我做语言模型,他是做优化和深度强化学习的。我在DeepMind主要是做语言模型,当时这还是一个很冷门的方向,大家觉得语言模型就是用来做翻译的。经常有同事开玩笑说,语言模型很有趣,但有什么用呢?


DeepMind的确教给了我们很多,作为企图实现AGI的先驱,DeepMind有着非常完整的项目管理和科研管理体系,明确区分了研究科学家和研究工程师的角色,项目的领导者也非常有远见,能够预见项目的发展情况,合理配备所需资源,确保团队成员之间的沟通。


Deepmind没有赶上这一轮生成式AI的发展先机,可能是因为在“get your hands dirty”这一点上做得不如OpenAI这样的公司。


新皮层: 你们现在的分工是怎样的?


缪亦舒: 疫情期间,我和子聿重新联系后,决定一起做些事情,因为我们在多模态和视觉内容生成方面有丰富的经验。目前我的工作更多是产品、商务和管理,而子聿负责大模型系统和基础研究。


新皮层: 目前Haiper在伦敦和加拿大的团队规模如何?


缪亦舒: 伦敦团队有15人,涵盖产品、工程和机器学习,而加拿大团队约6人,只负责机器学习。


新皮层: 去年,你们团队的发展方向从3D转向了视频生成,这个转变是如何发生的?


缪亦舒: 转变的发生一方面是基于我们对内容的判断,另一方面也和我们团队的技术积累相关。在3D领域,我们已经有了较成熟的技术积累,我们是最早在3D领域应用神经辐射场 (Neural radiance fields,NeRF) 的团队,并且推出了iOS端的用户产品。


我们创立Haiper的初衷是构建一个有影响力的产品,让普通用户也能享受到技术带来的快乐。但从去年年初开始,我们意识到3D内容的创作和消费都更倾向于专业用户,主要应用场景和输出场景更倾向于面向企业的服务,比如游戏或AR/VR领域。对于普通用户来说,3D内容的创作门槛很高,并不容易欣赏或者消费。我们评估后认为视频生成将是一个有竞争力的市场,视频内容更接近实际应用场景,更容易被用户消费,也更贴近我们对内容生成的最终目标。


此外,我们也对团队在视频方面的技术储备有信心,我自己有语言模型的背景,算是最早一批做大语言模型的人,对语言模型有深入的了解。关于如何scale up,如何从数据到模型层面进行优化,扩大模型规模,我们都有相应的技术储备。


新皮层: 这个转变有特定的契机吗?是否受到市场上的某个产品或模型启发?


缪亦舒: 我们并没有被某个具体事件触发,而是在3D内容渲染到视频的过程中意识到,如果有足够强大的视频生成模型,我们就不需要3D模型了。我们的研究也证明了,3D和2D的视频在本质上是可以互相转换的。此外,我们也看到了市面上同类产品的生成效果,我们觉得自己可以做得更好。


新皮层: 3D生成和视频生成背后的技术是否相同?


缪亦舒: 两种技术背后的路线都与Diffusion Model (扩散模型) 相关,但侧重点不同。视频生成技术需要构建更大的模型,这是不可避免的。而3D技术不一定需要如此大的模型规模,3D模型的参数还没有到瓶颈。不过两种技术在本质上存在相通之处,早期的视频生成技术和3D技术的相关性更高,但现在随着视频生成技术的快速发展,两种技术已经有很大不同了。


新皮层: Haiper目前已经有了一些商业合作案例,比如京东和伦敦艺术大学。你们与这些组织的合作主要是什么形式?


缪亦舒: 首先,我认为生成式AI最大的潜力还是在C端。为企业定制相对闭源的模型是一个可以突破的市场,但目前还不够成熟,原因在于它涉及一系列的流程和挑战,并不像LLM (大语言模型) 那样直接。我们目前主要通过API的形式提供服务。


新皮层: 你们的客户既有电商,也有大学,看起来很分散,到底什么样的行业才是你们的目标客户?


缪亦舒: 我们在选择合作伙伴的行业时会有所挑选,但目前更多还是在广泛探索、强调广度的阶段。我们希望和不同行业接触,探索我们的模型在哪些领域能够发挥作用。最终,我们的合作对象可能会逐渐收敛到特定的行业,但这个过程并不是事先规划的,而是通过不断地探索和磨合形成的。


本文来自微信公众号: 新皮层NewNewThing ,作者:何昕晔、邢梦妮,编辑:吴洋洋

随意打赏

提交建议
微信扫一扫,分享给好友吧。