「这可能是你现在能用上的,最好的文生视频产品」
AI 生成视频这件事因为 Sora 的出现而被吊足了胃口。但因为迟迟没有多少人真的能用上,也没有足够好却易用的同类产品在之后出现,这股新鲜劲好像在最初的一鼓作气之后,又慢慢泄了。
直到最近一位一直关注文生视频产品的朋友拉我进了一个视频创作者的群聊。
这里甚至有 Sora 刚出来时候的那股兴奋劲,这个人数迅速扩张的创作者群里,每天有各种新生成的视频被不同的创作者陆续扔进来。一段疯狂麦克斯的飙车戏、一个关于健身者的采访,甚至是一段「一个男人叫小帅」的电影剪辑恶搞——你能感觉到那种巨大的热情。
——以及这种创作热情和创意能够通过一个产品被高完成度的表达出来时,创作者们的满足感。
「用一句简单而高级的话评价:这已经不像 AI 画的了。」
这个突然地让所有人兴奋起来的文生视频产品叫「可灵」,来自快手的研发团队。而国内在 AI 视频生成这件事上,好像终于真的来了一个值得注意的玩家。
01 幸运的人开始「整活」,还有一大堆排队的
我想先给你们看看,我看到了什么。
实话说,目前的 AI 能力已经可以满足一般的宏大场景生成(不要太计较的话),但人物特写往往是个大部分产品不会去碰的雷区。
原因首先是 AI 的生成能力往往对物体边缘的呈现效果不好(比如手指尖、弯曲的手肘、发丝)。
再者,我们对自己了解的东西总是分外苛刻,画面里人物的表情有一点点不自然,或者皮肤的质地有微弱的失真,就很容易被发现。展示 AI 生成能力,如无必要不用这么搬起石头砸自己的脚。
但有一说一,我看了一遍视频,又退出来看了一遍内容描述,才确定——这真不是真人拍摄......
发丝被风吹动的反应,红色长袍在边缘处的摆动,画面中女人的神情,塑造出了一个非常接近真实场景的氛围。
也是类似的沙漠场景,另一位创作者把视频主角换成了一辆车,灵感是疯狂麦克斯。
沙漠场面在文生视频的演示里屡见不鲜,画面大差不差的情况下,差别就在细节处了。
对扬沙的表现让人印象深刻。
视频里的皮卡从多个「机位」驶过,车、道路和路边的房屋都可以算是主角,扬沙却是内容创作者最难用 Prompt 照顾到的东西,换句话说,扬沙的表现一定程度上表现了「可灵」自身的素质。
这个视频里对侧拍或正面视角时候车背后的扬沙,以及赛车手下车时靴子周围的烟尘. 都已经非常逼真。一辆快报废的雪佛兰 El Camino SS 真的进到沙漠,身后大概也就是这副样子了。
还有很多。比如另一个采茶的片段。
无论是远景时对茶树细节的展现,还是特写时茶叶边缘和采茶老人手指边缘的处理表现都可以算是优异。
实话实说,当 AI 离开沙漠飙车这种猎奇的场景,开始安静下来展现你生活周围最熟悉的场景,这感觉反而更让人有点不寒而栗。
不过天马行空的创作者对「可灵」的期待远不止于此。
一位创作者尝试用「可灵」来实现一个无限场景之间的穿梭。
也有脑洞大的创作者尝试用「可灵」来做「这个男人叫小帅」风格的电影剪辑视频。
怎么说呢,一年前好莱坞的编剧们开始下定决心未来要与 AI 一同工作,转眼一年后搞电影二创从业者们也要开始习惯与 AI 同行了。
作品中的剧情足够跌宕起伏,不同镜头之间的转场又足够丝滑,放在真实的影视作品二创作品中足以乱真。而更诡异的地方在于,这种电影剪辑视频,甚至只需要一个脚本,而不需要有一部完整的电影在前。
并且至少现在看来,已经有人可以用「可灵」生成非常有电影质感的短片了。
或许等 AI 的生成能力再上一个台阶,以后扔给他一个 3 分钟的电影剪辑视频或者短片,它能够还给你一部完整的电影?
扯远了... 但至少现在「可灵」已经足够让人兴奋,并且谁也不知道它目前的上限在哪里。甚至创作者们自发的组织了一个文档,以便在各个维度对「可灵」做新的尝试和交流。
虽然粗暴,但交通事故、打架确实是测试模型对复杂事件、多人交互下物理表现的足够有说服力的场景......
「可灵」对人物群像和雨天的结合场景,表现的也不错。
这个测试视频让人印象很深。见惯了 Prompt 指哪儿打哪儿,但少见让 AI 去扮演第三人称的角色,在非标准视角下去构建一个画中画的场景。
不过后来我才知道,聚在这个群里的是最幸运的一群人。因为他们中的大多数人最早拿到了内测机会——甚至好多人把排队排到了社交平台 X 上。
「如何获得它!」
一位 Youtube 作品观看次数达到 5 亿次的视频制作人在 X 上「大声疾呼」。
X 用户 @Proper 甚至为了能拿到「可灵」的内测机会,用别的文生图产品做了一张「为了用『可灵』我愿意做任何事」的海报。
也倒不奇怪,「可灵」在 6 月 6 日上线之后,很快就因为惊艳的素质进入了大量关注文生视频产品的人的视线,比如 YC 创始人 Garry Tan。
在 X 上非常活跃的 Garry Tan 前几天转发了一个几秒钟的视频——一个戴眼镜的小男孩正在大口吃着汉堡,大口咬下去的时候眼睛会用力的闭起来,再睁开眼的时候,已经咬的满嘴都是。
「Oh man this is me.(天哪,这就是我!)」
Garry Tan 被这个视频惊艳到了,而这个作品就是由「可灵」生成的。
事实上,「可灵」上线到现在,已经在海外吸引了创作者关注。目前推特平台上单篇帖子阅读量已经超过 600 万,点赞 1 万+;youtube 视频最高播放量 2.6 万次。
这样一个在国内和海外难得的获得了共识的文生视频产品,背后是什么?
02「可灵」是如何长成的?
对于快手的研发团队来说,要在这场文生视频的产品竞争中脱颖而出,意味着「可灵」需要摆脱图像生成+时序模块的组合,走向一条更原生的文生视频路线,这又进一步变成了三个需要寻找的核心答案:
一条合适的技术路线、训练效率的保证以及如何为「可灵」未来的进化留出成长空间。
在技术路线上,「可灵」大模型采用了类 Sora 的 DiT 结构,这是一种将 Transformer 技术应用于扩散过程的新型架构。在传统的扩散模型中,U-Net 通常基于卷积网络构建,而「可灵」则用 Transformer 替代了这一部分,这一改变带来了几个显著的技术优势。
首先,Transformer 架构因其自注意力机制,能够更灵活地处理长距离依赖关系,这使得「可灵」在处理复杂数据结构时,如视频和图像序列,具有更强的表达能力。其次,与 U-Net 相比,Transformer 提供了更好的扩展性,允许模型更高效地处理大规模数据集,同时提高了模型的收敛速度。
此外,「可灵」大模型还对隐空间编/解码和时序建模进行了优化。通过 3D VAE 网络,模型实现了对视频数据的时空压缩,减少了信息冗余,同时保持了较高的重建质量。而全注意力机制的引入,进一步提升了模型对复杂时空动态的捕捉能力,确保了在保持计算效率的同时,增强了模型的预测和生成性能。
「可灵」对扬沙、水流的理解正得益于这种自研模型架构及 Scaling Law 所带来的强大建模能力。
在追求训练效率的过程中,「可灵」大模型并未遵循行业普遍采用的 DDPM(Denoising Diffusion Probabilistic Models)方案,而是选择了 flow 模型作为其扩散模型的基础。这种模型拥有更简洁的传输路径,从而提高了运算效率。
快手大模型团队通过使用分布式训练集群,结合算子优化和重算策略的改进,显著提升了硬件的利用率。这种优化策略不仅提升了训练效率,还使得资源得到了更加合理的分配。
而在训练策略上,「可灵」大模型采取了分阶段的方法来逐步提高输出的分辨率。在训练的初级阶段,模型侧重于通过大量数据来增强对概念多样性的理解,这一阶段的目标是通过数量来提升模型的学习和建模能力。
随着训练的深入,进入高分辨率阶段,数据的质量变得尤为关键。在这一阶段,模型的训练重点转向提升性能和增强细节表现,以确保生成的图像或视频在细节上更加丰富和精确。
通过这种分阶段的训练策略,「可灵」大模型能够在训练的每个阶段都实现优化和提升,有效结合了数据量和数据质的优势。
而由于目前的「可灵」大模型仍在一个早期的阶段,因此模型训练中的另一个难点是需要为「可灵」留出足够的成长空间,也就是足够的扩展性来应对未来更复杂的需求。
快手大模型团队在基础模型研发的基础上,进一步扩展了其多维度能力,其中长宽比的处理是关键之一。
不同于主流模型通常在固定分辨率上进行训练,「可灵」采用了一种更为灵活的方法。这种方法避免了传统训练方式中因前处理逻辑而对原始数据构图造成的破坏,从而在处理真实世界中多变的长宽比数据时,能够保留数据的原始构图,生成更优质的构图结果。
为了满足未来对视频生成时长的需求,团队还开发了一种基于自回归的视频时序拓展方案。这一方案能够应对数分钟甚至更长的视频内容生成,同时保持生成效果的稳定性,避免出现明显的质量退化。
此外,「可灵」不仅限于文本输入,它还支持多种控制信息的输入,包括相机运镜、帧率、边缘、关键点、深度等。这些控制信息的引入,极大地丰富了用户对生成内容的控制能力,使得「可灵」能够更加精准地响应用户的创作意图,生成符合预期的视频内容。
「可灵」有别于其他文生视频产品的地方,是背后快手的研发团队在模型研发过程中有一个明确的用户视角。
用户在可见的未来会对一款文生视频产品有哪些使用上的需求和习惯,这一定程度上决定了「可灵」的成长路线。这也是为什么「可灵」在第一个版本的体验上就显得趁手,引起巨大的使用热情。
而快手做 AI 产品的决心,就藏在这番创作者的热闹里。
03 快手的决心
「即使遇到各种各样的问题,可灵仍然是目前普通人能用到的,最好的 AI 视频产品」——这是相当一部分人在上手可灵之后的评价。
这听上去很矛盾,但话里却显示着目前文生视频产品普遍存在的问题。
随着 Sora 掀起生成式 AI 从文生图向文生视频转向,大量类 Sora 产品涌现。一番景象看起来很美,但落到实处,从模型对文字的理解能力、对物理规律的理解能力,到视频的生产效率,甚至像空头支票一样的内测通过周期都会成为问题。文生视频这个热闹的赛道,在几个月后逐渐变成一场在发布会与 PPT 层面对标 Sora 的盛宴,却在实际使用体验上荒芜一片。
甚至 Sora 本身也没有逃离这个问题——人人都在为 Sora 叫好,却几乎无人用过 Sora。
在第一批「可灵」的使用者中,另一个值得一提的是傅盛用「可灵」直接「复刻」Sora 气球人的视频,从最终视频的效果来看,「可灵」的复刻版本在一些细节上离 Sora 放出的宣传片仍有差距,但至少你已经可以花几十分钟用「可灵」搓出这个还不够完美的版本,而 Sora 的气球人到现在仍然只是一个宣传片。
目前「可灵」文生视频模型已经在快影 APP 中正式开启邀测,目前开放的版本支持 720P 视频生成,竖版视频生成能力也即将开放。除了文生视频,快手还基于可灵大模型推出了其他应用,如「AI 舞王」已在快手和快影 APP 中上线。
保证模型在一定水准之上,然后尽可能让大家先玩起来——这或许是「可灵」与同类型产品之间在体验上最大的差异点。
6 月 6 日,快手首次向外界释出了「可灵」AI 视频大模型。当天是快手 13 岁的生日,这足见快手对「可灵」的看重。
让所有人先玩起来,则是务实的快手在 13 年后面对这场全新的 AI 变革时所下的决心。
*头图来源:可灵 AI
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO