谷歌 AI 生成视频两连发：720p 高清 + 长镜头，网友：对短视频行业冲击太大

砍柴网 • 2年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

来源：量子位

内容生成 AI 进入视频时代！

Meta 发布「用嘴做视频」仅一周，谷歌 CEO 劈柴哥接连派出 两名选手 上场竞争。

谷歌 AI 生成视频两连发：720p 高清 + 长镜头，网友：对短视频行业冲击太大

第一位 Imagen Video 与 Meta 的 Make-A-Video 相比突出一个高清，能生成 1280*768 分辨率、每秒 24 帧的视频片段。

谷歌 AI 生成视频两连发：720p 高清 + 长镜头，网友：对短视频行业冲击太大

另一位选手 Phenaki ，则能根据 200 个词左右的提示语生成 2 分钟以上的长镜头 ，讲述一个完整的故事。

谷歌 AI 生成视频两连发：720p 高清 + 长镜头，网友：对短视频行业冲击太大

网友看过后表示，这一切进展实在太快了。

也有网友认为，这种技术一旦成熟，会冲击短视频行业。

那么，两个 AI 具体有什么能力和特点，我们分别来看。

Imagen Video：理解艺术风格与 3D 结构

Imagen Video 同样基于最近大火的扩散模型，直接继承自 5 月份的图像生成 SOTA 模型 Imagen。

除了分辨率高以外，还展示出三种特别能力。

首先它能理解并生成不同艺术风格的作品，如 " 水彩画 " 或者 " 像素画 "，或者直接 " 梵高风格 "。

它还能理解物体的 3D 结构，在旋转展示中不会变形。

最后它还继承了 Imagen 准确描绘文字的能力，在此基础上仅靠简单描述产生各种创意动画，

这效果，直接当成一个视频的片头不过分吧？

除了应用效果出色以外，研究人员表示其中用到的一些优化技巧不光对视频生成有效，可以泛化至一般扩散模型。

具体来说，Imagen Video 是一系列模型的集合。

语言模型部分是谷歌自家的 T5-XXL ，训练好后冻结住文本编码器部分。

与负责从文本特征映射到图像特征的 CLIP 相比，有一个关键不同：

语言模型只负责编码文本特征，把文本到图像转换的工作丢给了后面的视频扩散模型。

基础模型，在生成图像的基础上以自回归方式不断预测下一帧，首先生成一个 48*24、每秒 3 帧的视频。

接下来，一系列空间超分辨率（Spatial Super-Resolution）与时间超分辨率（Temporal Super-Resolution）模型接连对视频做扩展处理。

所有 7 种扩散模型都使用了 v-prediction parameterization 方法，与传统方法相比在视频场景中可以避免颜色偏移。

这种方法扩展到一般扩散模型，还使样本质量指标的收敛速度更快。

此外还有 渐进式蒸馏 （Progressive Distillation），将每次迭代所需的采样步骤减半，大大节省显存消耗。

这些优化技巧加起来，终于使生成高清视频成为可能。

Phenaki：人人都能是 " 导演 "

Phenaki 的论文投了 ICLR 2023 会议，在一周前 Meta 发布 Make-a-video 的时候还是匿名双盲评审状态。

如今信息公开，原来研究团队同样来自谷歌。

在公开的信息中，Phenaki 展示了它交互生成视频的能力，可以任意切换视频的整体风格：高清视频 / 卡通，还能够切换任意场景。

还可以向 Phenaki 输入一个初始帧以及一个提示，便能生成一段视频。

这都还是开胃小菜，Phenaki 真正的大招是： 讲故事 ，它能够生成 2 分钟以上的长视频，通过输入长达 200 多个字符的系列提示来得到。

（那有了这个模型，岂不是人人都能当导演了？手动狗头）

从文本提示到视频， 计算成本高、高质量文本视频数据数量有限以及视频长度可变 一直以来都是此类模型发展的难题。

以往的大多数 AI 模型都是通过单一的提示来生成视频，但若要生成一个长时间并且连贯的视频这远远不够。

而 Phenaki 则能生成 2 分钟以上的视频，并且还 具备故事情节 ，这主要归功于它能够根据 一系列的提示 来生成视频的能力。

具体来说，研究人员引入了一个新的因果模型来学习表示视频： 将视频视作图像的一个时间序列。

这个模型基于 transformer，可以将视频分解成离散的小表示，而分解视频则是按照时间的因果顺序来进行的。

再讲通俗一点，就是通过空间 transformer 将单个提示进行编码，随后再用因果 transformer 将多个编码好的提示串联起来。

一个提示生成一段视频，这样一来，视频序列便可以沿着提示中描述的时间序列将整个 " 故事 " 串在一起。

因为将视频压缩为离散的图像序列，这样也大大减少了 AI 处理标记视频的数量，在一定程度上降低了模型的训练成本。

提到模型训练，和大型图像系统一样，Phenaki 也主要使用文本 - 图像数据进行训练，此外，研究人员还用 1.4 秒，帧率 8FPS 的短视频文本对 Phenaki 进行训练。

仅仅通过对大量图像文本对以及少量视频文本例子进行联合训练，便能达到突破视频数据集的效果。

Imagen Video 和 Phenaki，谷歌接连放出大招，从文本到视频的 AI 发展势头迅猛。

值得一提的是，Imagen Video 一作表示，两个团队将合作进行下一步研究。

嗯，有的网友已经等不及了。

One More Thing

出于安全和伦理的考虑，谷歌暂时不会发布两个视频生成模型的代码或 Demo。

不过既然发了论文，出现开源复刻版本也只是时间问题。

毕竟当初 Imagen 论文出来没几个月，GitHub 上就出现了 Pytorch 版本。

另外 Stable Diffusion 背后的 StabilityAI 创始人兼 CEO 也说过，将发布比 Meta 的 Make-A-Video 更好的模型，而且是大家都能用上的那种。

当然，每次 AI 有了新进展后都会不可避免地碰到那个话题—— AI 会不会取代人类。

目前来说，一位影视行业的工作者表示还不到时候：

老实说，作为一个在电影行业工作了十年的人，这个话题令人沮丧。

在他看来，当前的视频生成 AI 在外行看起来已经足够惊艳，不过业内人士会认为 AI 还缺乏对每一个镜头的精细控制。

对于这个话题，StabilityAI 新任首席信息官 Daniel Jeffries 此前撰文表示，AI 最终会带来更多的工作岗位。

如相机的发明虽然取代了大部分肖像画家，但也创造了摄影师，还开辟了电影和电视这样的全新产业。

5 年后再回看的话， 反对 AI 就像现在反对 Photoshop 一样奇怪 ，AI 只不过是另一个工具。

Jeffries 称未来是环境人工智能（Ambient AI）的时代，各个行业、各个领域都会在人工智能的加持下进行发展。

不过现在我们需要的是一个更开放的人工智能环境，也就是说：开源！

本文被转载1次

首发媒体

砍柴网

| 转发媒体

随意打赏

谷歌2.5亿美元收购部分HTC XR业务

i黑马 • 53秒前

1月23日消息，HTC宣布与Google LLC签署协议，谷歌将向HTC支付2.5亿美元交易价金，部分HTC的XR研发团队成员将加入谷歌，预计交易将于2025年第一季度完成。在此次协议中，HTC的XR知识产权非专属授权（IP）将授予谷歌使用，助力谷歌发展Android XR平台。2017年，谷歌曾以11亿美元收购了
印度“施压”苹果和谷歌，要求App Store上架政府应用平台

i黑马 • 10分钟前

据财联社，知情人士透露，印度科技部上个月召集了苹果、谷歌和其他智能手机制造商的高管，要求它们为印度用户提供直接访问政府应用的渠道。印度科技部的目标是希望通过科技扩大公共福利服务的覆盖面。官员们表示，他们还希望这些国家支持的应用能预装在新设备上，并能通过第三方下载，而不会触发“未知来源”等警告。文章评价匿名用户发布发布
谷歌发布Geimini2.0，开启Agent新时代

雷锋网 • 22小时前

Open AI连续几天上新，谷歌也不甘示弱。今天谷歌深夜炸群，重磅发布了杀手锏——Gemini2.0，声称“Gemini2.0 是我们迄今为止最新、功能最强大的 AI 模型。”其最大的亮点是Gemini2.0 是第一家实现原生多模态输入输出的模型。基于强大的新模型，谷歌又推出了三个AI agent产品，通用大模型助手P
谷歌向人工智能公司Anthropic再投资10亿美元

i黑马 • 23小时前

Alphabet Inc．旗下谷歌向人工智能AI开发商Anthropic进一步投入10亿美元，提高对这家颇有前途与OpenAI一较高下公司的持股。一位知情人士透露了这一消息，此前谷歌已经投资超过20亿美元。谷歌与Anthropic签订了一份商业协议，涵盖使用一套在线工具和服务。亚马逊是这家公司最大支持者之一。文章评价匿
谷歌因垄断行为在印尼被罚1200万美元

i黑马 • 1天前

印尼反垄断监督机构（KPPU）1月22日声明称，对谷歌公司处以2025亿印尼盾（约合1240万美元）的罚款，原因是其在Google Play中存在垄断行为。声明称，谷歌要求应用程序使用其Google Play计费系统，这违反了印尼的反垄断法。文章评价匿名用户发布发布
首家全链路支持杜比视界短视频平台，快手×杜比实验室达成合作

砍柴网 • 1分钟前

1 月 22 日消息，杜比实验室官方昨日发文宣布，与快手 App 达成深度合作，后者成为首家全链路支持杜比视界的短视频平台。据介绍，iOS 用户可在快手 App 内拍摄、编辑、分享及观看杜比视界格式视频；安卓用户使用支持杜比视界的手机，可在快手 App 分享及观看杜比视界格式视频。
谷歌母公司总裁：美国AI难保证对华领先，有些方面甚至落后

砍柴网 • 2天前

波拉特北京时间1月22日，据彭博社报道，谷歌母公司Alphabet总裁兼首席投资官鲁斯·波拉特(Ruth Porat)周二表示，在人工智能(AI)开发竞赛中，美国未必能保证维持对中国的领先优势。波拉特周二在达沃斯世界经济论坛的间隙接受了彭博社的采访。“
马斯克瞄准美国TikTok用户：X平台推出短视频信息流

i黑马 • 1天前

据了解，就在TikTok恢复美国服务的同时，X平台宣布上线短视频信息流服务。公司表示，正在面向美国用户推出一种新的“沉浸式视频之家”。在更新后的软件里，美国用户将在应用程序底部菜单栏里，看到一个新增的视频标签，点击后就能进入短视频信息流。与TikTok等短视频应用一样，用户可以上滑屏幕翻阅系统推荐的其他短视频。文章评价
谷歌安卓 16 发布时间表出炉：本月发首个Beta更新，稳定版Q2发布

砍柴网 • 4天前

1 月 20 日消息，消息源 Assemble Debug 昨日（1 月 19 日）发布博文，报道称一位谷歌员工在 Android Gerrit 上发布评论，透露安卓 16 前三个 Beta 版本将分别在一月、二月和三月推出。IT之家援引博文介绍，附上安卓 16 Beta 版本时间表如下：一月：第一
“AI界的谷歌”想搞一把大的？Perplexity提议与TikTok美国合并

虎嗅网 • 4天前

虎嗅注：据财联社消息，在当地时间1月18日晚通知美国用户将暂停服务后，目前TikTok应用程序已在苹果和谷歌应用商店下架。用户在登录TikTok时会被提示，“TikTok目前已不可用。”据悉，TikTok美国业务的主要云计算供应商甲骨文公司已告知员工于美国东部时间1月18日21时关闭托管TikTo
平板效率神器：谷歌安卓16三应用分屏模式已在路上

砍柴网 • 6天前

1 月 17 日消息，科技媒体 Android Authority 于 1 月 15 日发布博文，报道称谷歌计划在安卓 16 系统中升级分屏模式，支持同时运行 3 款应用程序。该媒体深入挖掘安卓 16 的第 2 个开发者预览版，可能受一加 Open Canvas 启发，升级
全球量子科技竞赛加速升温，谷歌/IBM/微美全息竞相布局技术路径“百花齐放”

砍柴网 • 6天前

作为全球科技领域的研究热点，量子计算的基本计算单元为量子比特，与经典计算机中的比特具有相同的功能，即存储与处理数据，因其强大的计算能力，在攻克复杂计算难题上展现出经典计算机难以企及的优势。量子科技竞赛活跃截止目前，量子计算已被视为人类科技发展的下一个重要突破口，实现了从0到1的巨大
短视频改变大脑

虎嗅网 • 6天前

几年前写过这个话题，这不最近看到一个新闻，英国澳大利亚等国已经通过法律，禁止了15岁以下未成年人使用社交软件，如果父母给他们用，连父母一起处罚。所以决定重新聊下短视频对大脑影响这事。之前出差在机场随便买了本书，也就是那本《掌控习惯》，本来没指望啥，没想到有些内容还挺受用。里边讲的很多东西之前我也有点体会，经作者一说更加
FastMoss发布2024年TikTok短视频生态白皮书，美区黑五单日约1.3亿美金，短视频电商在全球突飞猛进

砍柴网 • 15天前

2024年是TikTok Shop在全球电商破浪前行的一年。在FastMoss发布的《2024年度TikTok生态发展白皮书》(以下简称白皮书)中,我们不仅基于FastMoss平台数据进行了深入分析,也是国内首家专访到TikTok短视频生态TOP级品牌、达人的白皮书,我们与TikTok美区头部带货达人Angie Rom
AIPGPT 完成数百万美元融资，深耕 AI Agent+IP 短视频垂类，开启全球战略

砍柴网 • 27天前

近日，AI Agent 应用型创业公司 AIP GROUP 宣布完成天使轮融资，融资金额数百万美元，由算力基金 Coevolution 独家投资。AIP GROUP 旗下产品 AIPGPT 为 AI 驱动的一站式 IP 短视频创作平台，自上线后已在国内、北美
从痛点到亮点：短视频达人效果广告解决效率难题丨果搜搜发布会

砍柴网 • 1月前

近日来，“A·O引擎，解锁高效增长力——2024 App增长论坛暨果搜搜产品发布”活动不仅吸引了众多业内人士的关注，更成为聚焦移动应用增长策略和创新营销解决方案的探索风向标。作为此次活动的核心发言人之一，创新增长负责人金言带来了关于短视频广告趋势及达人效果广告投放的独到见解和创新经验分享。
广电总局再发管理提示，规范AI“魔改”短视频

i黑马 • 1月前

12月8日消息，广电总局网络视听司发布《管理提示（AI魔改）》指出，近期，AI“魔改”视频以假乱真、“魔改”经典现象频发。如《甄嬛传》变身“枪战片”、《红楼梦》改成“武打戏”、孙悟空骑着摩托车扬长而去等。《管理提示》认为，这些视频为博流量，毫无边界亵渎经典IP，冲击传统文化认知，与原著精神内核相悖，且涉嫌构成侵权行为。
短视频不是文学的敌人

虎嗅网 • 1月前

短视频正在杀死文学读者？爱看网络小说，意味着我们与文学渐行渐远？现代文学，正在走向式微？在《文学的现代中国》节目上新对谈“我们的文学与文学中的我们”中，哈佛大学王德威教授和香港大学许子东教授乐观地表达了他们的看法： “ 我们谁不刷短视频，我们谁不会对这些有趣的现象投予关注？生命本身就应该是很复
周鸿祎：企业家搞流量不是不务正业很多人对短视频有误解

砍柴网 • 2月前

11月21日消息，最近，企业家直播带货的话题引发热议。今晚周鸿祎也发表了自己的看法：很多企业家不一定要做IP，但起码懂得怎么利用短视频，利用直播来延续自己的市场和公关的工作。他解释了自己经常发短视频的缘由，自己虽然在短视频中不修边幅，胡子拉碴，在那“胡说八道”，但并不是不务正业。自己争取流量其实是为企业代言，要推广企业
抽象是短视频在2024的最大主题

虎嗅网 • 2月前

这篇稿子和非洲象无关，头图只是我们在玩抽象。“抽象”，成为今年在短视频平台被用户提及最多的一个词。无论是过去两月先后凭借直播走红的“听泉赏宝”“潘宏爱玩狗”，还是更早时候用抽象打破苦瓜大队形象的小英，2024年涨粉迅速的短视频网红几乎都以抽象为标签，这其中还伴随着以陶喆为代表的一系列明星因早年抽象视频翻红；另

评论