奇客 Google 演示文本视频 AI 模型 Imagen Video

奇客资讯 • 2年前扫码分享

我是创始人李岩：很抱歉！给自己产品做个广告，点击进来看看。

在 Meta 宣布其文本视频 AI 模型 Make-A-Video 之后，Google 演示了自己的同类工具Imagen Video。它能根据书面提示以每秒 24 帧速生成分辨率为 1280×768 的视频。从文本合成图像到文本合成视频过去半年 AI 扩散模型（diffusion models）进步显著。Google 研究人员称，Imagen Video 的视频能表现出不同风格，如根据梵高的作品生成视频。Google 希望通用视频合成模型能显著降低高质量内容生成的难度。Imagen Video 使用 LAION-400M 图像文本数据集，以及1400 万视频文本对和 6000 万图像-文本对进行训练，和 Meta 一样短时间内不会对公众开放使用。