奇客 Google 演示文本视频 AI 模型 Imagen Video
在 Meta 宣布其文本视频 AI 模型 Make-A-Video 之后,Google 演示了自己的同类工具Imagen Video。它能根据书面提示以每秒 24 帧速生成分辨率为 1280×768 的视频。从文本合成图像到文本合成视频过去半年 AI 扩散模型(diffusion models)进步显著。Google 研究人员称,Imagen Video 的视频能表现出不同风格,如根据梵高的作品生成视频。Google 希望通用视频合成模型能显著降低高质量内容生成的难度。Imagen Video 使用 LAION-400M 图像文本数据集,以及1400 万视频文本对和 6000 万图像-文本对进行训练,和 Meta 一样短时间内不会对公众开放使用。