昆仑万维开源SkyReels

砍柴网 • 1天前扫码分享

4月21日，昆仑万维旗下SkyReels团队今日正式发布并开源了视频生成模型SkyReels-V2，该模型被团队称为全球首个采用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型。通过集成多模态大语言模型、多阶段预训练、强化学习和扩散强迫等技术，SkyReels-V2在提示词遵循、视觉质量、运动动态以及视频时长等方面实现了显著突破。

昆仑万维开源SkyReels

据介绍，当前业界视频生成技术尽管已取得长足进展，但仍面临多项挑战：在保证高质量视觉呈现的同时往往牺牲运动流畅度，为实现高分辨率而限制视频时长，且由于现有多模态大模型对电影语法理解不足，导致缺乏专业镜头感知生成能力。针对这些痛点，SkyReels-V2展现出独特优势，目前已支持生成30-40秒的高运动质量、高一致性、高保真视频。

技术层面，SkyReels-V2整合了多项创新方案：团队开发的SkyCaptioner-V1视频理解模型能够识别视频中的主体、表情和动作等信息，并通过人工标注和模型训练提升镜头语言理解；针对运动质量优化，团队采用强化学习训练，设计半自动数据收集管道高效生成偏好对比数据；为实现长视频生成，研发团队提出扩散强迫后训练方法，通过非递减噪声时间表将连续帧的去噪时间表搜索空间大幅降低。

在评估方面，昆仑万维团队构建了SkyReels-Bench测评基准并利用开源V-Bench进行自动化评估。结果显示，在VBench1.0评估中，SkyReels-V2总分达83.9%，质量分达84.7%，超过包括华为轩辕视频模型在内的所有对比模型。

应用场景上，SkyReels-V2支持四大核心功能：基于滑动窗口方法的理论无限时长故事视频生成；两种图像到视频合成方案，分别为微调全序列T2V扩散模型和扩散强迫模型与帧条件结合；通过专门筛选百万级样本优化的摄像导演功能；以及基于SkyReels-V2基座模型研发的SkyReels-A2多元素到视频生成方案。

值得一提的是，昆仑万维SkyReels团队已将SkyCaptioner-V1和SkyReels-V2系列模型（包括1.3B、5B、14B多种尺寸）全部开源，涵盖扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频等模型，以促进学术界和产业界进一步探索视频生成技术的应用前景。

【来源：凤凰网科技】