昆仑万维开源SkyReels
4月21日,昆仑万维旗下SkyReels团队今日正式发布并开源了视频生成模型SkyReels-V2,该模型被团队称为全球首个采用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。通过集成多模态大语言模型、多阶段预训练、强化学习和扩散强迫等技术,SkyReels-V2在提示词遵循、视觉质量、运动动态以及视频时长等方面实现了显著突破。
据介绍,当前业界视频生成技术尽管已取得长足进展,但仍面临多项挑战:在保证高质量视觉呈现的同时往往牺牲运动流畅度,为实现高分辨率而限制视频时长,且由于现有多模态大模型对电影语法理解不足,导致缺乏专业镜头感知生成能力。针对这些痛点,SkyReels-V2展现出独特优势,目前已支持生成30-40秒的高运动质量、高一致性、高保真视频。
技术层面,SkyReels-V2整合了多项创新方案:团队开发的SkyCaptioner-V1视频理解模型能够识别视频中的主体、表情和动作等信息,并通过人工标注和模型训练提升镜头语言理解;针对运动质量优化,团队采用强化学习训练,设计半自动数据收集管道高效生成偏好对比数据;为实现长视频生成,研发团队提出扩散强迫后训练方法,通过非递减噪声时间表将连续帧的去噪时间表搜索空间大幅降低。
在评估方面,昆仑万维团队构建了SkyReels-Bench测评基准并利用开源V-Bench进行自动化评估。结果显示,在VBench1.0评估中,SkyReels-V2总分达83.9%,质量分达84.7%,超过包括华为轩辕视频模型在内的所有对比模型。
应用场景上,SkyReels-V2支持四大核心功能:基于滑动窗口方法的理论无限时长故事视频生成;两种图像到视频合成方案,分别为微调全序列T2V扩散模型和扩散强迫模型与帧条件结合;通过专门筛选百万级样本优化的摄像导演功能;以及基于SkyReels-V2基座模型研发的SkyReels-A2多元素到视频生成方案。
值得一提的是,昆仑万维SkyReels团队已将SkyCaptioner-V1和SkyReels-V2系列模型(包括1.3B、5B、14B多种尺寸)全部开源,涵盖扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频等模型,以促进学术界和产业界进一步探索视频生成技术的应用前景。
【来源: 凤凰网 科技 】