SketchVideo是什么
SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的与编辑框架。在关键帧上绘制草图,结合文本提示,实现对视频的空间布局和运动的精细控制。框架基于 DiT 视频生成模型,设计高效的草图控制网络,包含草图控制块和帧间注意力机制,能将稀疏的关键帧草图条件传播到所有视频帧中。SketchVideo 支持对真实或合成视频的细粒度编辑,基于视频插入模块和潜在融合技术,确保新内容与原始视频在空间和时间上的一致性,保留未编辑区域的细节。
SketchVideo的主要功能
- 视频生成:基于草图和文本生成视频。
- 视频编辑:在关键帧上画草图修改视频内容。
- 动态控制:支持运动插值和外推。
- 细节保留:编辑时保留未修改区域的细节。
- 高效生成:内存优化,快速生成高质量视频。
SketchVideo的技术原理
- 草图条件网络:基于DiT(Diffusion-based Transformer)视频生成模型,设计专门的草图条件网络。草图条件网络包含多个草图控制块,预测跳过的DiT块的残差特征。草图控制块均匀分布在DiT块中,在不同层次的特征中注入控制信号。
- 帧间注意力机制:基于帧间注意力机制,将关键帧上的草图条件传播到所有视频帧。计算所有帧的隐藏特征与控制帧的隐藏特征之间的关系,实现对草图特征的时空传播。
- 视频插入模块:在视频编辑任务中,设计视频插入模块,分析输入草图与原始视频之间的关系。模块生成与原始视频空间和时间上一致的新内容,确保编辑后的视频与原始视频无缝融合。
- 潜在融合技术:在推理过程中,基于DDIM(Denoising Diffusion Implicit Models)反演生成输入视频的噪声潜在码。在未编辑区域替换这些潜在码,保留原始视频的细节,确保编辑后的视频在视觉上自然、连贯。
- 混合训练策略:基于混合训练策略,结合图像和视频数据进行训练。在训练的第一阶段,用图像和视频数据,加速收敛并解决视频数据有限的问题。在第二阶段,用视频数据,进一步优化时间连贯性。
SketchVideo的项目地址
- 项目官网:http://geometrylearning.com/SketchVideo
- GitHub仓库:https://github.com/IGLICT/SketchVideo
- arXiv技术论文:https://arxiv.org/pdf/2503.23284
SketchVideo的应用场景
- 影视与广告:快速生成创意视频和特效预览,优化制作流程,节省时间和成本。
- 教育与培训:辅助制作教学视频和培训材料,提升教学效果。
- 游戏开发:快速生成关卡预览和角色动画,提高开发效率。
- 个人创作:轻松创作个性化短视频,降低创作门槛。
- 建筑设计:生成建筑和室内设计的动态预览,增强客户沟通。