我要投稿

SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架

AI老司机 AI行业动态

2025-05-20 0 994

SketchVideo是什么

SketchVideo 是中国科学院大学，香港科技大学和快手可灵团队推出的基于草图的与编辑框架。在关键帧上绘制草图，结合文本提示，实现对视频的空间布局和运动的精细控制。框架基于 DiT 视频生成模型，设计高效的草图控制网络，包含草图控制块和帧间注意力机制，能将稀疏的关键帧草图条件传播到所有视频帧中。SketchVideo 支持对真实或合成视频的细粒度编辑，基于视频插入模块和潜在融合技术，确保新内容与原始视频在空间和时间上的一致性，保留未编辑区域的细节。

SketchVideo的主要功能

视频生成：基于草图和文本生成视频。
视频编辑：在关键帧上画草图修改视频内容。
动态控制：支持运动插值和外推。
细节保留：编辑时保留未修改区域的细节。
高效生成：内存优化，快速生成高质量视频。

SketchVideo的技术原理

草图条件网络：基于DiT（Diffusion-based Transformer）视频生成模型，设计专门的草图条件网络。草图条件网络包含多个草图控制块，预测跳过的DiT块的残差特征。草图控制块均匀分布在DiT块中，在不同层次的特征中注入控制信号。
帧间注意力机制：基于帧间注意力机制，将关键帧上的草图条件传播到所有视频帧。计算所有帧的隐藏特征与控制帧的隐藏特征之间的关系，实现对草图特征的时空传播。
视频插入模块：在视频编辑任务中，设计视频插入模块，分析输入草图与原始视频之间的关系。模块生成与原始视频空间和时间上一致的新内容，确保编辑后的视频与原始视频无缝融合。
潜在融合技术：在推理过程中，基于DDIM（Denoising Diffusion Implicit Models）反演生成输入视频的噪声潜在码。在未编辑区域替换这些潜在码，保留原始视频的细节，确保编辑后的视频在视觉上自然、连贯。
混合训练策略：基于混合训练策略，结合图像和视频数据进行训练。在训练的第一阶段，用图像和视频数据，加速收敛并解决视频数据有限的问题。在第二阶段，用视频数据，进一步优化时间连贯性。

SketchVideo的项目地址

项目官网：http://geometrylearning.com/SketchVideo
GitHub仓库：https://github.com/IGLICT/SketchVideo
arXiv技术论文：https://arxiv.org/pdf/2503.23284

SketchVideo的应用场景

影视与广告：快速生成创意视频和特效预览，优化制作流程，节省时间和成本。
教育与培训：辅助制作教学视频和培训材料，提升教学效果。
游戏开发：快速生成关卡预览和角色动画，提高开发效率。
个人创作：轻松创作个性化短视频，降低创作门槛。
建筑设计：生成建筑和室内设计的动态预览，增强客户沟通。

收藏点赞 (0)

若非本站原创的文章，特别作如下声明：
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

AI老司机 AI行业动态 SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架 https://www.ailsj.cn/624.html