FramePack是什么
FramePack 是斯坦福大学推出用在视频生成的技术。基于压缩输入帧的上下文长度,解决视频生成中的“遗忘”和“漂移”问题,让模型能高效处理大量帧,保持较低的计算复杂度。FramePack 仅需 6GB 显存在普通笔记本电脑上运行,支持实时生成高清视频,基于抗漂移采样技术保证视频稳定性和连贯性。FramePack提供灵活的调度策略,适用于多种应用场景,降低 AI 视频生成的硬件门槛,推动视频生成技术的平民化。
FramePack的主要功能
- 低显存需求:仅需6GB显存即可运行,适合在笔记本电脑GPU上使用。
- 高效的帧生成能力:基于13B模型30fps的帧率生成数千帧视频。
- 快速生成:个人RTX 4090显卡的生成速度为2.5秒/帧(未优化)或1.5秒/帧(优化后)。
FramePack的技术原理
- 帧上下文打包:基于改变 Transformer 的 Patchify(分块)核大小,对不同重要性的帧进行不同程度的压缩。关键帧保留更多细节(如 1536 个 token),次要帧则大幅压缩(如 192 个 token),在保持重要信息的同时大幅减少显存占用。帧的重要性根据其与目标帧的时间距离来判断,越接近目标帧的输入帧被认为越重要。
- 抗漂移采样:引入双向记忆法,让模型在生成当前帧时既能参考最近的帧,也能回溯到初始帧的核心特征,避免漂移。
- 灵活的调度策略:
- 几何压缩:按照几何级数对帧进行压缩,适合实时生成场景。
- 首帧优先:在图生视频任务中,优先保留首帧的细节,确保生成的视频起点高质量。
- 对称压缩:对所有帧进行均衡处理,适合需要稳定连贯的视频生成场景。
- 计算复杂度恒定:基于上述压缩和调度策略,FramePack 实现计算复杂度的恒定化,无论生成多少帧,计算资源消耗保持不变。让模型能高效处理长视频生成任务,不会因帧数增加显著降低速度。
FramePack的项目地址
- 项目官网:https://lllyasviel.github.io/frame_pack_gitpage/
- GitHub仓库:https://github.com/lllyasviel/FramePack
- arXiv技术论文:https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf
FramePack的应用场景
- 短视频与动画制作:快速生成连贯动画,降低创作成本。
- 游戏开发:实时生成过场动画和动态场景,提升沉浸感。
- 教育与培训:生成教学视频和虚拟培训场景,增强学习体验。
- 广告与营销:制作个性化视频广告和产品演示,提升吸引力。
- 消费级应用:用户生成个性化视频内容,用在娱乐和社交媒体分享。