FlexiAct是什么
FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下,将参考视频中的动作迁移到目标主体上,在空间结构差异较大或跨域的异构场景中,实现精准的动作适配与外观一致性。模型引入轻量级的RefAdapter模块和频率感知动作提取(FAE)模块,解决现有方法在布局、视角和骨架结构差异方面的限制,保持身份一致性。FlexiAct在人物和动物的动作迁移上均表现出色,具有广泛的应用前景。
FlexiAct的主要功能
- 跨主体动作迁移:支持将动作从一个人物迁移到另一个人物,或从人物迁移到动物。
- 保持外观一致性:在迁移动作的同时,确保目标主体的外观(如服装、发型等)与原始目标图像保持一致。
- 灵活的空间结构适配:在参考视频和目标图像在布局、视角和骨架结构上存在差异时,也能实现动作的自然迁移。
FlexiAct的技术原理
- RefAdapter(空间结构适配器):RefAdapter 是轻量级的图像条件适配器,主要作用是解决参考视频和目标图像之间的空间结构差异问题。在训练过程中随机选择视频帧作为条件图像,最大化空间结构的差异性。让模型能适应不同的姿态、布局和视角,同时保持外观一致性。注入少量可训练参数(如LoRA模块),在CogVideoX-I2V的MMDiT层中实现灵活的空间适配,避免传统方法中严格的约束。
- 频率感知动作提取:FAE 是创新的动作提取模块,直接在去噪过程中完成动作提取,不依赖于独立的时空架构。FAE 观察到在去噪的不同时间步中,模型对运动(低频)和外观细节(高频)的关注程度不同,在早期时间步中,模型更关注运动信息;在后期时间步中,模型更关注外观细节。FAE 基于动态调整注意力权重,优先在早期时间步提取运动信息,在后期时间步关注外观细节,实现精准的动作提取和控制。
FlexiAct的项目地址
- 项目官网:https://shiyi-zh0408.github.io/projectpages/FlexiAct/
- GitHub仓库:https://github.com/shiyi-zh0408/FlexiAct
- HuggingFace模型库:https://huggingface.co/shiyi0408/FlexiAct
- arXiv技术论文:https://arxiv.org/pdf/2505.03730
FlexiAct的应用场景
- 影视制作:快速生成逼真的角色动作,减少拍摄成本。
- 游戏开发:为游戏角色生成多样化动作,提升游戏体验。
- 广告营销:生成虚拟代言人动作,增强广告吸引力。
- 教育培训:生成教学和康复训练动作,辅助学习和恢复。
- 娱乐互动:支持用户创作有趣视频,提升娱乐体验。