我要投稿

ChatAnyone – 阿里通义推出的实时风格化肖像视频生成框架

AI老司机 AI行业动态

2025-03-30 0 466

ChatAnyone是什么

ChatAnyone是阿里巴巴通义实验室推出的实时风格化肖像框架。通过音频输入，生成具有丰富表情和上半身动作的肖像视频。采用高效分层运动扩散模型和混合控制融合生成模型，能实现高保真度和自然度的视频生成，支持实时交互，适用于虚拟主播、视频会议、内容创作、教育、客户服务、营销、社交娱乐、医疗健康等众多场景。ChatAnyone支持风格化控制，可根据需求调整表情风格，实现个性化动画生成。

ChatAnyone的主要功能

音频驱动的肖像视频生成：通过音频输入，生成具有丰富表情和上半身动作的肖像视频，实现从“会说话的头”到上半身互动的高保真动画生成，支持多样化的面部表情和风格控制。
高保真度和自然度：生成的肖像视频具有丰富的表情和自然的上半身动作。
实时性：支持实时交互，适用于视频聊天等应用场景。
风格化控制：可以根据需求调整表情风格，实现个性化的动画生成。

ChatAnyone的技术原理

高效分层运动扩散模型：输入音频信号，输出面部和身体的控制信号，考虑显式和隐式的运动信号。生成多样化的面部表情，实现头部与身体动作的同步。支持不同强度的表情变化，以及从参考视频中转移风格化的表情。
混合控制融合生成模型：结合显式地标和隐式偏移量，生成逼真的面部表情。注入显式的手部控制信号，生成更准确和逼真的手部动作。通过面部优化模块，增强面部的逼真度，确保生成的肖像视频具有高度的表达性和真实感。
可扩展的实时生成框架：支持从头部驱动的动画到包含手势的上半身生成。在4090 GPU上，最高512×768分辨率、30fps的速度实时生成上半身肖像视频。

ChatAnyone的项目地址

项目官网：https://humanaigc.github.io/chat-anyone/
Github仓库：https://github.com/HumanAIGC/chat-anyone
arXiv技术论文：https://arxiv.org/pdf/2503.21144

ChatAnyone的应用场景

虚拟主播与视频会议：用于新闻播报、直播带货、视频会议中的虚拟形象。
内容创作与娱乐：生成风格化动画角色、虚拟演唱会、AI 播客等。
教育与培训：生成虚拟教师形象、培训模拟中的虚拟角色。
客户服务：生成虚拟客服形象，提供生动的解答和互动。
营销与广告：生成虚拟代言人形象、互动性强的广告内容。

收藏点赞 (0)

若非本站原创的文章，特别作如下声明：
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

AI老司机 AI行业动态 ChatAnyone – 阿里通义推出的实时风格化肖像视频生成框架 https://www.ailsj.cn/1192.html