Multiverse是什么
Multiverse是以色列团队Enigma Labs推出的全球首个AI生成多人游戏模型。是多人赛车游戏,玩家可以超车、漂移、加速,每一次行动会实时影响并重塑游戏世界。模型通过AI技术实时生成游戏画面,确保两名玩家看到的是同一个逻辑统一的世界。模型基于扩散模型,将玩家的视角和动作融合处理,生成连贯且一致的游戏画面。Multiverse的核心技术在于创新的多人世界模型架构,通过联合动作向量和双视角通道堆叠技术,解决了多人游戏中视角一致性的难题。模型的训练成本仅需1500美元,可在普通PC上运行。项目代码、数据、权重、架构及研究成果已全面开源,为 AI 在多人游戏领域的应用提供新的可能性。
Multiverse的主要功能
- 多人实时交互:支持两名玩家在同一虚拟世界中实时互动,例如在赛车游戏中实现超车、碰撞等操作,双方视角保持一致。
- 动态世界生成:根据玩家的动作和操作,实时生成游戏画面。
- 高效帧预测:准确预测未来的游戏帧,确保游戏的流畅性和连贯性。
- 低成本运行:支持在普通个人电脑上运行,无需高端硬件支持,降低使用门槛。
Multiverse的技术原理
- 多人游戏架构:为了构建多人游戏世界模型,保留了上面的核心构建模块,对结构进行了拆解 —— 重新对输入和输出进行了连接,从头开始重新设计了训练流程,实现真正的合作游戏:
- 动作嵌入器:获取两个玩家的动作,并输出一个代表它们的嵌入。
- 去噪网络:一个扩散网络,能基于两个玩家之前的帧和动作嵌入,以一个实体的形式同时生成两个玩家的帧。
- 上采样器:这里的上采样器会分别接收两个玩家的帧,同时计算上采样后的版本。
- 视角合并解决方案:为了打造多人游戏体验,模型需要收集双方玩家之前的帧和动作,输出各自预测的帧。关键在于:这两个输出不能仅仅看起来美观 ,需要在内部保持一致。Multiverse 提出了一种变通的解决方案:将两个玩家的视角拼接成一张图像,将他们的输入融合成一个联合动作向量,并将这一切视为一个统一的场景。具体做法是沿通道轴堆叠,把两帧图像视为具有两倍色彩通道的图像。因为这里的扩散模型是一个 U 型网络,主要由卷积层和解卷积层组成,所以第一层只处理附近的像素。如果将两个帧垂直堆叠,那么直到中间层才会对帧进行处理。降低了模型在帧间产生一致结构的能力。而如果将帧按通道轴堆叠,则网络的每一层都会同时处理两名玩家的视图。
- 训练方法
- 上下文扩展:为了准确预测下一帧,模型需要接收玩家的动作(如转向输入)和足够的帧数,以计算两辆车相对于道路和彼此的速度。研究发现 8 帧(30 帧/秒)的帧数可以让模型学习车辆运动学,如加速、制动和转向。但两辆车的相对运动速度要比道路慢得多。为了捕捉这种相对运动,需要将上下文的大小扩大近三倍。但这样做会使模型速度过慢,无法进行实时游戏,增加内存使用量,并使训练速度大大降低。为了保持上下文大小,但又能提供更多的时间信息,作者为模型提供了前几帧和动作的稀疏采样。具体来说,他们向模型提供最近的 4 个帧。然后在接下来的 4 个帧中每隔 4 个帧提供一次。上下文中最早的一帧为 20 帧,即过去 0.666 秒,足以捕捉到车辆的相对运动。还能让模型更好地捕捉到与路面相比的速度和加速度,使驾驶的动态效果更加出色。
- 多人游戏训练:为了让模型学会驾驶技术和多人游戏中的互动,模型需要在这些互动场景中进行训练。世界模型中的行走、驾驶和其他常见任务通常只需要较短的预测范围,例如预测未来 0.25 秒的情况。多人游戏中的互动则需要更长的时间跨度。在四分之一秒内,玩家之间的相对运动几乎可以忽略不计。为了训练多人游戏世界模型,需要设置更长的预测范围。Multiverse 将训练模型进行自回归预测(以 30 帧/秒)最多可预测到未来 15 秒。为了使模型能进行如此长时间的预测,Multiverse 采用了课程学习,在训练过程中将预测时间从 0.25 秒增加到 15 秒。在初始训练阶段能高效地训练模型,此时模型正在学习诸如汽车和赛道几何形状等低级特征。模型学会了生成连贯的帧并建模车辆运动学,会对其进行玩家行为等高级概念的训练。在增加预测范围后,模型的「物理一致性」和帧间一致性显著提高。
- 高效的长视野训练:训练未来 100 帧以上的模型对 VRAM 提出了挑战。在更大 batch 下,将这些帧加载到 GPU 内存中进行自回归预测变得不可行。为了解决这个内存限制,采用分页的方式进行自回归预测。在训练开始时,加载第一个 batch 的数据,对其进行预测。然后加载下一页的数据,丢弃超出上下文窗口范围的帧。
Multiverse的项目地址
- 项目官网:https://enigma-labs.io/blog
- GitHub仓库:https://github.com/EnigmaLabsAI/multiverse
- HuggingFace模型库:https://huggingface.co/Enigma-AI
Multiverse的数据集
- 数据来源:团队训练模型的数据收集自索尼的游戏《GT 赛车 4》(Gran Turismo 4)。
- 数据收集方法:基于游戏内的回放系统,将每场比赛重放两次,从每名玩家的角度进行录制。然后将两个录像同步,与原始双人比赛对齐,将它们合并成一个视频,展示两名玩家同时进行游戏。利用计算机视觉逐帧提取游戏屏幕上显示的油门、刹车、方向条,再反推出控制指令。也就是说,全靠画面信息就能还原操作,无需额外日志文件。
- 自动数据生成:编写脚本向游戏的 B-Spec 模式发送随机输入,自动触发比赛,从两个视角录制回放画面,捕捉 AI 驱动比赛的第三人称视频。
Multiverse的应用场景
- 多人游戏开发:用在开发多人在线游戏,提供更真实、丰富的互动体验。
- VR/AR应用:创建多人共享的虚拟环境,增强沉浸感和社交性。
- AI训练与研究:作为开源模型,训练智能AI Agent,研究复杂环境下的决策和协作。
- 教育与培训:创建虚拟训练场景,用在驾驶、军事演练或团队协作训练。
- 娱乐与社交:开发虚拟聚会、在线活动等应用,提供新颖的社交体验。
- 模拟经营游戏:在模拟经营游戏中,玩家需要进行资源管理、建筑规划、城市发展等操作。每一次决策都可能影响整个模拟世界的经济和生态平衡。