我要投稿

HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架

AI老司机 AI行业动态

2025-05-07 0 217

HoloTime是什么

HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架，基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频，进一步重建为沉浸式的 4D 场景。HoloTime 引入 360World 数据集，包含大量固定摄像头拍摄的全景视频，用在训练 Panoramic Animator，生成高质量的全景视频。HoloTime 推出 Panoramic Space-Time Reconstruction 技术，基于时空深度估计将全景视频转换为 4D 点云，优化为一致的 4D 高斯点云表示，实现沉浸式的虚拟现实体验。

HoloTime的主要功能

从单张全景图像生成全景视频：将静态的全景图像转化为具有动态效果的全景视频，视频中包含丰富的运动信息，如物体运动、场景变化等。
全景视频到 4D 场景的重建：支持将生成的全景视频转换为 4D 点云，进一步优化为一致的 4D 场景表示，支持虚拟漫游和多视角观察。
沉浸式体验支持：生成的 4D 场景能够为 VR（虚拟现实）和 AR（增强现实）应用提供沉浸式的交互体验，用户能在场景中自由移动和探索。

HoloTime的技术原理

Panoramic Animator（全景动画生成器）：
- 两阶段生成策略：首先生成低分辨率的粗视频，提供全局运动指导；基于高分辨率的细化模型增强局部细节。
- 混合数据微调（Hybrid Data Fine-tuning, HDF）：结合全景视频和类似景观的普通视频数据进行训练，弥补数据分布的差异，提升模型的泛化能力。
- 全景循环技术（Panoramic Circular Techniques, PCT）：在视频的左右两端创建重复区域进行混合处理，确保全景视频的水平方向连续性，避免拼接处的视觉断裂。
Panoramic Space-Time Reconstruction（全景时空重建）：用全景光流估计模型和窄视场深度估计模型，对全景视频的每一帧进行深度估计，确保深度信息在时间和空间上的连续性。将全景视频及其深度图转换为带有时间属性的 4D 点云，作为 4D 场景的初始表示。基于优化 4D 点云的表示，实现空间和时间上一致的 4D 场景重建，支持高效渲染和动态视图合成。
360World 数据集：为训练 Panoramic Animator 提供大规模的固定摄像头全景视频数据，数据集包含丰富的场景和动态信息，支持模型学习全景视频的生成规律。

HoloTime的项目地址

项目官网：https://zhouhyocean.github.io/holotime/
GitHub仓库：https://github.com/PKU-YuanGroup/HoloTime
HuggingFace模型库：https://huggingface.co/Marblueocean/HoloTime
arXiv技术论文：https://arxiv.org/pdf/2504.21650

HoloTime的应用场景

虚拟现实（VR）和增强现实（AR）：提供沉浸式的 4D 场景，让用户在虚拟环境中自由漫游，增强体验感。
虚拟旅游和在线展览：生成全景 4D 场景，让用户远程游览景点或展览，仿佛身临其境。
影视制作：快速生成高质量的全景背景和特效，降低拍摄成本，提升视觉效果。
游戏开发：创建动态的游戏场景，增强玩家的沉浸感和视觉体验。
建筑设计和城市规划：生成全景 4D 场景，帮助设计师直观展示设计方案，提前评估效果。

收藏点赞 (0)

若非本站原创的文章，特别作如下声明：
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

AI老司机 AI行业动态 HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架 https://www.ailsj.cn/1591.html