深度报告

推广

行业活动

FBEC2025 | 其域创新赵开勇：对真实世界的感知重建，将成为空间智能关键突破口

发布时间：2025-12-15 09:40 | 标签：演讲三维重建具身智能其域创新 FBEC2025

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

2025未来商业生态链接大会暨第十届金陀螺奖颁奖典礼（以下简称“FBEC2025”）于2025年12月5日在深圳湾万丽酒店盛大召开。本次大会由广东省游戏产业协会、深圳市互联网文化市场协会共同指导，陀螺科技主办，游戏陀螺、VR陀螺、陀螺财经、陀螺电竞、前方智能联合主办。

大会以“大道智简”为核心主题，聚焦游戏、XR、AI、电竞等前沿领域及行业热点议题，探讨新科技、新商业、新模式的未来价值共同探索技术本质，把握变革先机，让我们与所有探索者执简驭繁，共赴星海，破晓而行！

FBEC2025主会场B：时空共生•2025全球VR/AR产业与空间计算论坛，聚焦VR/MR的破局之道，以及AR智能化路径与下一代光学技术突破。现场邀请到其域创新创始人兼CEO 赵开勇博士带来主题为“空间智能：让世界模型迈向现实的基础设施”的精彩演讲。

赵开勇博士认为：所有的无人化和智能化的前提是空间的数字化。

以下为演讲实录（内容略有删减调整）：

很高兴今天能和大家交流分享。我们其域创新是一家创业公司，也非常希望在这里向各位同行学习。我本人在三维重建领域工作了十多年，如今从“三维重建”到“空间智能”，再到“世界模型”，相关概念都在迅速演变。接下来想简单分享一下我们对这一发展的理解。

人本质上生活在真实的三维世界中，而我们所看到的众多行业——包括地理测绘、影视娱乐、动画制作、地图与能源、AEC 建筑行业、VR/AR 游戏、自动驾驶、具身智能乃至数字孪生等等，都在加速向数字化转型。

我们在十年前从事三维重建时就提出过一个观点：所有的无人化和智能化的前提是空间的数字化。AI 的发展也经历了类似的过程，从传统方法到神经网络的兴起，再到大量文本数据的积累与表示学习的突破，最终推动了今天大模型的出现。

如果到了空间三维时代，那 3D 内容的数据的需求会更大。就哪怕我们现在看到这种世界模型，或者说空间智能，我们看到的真实世界数据是不够的，不足以支撑形成一个真正的世界模型。

我们可以从学术界看起。在世界模型提出之前，早在 2018 年就有人提出过类似概念，当时主要用于训练空间模型。后来李飞飞老师提出的“空间智能”和世界模型，也更多是从图像领域出发的。现在看到的一些前沿成果，例如WonderPlay这篇最新的斯坦福论文，就强调将物理模型与大场景生成模型相结合。

Sora 刚出来的时候，我就判断它生成的视频没有满足物理约束和要求，因此场景并不够真实，因为缺乏物理一致性。只有把物理约束与世界、场景生成真正结合，才能形成一个更成熟、更能理解物理世界的 AI。

学术界之后是工业界的探索。OpenAI 展示了连续视频帧的生成方式，当时引发了很大反响，但在数据需求上仍难以满足更复杂的应用。反而可以看到 Tesla、英伟达和 Meta 的路径更具有整体支撑。

Meta 背后有 VR/AR 的元宇宙团队，团队里有大量从事三维重建和 SLAM 算法的研究者，他们的需求不仅是视频生成，更需要与真实物理空间交互。Tesla 更是如此：它具备自动驾驶汽车和机器人业务，它的机器人仿真和模拟必须与真实世界对齐，单纯的视频生成无法满足要求。英伟达依托 Omniverse，希望将娱乐影视、机器人仿真等内容统一到可真实交互的场景里，支撑具身智能的发展，而前提是生成的 3D 内容必须满足真实场景需求，不只是用于影视，而是要支撑机器人和具身智能系统。

我们的理解是，世界模型不仅要能生成 3D 内容，还需要有物理理论的支撑——只有将物理约束与 3D 场景生成结合，才能构建真正意义上的世界模型。

如果从人类理解世界的方式类比：人依靠眼睛、耳朵等“传感器”获取信息，先收集数据；之后需要记忆和重建世界，把信息存入大脑；再进一步理解这个世界，不仅知道“画面长什么样”，还要能识别桌子、椅子、电视等物体及其属性，理解物理规律，最终才能创造世界。

我们认为，一个世界模型的演进过程应包括：大规模、高质量的真实空间数据；依据物理约束完成三维场景重建；系统性理解每个场景和其中的语义；最终才能构建世界模型并支撑空间智能应用。这也是我们长期投入的方向——以真实世界为基础，构建面向未来的空间智能基础设施。

我们可以先谈谈其域创新的部分设备。这是一套用于采集真实空间数据的硬件系统，能够非常便捷地记录真实世界的信息。真实空间不仅有视觉数据，还包含激光、深度、位姿等多种信息，因此这一套传感器能够同时采集图像、深度数据以及空间姿态变化，满足对物理世界进行大规模数据采集的需求。

采集完成后，我们会将这些数据转化为空间数据，并与各类平台打通，把来自真实世界的信息映射到数字世界中，再在数字世界进行仿真和模拟，最终再反作用于现实环境。

在三维重建领域，大家讨论得较多的往往集中在毫米、分米或米级尺度。但三维重建的范围远不止于此。我们曾做过埃米级的三维重建，例如与冷冻电镜结合的细胞三维重建。左下角这张图是 2009 年的工作，应该是当时全球首个利用 GPU 加速的冷冻电镜三维细胞重建系统。埃米、纳米级的三维重建也应用在芯片光刻中：从数百纳米波长刻蚀到几个纳米的芯片结构，需要利用光的波动特性，用 Maxwell 方程求解；微米级别的则包括红细胞成像或工业检测。

此外，我们很容易忽略更大尺度的三维重建。比如地下石油勘探，我在 2010 年去过涿州物探局做相关项目，本质上是给地球做一个 CT。一侧埋设炸药，一侧布设接收阵列，爆炸产生的声波穿过地层后再反演地下的三维结构。无论使用声、光、电、磁，背后的核心都是将不同物理传感信号用于恢复三维场景，这些都是对三维世界的重建。

因此，要理解真实世界的三维结构，不仅要看图像信息，还需要整合多种传感器的数据，包括视觉、雷达、IMU（陀螺仪）、声音甚至语义等多模态信息，才能构建对物理世界更完整的认知。

这里展示的是我们的几款设备。灵视P1是我们最近在海外发布的新设备。我们与迪士尼、福克斯等好莱坞五大影视机构都有合作，利用这类设备能够快速还原拍摄场景，在探景和虚拟拍摄中都有广泛应用。

我们也与爱奇艺、腾讯团队等都有合作，参与过一些虚拟拍摄场景的制作。当采集完数据之后，下一步就是重构世界。传统重建方式依赖手工，还原效果虽然可以很好，但效率和成本都难以满足当前需求——既慢、成本又高。而使用轻量摄影测量、面片重建的方式，得到的数据质量也往往不够理想。

那么，我们如何高效采集并真实还原高精度场景？采集数据的底层信息可以看到：包括高密度点云、真彩图点云，以及 Mesh 重建和LCC。最终我们采用的是LCC，也就是 3D 高斯的方式。我们在去年 4 月推出了全球首个基于“激光 + 视觉”融合的高精度三维还原系统，可应用于影视娱乐、虚拟仿真、机器人仿真等场景，目前也已经与英伟达平台对接，将内容放入 NVIDIA Isaac 中做机器人模拟。通过这种方式，我们能够获得高精度、结构完整的三维场景。

例如深圳文博宫项目，空中部分由无人机采集，地面部分使用我们的手持设备完成，只需一套流程就能覆盖整个大场景。只有积累足够多、足够真实的三维数据，才能训练出能够自动生成更真实三维场景的 AI 模型。

当采集与重建完成后，下一步就是理解场景。过去人们关注的是从 2D 到 3D 的转换，但自动驾驶、具身智能等应用需要的是对三维世界的真正理解——利用图像、激光点云、深度或 RGB 信息还原完整的 3D 结构。如果不能理解，就无法生成准确的三维空间内容；理解是生成的前提。

在具备理解能力后，我们才能利用 AIGC 生成三维场景。包括我们今年 5 月在 SL 发表的论文，是将大语言模型与三维场景生成结合。我们也与 UE 完成了打通——只需告诉 AI 想要什么样的场景，它就能自动构建出相应的三维环境。

我们团队规模不大，但已经实现了关键能力：通过与大语言模型交互，指定场景、物体或模型，系统就能自动生成可直接导入 UE 仿真引擎的三维内容，用于后续编辑、加工，甚至直接用于游戏开发。

这是我们与清华大学 AI 实验室的合作案例。前面提到，采集完成的数据不仅可以用于影视制作，也可以直接用于机器人场景的仿真。图中是清华实验室一层的真实环境，我们采集后即可快速放入具身智能的训练体系中进行物理仿真，因为这些数据包含真实场景结构、材质信息和光照特性。

如果完全依赖手工建模，往往缺乏真实采样的数据、光照和深度信息；而基于 3D 高斯的方式，能够方便地生成高质量深度、真实光照及激光扫描效果，使其非常适合用于机器人仿真。这部分工作我们也已与多家 XR 平台打通。最近我们也刚和 PICO 的广州团队合作，实现将大场景完整导入 3D 系统中。

此外，我们与日本、韩国的多家游戏公司合作，包括韩国 T3、日本多家厂商等，他们将鹿儿岛等区域整体构建成三维模型，用于沉浸式游览，以及韩国 T3 将大场景整合后在 3D 环境中实时加载的示例。我们提供 SDK，可让不同平台快速加载这些大规模场景。

这些三维模型已经支持多款 XR 与移动平台，包括 PICO、Quest、苹果 ARKit 等。我们也是全球首批实现“大场景无缝加载”并在手机端实时浏览的团队之一，无需提前下载全部数据即可进行流式加载渲染，同时也实现了与 Unreal、Unity、WebGL 的对接。

目前已有超过 50 个国家的用户使用我们的设备采集并生成真实的 3D 场景。用手机即可实时加载并浏览一个完整的大场景，不需要电脑也能流畅查看。所有这些案例都是全球客户使用我们的设备采集后生成的真实三维场景。理论上，我们的技术能够支持无限尺度的场景，并在手机端实现实时加载与渲染，让用户身临其境、尽览万象。

谢谢大家。

投稿/爆料：tougao@youxituoluo.com

稿件/商务合作：林南（微信 19250561593）六六（微信 13138755620）

加入行业交流群：林南（微信 19250561593）

版权申明：本文为VR陀螺原创，任何第三方未经授权不得转载。如需转载请联系微信：vrtuoluo233 申请授权，并在转载时保留转载来源、作者以及原文链接信息，不得擅自更改内容，违规转载法律必究。文中有图片、视频素材来自互联网或无法核实出处，如涉及版权问题，请联系本网站协商处理。