观点精选2026年6月4日

AI 不只是学会说话，它正在学会理解世界

当大多数人把世界模型理解为视频生成时，越来越多研究者开始把注意力转向另一层能力：模拟器。渲染器负责让世界看起来真实，规划器负责决定如何行动，而模拟器决定 AI 是否真正理解世界如何运转。

核心洞察

过去一年，“世界模型（World Model）”几乎成为 AI 圈最热门的概念之一。

但有趣的是，大多数讨论都集中在视频生成。

Sora、Veo、Genie 等产品不断刷新人们对 AI 视频的想象力，于是很多人开始把世界模型等同于“能够生成世界的视频模型”。

实际上，这可能只是世界模型能力树中最容易被看见的一部分。

如果借用强化学习和机器人领域的视角来看，今天被称为世界模型的能力至少可以拆分为三个层次：

渲染器（Renderer）
模拟器（Simulator）
规划器（Planner）

而真正决定 AI 能否进入现实世界的，可能恰恰是中间最容易被忽视的模拟器。

三层世界模型

渲染器负责回答一个问题：

世界看起来是什么样？

它输出的是图像和视频。

无论是 Sora 还是 Veo，本质上都属于这一层。

它们擅长生成逼真的视觉结果，但并不一定真正理解物体背后的空间结构和物理规律。

规划器负责回答另一个问题：

我接下来应该怎么做？

机器人抓取物体、自动驾驶决策路线、Agent 执行任务，本质上都属于规划问题。

规划器输出的是行动。

而模拟器则位于两者之间。

它回答的问题是：

这个世界实际上如何运转？

这里关注的不再是像素，而是状态。

物体在哪里。

物体是什么形状。

受到外力之后会发生什么。

多个对象如何相互影响。

这些能力共同构成了一个能够被计算、推演和交互的世界。

为什么模拟器被低估了

视频生成很容易吸引关注。

因为每个人都能立即看懂效果。

机器人演示同样容易获得传播。

因为人们天然会被会行动的机器吸引。

但模拟器既不负责展示炫酷画面，也不直接完成任务。

它更像是一套隐藏在背后的基础设施。

然而恰恰是这一层决定了 AI 是否真正理解现实世界。

如果一个机器人要学会抓杯子，它需要知道杯子的三维结构、重量、重心和受力反应。

如果自动驾驶系统要测试极端场景，它需要模拟道路、车辆、行人和天气之间复杂的相互作用。

如果工厂要建立数字孪生系统，它需要让虚拟工厂和真实工厂保持一致。

这些问题都无法通过生成更漂亮的视频解决。

它们需要的是可靠的模拟。

从互联网智能到物理世界智能

大型语言模型之所以成功，本质上是因为互联网提供了海量文本数据。

但物理世界并不存在类似规模的数据集。

能够描述世界的视频很多。

能够描述世界状态的数据却极少。

因此模拟器的发展面临一个与语言模型完全不同的挑战：

不是缺少计算能力。

而是缺少真实世界的结构化数据。

这也是为什么越来越多研究机构开始关注空间数据、3D 数据、数字孪生以及机器人数据采集。

未来几年，世界模型竞争的关键资源可能不再是网页文本，而是现实世界。

一个值得关注的趋势

更重要的是，渲染器、模拟器和规划器之间的边界正在消失。

视频模型开始具备空间理解能力。

模拟器开始自动生成环境。

机器人模型开始利用视频世界进行训练。

越来越多研究正在尝试构建统一世界模型。

同一个系统既能生成画面。

也能维护物理状态。

还能规划行动。

从长期来看，世界模型不会停留在三个独立赛道。

它们最终会融合成一个能够观察世界、推演世界并在世界中行动的统一系统。

可以记住的一句话

语言模型学习的是互联网。

世界模型学习的是现实世界。

而在这场竞赛里，最重要的能力或许不是让世界看起来更真实，而是让 AI 真正理解世界如何运转。

AI 不只是学会说话，它正在学会理解世界

核心洞察

三层世界模型

为什么模拟器被低估了

从互联网智能到物理世界智能

一个值得关注的趋势

可以记住的一句话

AI Agent 的下一步：该快的时候快，该深入的时候深入

人形机器人开始有了“参考样板”：NVIDIA 想降低研发门槛

代码并不廉价：AI 时代最被低估的软件基本功

AI 国家级合作的真正价值：把模型能力变成公共基础设施

核心洞察

三层世界模型

为什么模拟器被低估了

从互联网智能到物理世界智能

一个值得关注的趋势

可以记住的一句话

相关 AI观察

AI Agent 的下一步：该快的时候快，该深入的时候深入

人形机器人开始有了“参考样板”：NVIDIA 想降低研发门槛

代码并不廉价：AI 时代最被低估的软件基本功

AI 国家级合作的真正价值：把模型能力变成公共基础设施