AI 不只是学会说话,它正在学会理解世界
当大多数人把世界模型理解为视频生成时,越来越多研究者开始把注意力转向另一层能力:模拟器。渲染器负责让世界看起来真实,规划器负责决定如何行动,而模拟器决定 AI 是否真正理解世界如何运转。
核心洞察
过去一年,“世界模型(World Model)”几乎成为 AI 圈最热门的概念之一。
但有趣的是,大多数讨论都集中在视频生成。
Sora、Veo、Genie 等产品不断刷新人们对 AI 视频的想象力,于是很多人开始把世界模型等同于“能够生成世界的视频模型”。
实际上,这可能只是世界模型能力树中最容易被看见的一部分。
如果借用强化学习和机器人领域的视角来看,今天被称为世界模型的能力至少可以拆分为三个层次:
- 渲染器(Renderer)
- 模拟器(Simulator)
- 规划器(Planner)
而真正决定 AI 能否进入现实世界的,可能恰恰是中间最容易被忽视的模拟器。
三层世界模型
渲染器负责回答一个问题:
世界看起来是什么样?
它输出的是图像和视频。
无论是 Sora 还是 Veo,本质上都属于这一层。
它们擅长生成逼真的视觉结果,但并不一定真正理解物体背后的空间结构和物理规律。
规划器负责回答另一个问题:
我接下来应该怎么做?
机器人抓取物体、自动驾驶决策路线、Agent 执行任务,本质上都属于规划问题。
规划器输出的是行动。
而模拟器则位于两者之间。
它回答的问题是:
这个世界实际上如何运转?
这里关注的不再是像素,而是状态。
物体在哪里。
物体是什么形状。
受到外力之后会发生什么。
多个对象如何相互影响。
这些能力共同构成了一个能够被计算、推演和交互的世界。
为什么模拟器被低估了
视频生成很容易吸引关注。
因为每个人都能立即看懂效果。
机器人演示同样容易获得传播。
因为人们天然会被会行动的机器吸引。
但模拟器既不负责展示炫酷画面,也不直接完成任务。
它更像是一套隐藏在背后的基础设施。
然而恰恰是这一层决定了 AI 是否真正理解现实世界。
如果一个机器人要学会抓杯子,它需要知道杯子的三维结构、重量、重心和受力反应。
如果自动驾驶系统要测试极端场景,它需要模拟道路、车辆、行人和天气之间复杂的相互作用。
如果工厂要建立数字孪生系统,它需要让虚拟工厂和真实工厂保持一致。
这些问题都无法通过生成更漂亮的视频解决。
它们需要的是可靠的模拟。
从互联网智能到物理世界智能
大型语言模型之所以成功,本质上是因为互联网提供了海量文本数据。
但物理世界并不存在类似规模的数据集。
能够描述世界的视频很多。
能够描述世界状态的数据却极少。
因此模拟器的发展面临一个与语言模型完全不同的挑战:
不是缺少计算能力。
而是缺少真实世界的结构化数据。
这也是为什么越来越多研究机构开始关注空间数据、3D 数据、数字孪生以及机器人数据采集。
未来几年,世界模型竞争的关键资源可能不再是网页文本,而是现实世界。
一个值得关注的趋势
更重要的是,渲染器、模拟器和规划器之间的边界正在消失。
视频模型开始具备空间理解能力。
模拟器开始自动生成环境。
机器人模型开始利用视频世界进行训练。
越来越多研究正在尝试构建统一世界模型。
同一个系统既能生成画面。
也能维护物理状态。
还能规划行动。
从长期来看,世界模型不会停留在三个独立赛道。
它们最终会融合成一个能够观察世界、推演世界并在世界中行动的统一系统。
可以记住的一句话
语言模型学习的是互联网。
世界模型学习的是现实世界。
而在这场竞赛里,最重要的能力或许不是让世界看起来更真实,而是让 AI 真正理解世界如何运转。