为什么世界模型是人工智能的下一个前沿-人工智能专区

为什么世界模型是人工智能的下一个前沿

作者：卢敏编辑：卢敏 2026-04-28 09:18 IT168网站原创

　　世界模型不只是预测下一个词元，而是真正理解物理世界是如何运作的——这是人工智能最终达到AGI所需的“常识”。

　　对许多人来说，人工智能体现了科幻小说的核心情节之一：内置智能或独立于人类主管思考和行动的机器。但从我的角度来看，我们还没有真正实现这一愿景。

　　出于这个原因，许多思想领袖将世界模型描述为人工智能的下一个重大范式转变。这些模型从完整的物理环境中学习——合成的或真实的——并能理解世界的空间和物理复杂性，这与仅限于语言和图像的大型语言模型（LLM）不同。

　　Meta的Yann LeCun坚信这一点，他曾多次公开倡导世界模型。他表示，在三到五年内，世界模型将成为AI架构的主要范式，理智的人不会使用我们今天的那种LLM。

　　显然，LLM取得了突破性的成绩。但它们只能通过更多的计算和更多的数据来改进，而这些数据越来越昂贵、笨重，且回报只会递减。

　　世界模型是AGI的重要先决条件

　　我相信世界模型有可能实现科幻小说梦寐以求的许多能力。

　　为了真正实现通用人工智能（AGI），世界模型需要超越模式识别，以捕捉世界的实际运作方式。一个能够进行一般推理的系统必须充分理解物理、社会和因果关系，以便在不同情境之间迁移知识。

　　如果没有这种整体视角，当条件完全匹配其训练中描述的条件时，模型的表现可能会令人印象深刻，但当这些条件突然改变时，模型就会失败。为了“在一般情况下”有效，人工智能需要在遇到新情况时具备修改其内部理解的能力。

　　全面的世界模型允许代理模拟结果、推理约束并适应新环境，将静态预测转化为灵活的问题解决。

　　有了正确的适应能力水平，代理可以更新其信念、重新解释上下文并设计新的策略，而不是依赖静态规则。这种能力反映了人类的智慧——先前的知识不断被重塑以应对新情况，从学习不熟悉的技术到驾驭全新的文化。

　　毕竟，现实世界的决策很少被孤立。行动同时与物理、时机、目标和人类行为相互作用。为了有效地规划，AGI必须预测后果、识别因果关系并整合跨领域的知识。复制人类的综合理解和开放式解决问题，正是狭隘智能与通用智能的区别所在。

　　世界模型与LLM是不同的世界

　　简而言之，世界模型为人工智能提供了常识，使其理解事物在给定环境中如何运作——以及如果条件或物体发生变化，会发生什么。

　　例如，Meta的JEPA正是朝着这个目标构建的，它专注于预测抽象表示而非原始像素，是未来世界模型的关键构建块。

　　大型语言模型（LLM）如今看似非常强大，但相比世界模型显得渺小。世界模型是多模态人工智能模型，具备自我学习能力、一般推理能力和空间感知能力。LLM只是非常擅长预测模式中的下一个元素。

　　以下是我对世界模型和LLM之间主要区别的看法：

　　学习方法：世界模型使用持续强化学习，通过观察环境并推断缺失数据来训练自己，例如基于PlaNet模型的强化学习系统。相比之下，LLM效率低下，需要对海量数据集进行广泛训练。

　　空间意识：像Genie 3这样的世界模型与多维环境动态交互，使它们能够想象并生成一致的互动世界的3D、4D和5D可视化。而LLM对空间没有任何意识。

　　深刻的理解：世界模型能从部分信息中推断因果关系和对象永久性等概念，而LLM则受限于对世界的浅显理解。它们可以根据学习到的模式预测下一个词，但并不明白这个词的含义。

　　长期规划：通过执行数千次模拟，像基于DreamerV3模型的代理可以找到实现目标的最优行动序列，从而为不同偶发情况做出规划，并在新情境下做出明智决策。相比之下，LLM的长期规划脆弱且不可靠。

　　多模态输入和输出：世界模型能够以多种形式消费输入，也能以多种模式产生输出。例如，World Labs的Marble是一个多模态世界模型，可以从静态图像中重建并模拟3D环境。LLM则仅限于2D输入和输出。

　　世界模型是如何运作的？

　　世界模型由三个连接的模块组成：

　　感知模块：该模块将图像、视频和本体感受等原始感官输入编码为环境的紧凑潜在表示。

　　预测模块：这是一个处理概率分布并捕捉因果关系和时间结构的动力学模型。它概率性地预测下一个潜在状态以及任何行动的预期结果。

　　规划（控制）模块：该模块使用预测模型的输出来模拟未来轨迹，并选择能优化目标实现的行动。

　　“其核心是，世界模型是人工智能系统为模拟外部环境而构建的内部表示。通过不断处理感官数据，系统构建了其周围环境的动态蓝图。”Aurorain创始人Luhui Hu解释说，“这种感知、预测和规划的融合反映了人类的认知过程，为更先进的智能行为奠定了基础。”

　　世界模型开辟了巨大的可能性

　　即使我们暂时搁置AGI的愿景，世界模型的潜力似乎也几乎没有限制。以下只是世界模型可能影响我们生活的众多方式中的几种。

　　沉浸式视觉体验

　　有了世界模型，终于有可能构建出令人信服、你可以与之互动和体验的世界。这些是最早上线的功能，这要归功于像Decart开发的模型，这些模型甚至可以用作可玩的、无需游戏引擎的模拟。

　　Decart的首席执行官兼联合创始人Dean Leitersdorf说：“因为运行你的游戏或环境的是人工智能，你可以以我们习惯与人工智能互动的方式与它互动。”

　　“你可以说，‘嘿，你能把这个变成艾莎主题吗？’然后，砰的一声，一切都变成了艾莎主题。‘你能加一只能飞的大象吗？’游戏中就出现了一只能飞的大象。而且它不只是一张图片，你实际上可以和它互动。你可以——我不知道——打大象，它会回击你，或者你对大象做任何事。”

　　创新的快速迭代

　　互动、一致的世界生成带来的影响远远超出娱乐领域。

　　Marble和Oasis等模型可以从文本提示、照片、视频、3D布局或全景图像中生成持久的、可下载的3D环境。目前它们专注于游戏和VR，但也为在模拟环境中训练机器人打开了大门。

　　多维计算建模使探索分子化学、开发新的生物医学治疗方法、探究宇宙的构成、设计抗震建筑、理解复杂气候模式以及研究新材料等用例成为可能。

　　遵守现实世界物理规律的视频

　　在我认为最令人兴奋的世界模型用例中，创建超逼真的人工智能生成视频无疑特别引人注目。

　　随着人工智能系统对物理动力学的理解不断提高，视频生成与世界模型之间的界限日益模糊。

　　Runway的GWM-1通用世界模型就是一个很好的例子。它通过自回归、逐帧视频生成来模拟现实，这是Runway迈向“通用世界模型”定位的一步，完全复现了模拟环境的物理学。Luma AI的生成视频也有类似的目标。

　　更安全、更准确的决策

　　由于世界模型能够从部分信息中推断、快速模拟多个决策的许多可能结果并准确预测后果，它们可以显著改善广泛用例中的决策质量。

　　可能性包括复杂的多因素经济模型、理解目前难以预测的气候模式，以及支持区域和国际政策决策的复杂长期规划。

　　世界模型还能通过预测行动的结果（如变道以避免碰撞）来提高自动驾驶汽车的安全性。

　　逼真的机器人

　　让机器人在难以进入和/或敌对的环境中担任实验室助理、护理人员、全天候工业工人和探险家，是一个古老的科幻梦想。世界模型可以帮助克服实现“物理人工智能”的重大障碍：缺乏相关的训练数据。

　　NVIDIA的Cosmos平台2.5旨在预测并生成未来环境状态的物理感知视频，为自动驾驶汽车和机器人大规模生成合成训练数据。

　　“与语言模型不同，当今机器人研究的训练数据很少。”World Labs首席执行官兼创始人李飞飞说，“世界模型将在此中发挥决定性作用。随着感知保真度和计算效率的提高，世界模型的输出可以迅速缩小模拟与现实之间的差距。这反过来将有助于通过模拟无数状态、互动和环境来训练机器人。”

关注我们