世界模型不只是预测下一个词元,而是真正理解物理世界是如何运作的——这是人工智能最终达到AGI所需的“常识”。
对许多人来说,人工智能体现了科幻小说的核心情节之一:内置智能或独立于人类主管思考和行动的机器。但从我的角度来看,我们还没有真正实现这一愿景。
出于这个原因,许多思想领袖将世界模型描述为人工智能的下一个重大范式转变。这些模型从完整的物理环境中学习——合成的或真实的——并能理解世界的空间和物理复杂性,这与仅限于语言和图像的大型语言模型(LLM)不同。
Meta的Yann LeCun坚信这一点,他曾多次公开倡导世界模型。他表示,在三到五年内,世界模型将成为AI架构的主要范式,理智的人不会使用我们今天的那种LLM。
显然,LLM取得了突破性的成绩。但它们只能通过更多的计算和更多的数据来改进,而这些数据越来越昂贵、笨重,且回报只会递减。
世界模型是AGI的重要先决条件
我相信世界模型有可能实现科幻小说梦寐以求的许多能力。
为了真正实现通用人工智能(AGI),世界模型需要超越模式识别,以捕捉世界的实际运作方式。一个能够进行一般推理的系统必须充分理解物理、社会和因果关系,以便在不同情境之间迁移知识。
如果没有这种整体视角,当条件完全匹配其训练中描述的条件时,模型的表现可能会令人印象深刻,但当这些条件突然改变时,模型就会失败。为了“在一般情况下”有效,人工智能需要在遇到新情况时具备修改其内部理解的能力。
全面的世界模型允许代理模拟结果、推理约束并适应新环境,将静态预测转化为灵活的问题解决。
有了正确的适应能力水平,代理可以更新其信念、重新解释上下文并设计新的策略,而不是依赖静态规则。这种能力反映了人类的智慧——先前的知识不断被重塑以应对新情况,从学习不熟悉的技术到驾驭全新的文化。
毕竟,现实世界的决策很少被孤立。行动同时与物理、时机、目标和人类行为相互作用。为了有效地规划,AGI必须预测后果、识别因果关系并整合跨领域的知识。复制人类的综合理解和开放式解决问题,正是狭隘智能与通用智能的区别所在。
世界模型与LLM是不同的世界
简而言之,世界模型为人工智能提供了常识,使其理解事物在给定环境中如何运作——以及如果条件或物体发生变化,会发生什么。
例如,Meta的JEPA正是朝着这个目标构建的,它专注于预测抽象表示而非原始像素,是未来世界模型的关键构建块。
大型语言模型(LLM)如今看似非常强大,但相比世界模型显得渺小。世界模型是多模态人工智能模型,具备自我学习能力、一般推理能力和空间感知能力。LLM只是非常擅长预测模式中的下一个元素。
以下是我对世界模型和LLM之间主要区别的看法:
学习方法:世界模型使用持续强化学习,通过观察环境并推断缺失数据来训练自己,例如基于PlaNet模型的强化学习系统。相比之下,LLM效率低下,需要对海量数据集进行广泛训练。
空间意识:像Genie 3这样的世界模型与多维环境动态交互,使它们能够想象并生成一致的互动世界的3D、4D和5D可视化。而LLM对空间没有任何意识。
深刻的理解:世界模型能从部分信息中推断因果关系和对象永久性等概念,而LLM则受限于对世界的浅显理解。它们可以根据学习到的模式预测下一个词,但并不明白这个词的含义。
长期规划:通过执行数千次模拟,像基于DreamerV3模型的代理可以找到实现目标的最优行动序列,从而为不同偶发情况做出规划,并在新情境下做出明智决策。相比之下,LLM的长期规划脆弱且不可靠。
多模态输入和输出:世界模型能够以多种形式消费输入,也能以多种模式产生输出。例如,World Labs的Marble是一个多模态世界模型,可以从静态图像中重建并模拟3D环境。LLM则仅限于2D输入和输出。
世界模型是如何运作的?
世界模型由三个连接的模块组成:
感知模块:该模块将图像、视频和本体感受等原始感官输入编码为环境的紧凑潜在表示。
预测模块:这是一个处理概率分布并捕捉因果关系和时间结构的动力学模型。它概率性地预测下一个潜在状态以及任何行动的预期结果。
规划(控制)模块:该模块使用预测模型的输出来模拟未来轨迹,并选择能优化目标实现的行动。
“其核心是,世界模型是人工智能系统为模拟外部环境而构建的内部表示。通过不断处理感官数据,系统构建了其周围环境的动态蓝图。”Aurorain创始人Luhui Hu解释说,“这种感知、预测和规划的融合反映了人类的认知过程,为更先进的智能行为奠定了基础。”
世界模型开辟了巨大的可能性
即使我们暂时搁置AGI的愿景,世界模型的潜力似乎也几乎没有限制。以下只是世界模型可能影响我们生活的众多方式中的几种。
沉浸式视觉体验
有了世界模型,终于有可能构建出令人信服、你可以与之互动和体验的世界。这些是最早上线的功能,这要归功于像Decart开发的模型,这些模型甚至可以用作可玩的、无需游戏引擎的模拟。
Decart的首席执行官兼联合创始人Dean Leitersdorf说:“因为运行你的游戏或环境的是人工智能,你可以以我们习惯与人工智能互动的方式与它互动。”
“你可以说,‘嘿,你能把这个变成艾莎主题吗?’然后,砰的一声,一切都变成了艾莎主题。‘你能加一只能飞的大象吗?’游戏中就出现了一只能飞的大象。而且它不只是一张图片,你实际上可以和它互动。你可以——我不知道——打大象,它会回击你,或者你对大象做任何事。”
创新的快速迭代
互动、一致的世界生成带来的影响远远超出娱乐领域。
Marble和Oasis等模型可以从文本提示、照片、视频、3D布局或全景图像中生成持久的、可下载的3D环境。目前它们专注于游戏和VR,但也为在模拟环境中训练机器人打开了大门。
多维计算建模使探索分子化学、开发新的生物医学治疗方法、探究宇宙的构成、设计抗震建筑、理解复杂气候模式以及研究新材料等用例成为可能。
遵守现实世界物理规律的视频
在我认为最令人兴奋的世界模型用例中,创建超逼真的人工智能生成视频无疑特别引人注目。
随着人工智能系统对物理动力学的理解不断提高,视频生成与世界模型之间的界限日益模糊。
Runway的GWM-1通用世界模型就是一个很好的例子。它通过自回归、逐帧视频生成来模拟现实,这是Runway迈向“通用世界模型”定位的一步,完全复现了模拟环境的物理学。Luma AI的生成视频也有类似的目标。
更安全、更准确的决策
由于世界模型能够从部分信息中推断、快速模拟多个决策的许多可能结果并准确预测后果,它们可以显著改善广泛用例中的决策质量。
可能性包括复杂的多因素经济模型、理解目前难以预测的气候模式,以及支持区域和国际政策决策的复杂长期规划。
世界模型还能通过预测行动的结果(如变道以避免碰撞)来提高自动驾驶汽车的安全性。
逼真的机器人
让机器人在难以进入和/或敌对的环境中担任实验室助理、护理人员、全天候工业工人和探险家,是一个古老的科幻梦想。世界模型可以帮助克服实现“物理人工智能”的重大障碍:缺乏相关的训练数据。
NVIDIA的Cosmos平台2.5旨在预测并生成未来环境状态的物理感知视频,为自动驾驶汽车和机器人大规模生成合成训练数据。
“与语言模型不同,当今机器人研究的训练数据很少。”World Labs首席执行官兼创始人李飞飞说,“世界模型将在此中发挥决定性作用。随着感知保真度和计算效率的提高,世界模型的输出可以迅速缩小模拟与现实之间的差距。这反过来将有助于通过模拟无数状态、互动和环境来训练机器人。”