【导语】图灵奖得主杨立昆指出,当前AI界热捧的大语言模型存在四大难以突破的弱点,其中之一便是对物理世界的理解。为解决这一难题,“世界模型”技术应运而生。世界模型通过深度分析现实世界视频,使机器能够像人类一样理解物理空间、规律,并进行推理决策。从理论构想到实践落地,世界模型在游戏、自动驾驶、天气预报等领域展现出巨大潜力,成为探索人工智能通用智能(AGI)核心架构的重要路径。然而,世界模型仍面临算力、泛化能力、数据规模等挑战。尽管如此,作为深度学习之外的探索道路,世界模型为AI的发展提供了更多可能性。

图灵奖得主杨立昆认为,目前AI界持续追捧的大语言模型并非十全十美,它隐藏着四个难以突破的致命弱点:一是理解物理世界,二是拥有持久记忆,三是具备推理能力,四是复杂规划能力。
而能够克服第一个“致命弱点”的技术,叫作世界模型。

这听起来或许很抽象,但你一定知道谷歌的3D游戏、特斯拉的自动驾驶。
世界模型意味着机器能够像人一样辨别物理空间、理解物理规律、根据经验做出推理决策。
与大语言模型不同的是,世界模型不再遵循从海量文本语料生成概率的逻辑,而是在深度分析大规模现实世界视频后推测因果。
就像人类世界的婴儿一样,在交互学习中构建对这个世界的认知。

想象一个刚出生的婴儿,她的眼睛尚未完全聚焦,却能通(tōng)过(guò)触(chù)摸(mō)、温(wēn)度(dù)、声音的碎片拼凑出世界的轮廓。人类大脑用数百万年进化出这种能力——将感官信息转化为对物理规律的理解。
而这恰是今天人工智能所欠缺的,世界模型正在努力发展的——从数据中重构对重力、时间等知识的理解。
世界模型的概念最早可追溯至1980s到1990s的认知科学和控制理论,那时的研究者受心理学影响,提出AI系统需要构建对环境的内部模拟,从而进行预测(cè)和(hé)决(jué)策(cè),即(jí)AI的(de)环(huán)境(jìng)建(jiàn)模(mó)能(néng)力(lì)。
这(zhè)里(lǐ)有(yǒu)一(yī)个(gè)重(zhòng)要(yào)的(de)要(yào)素(sù):环(huán)境(jìng)。
从(cóng)生(shēng)物(wù)学(xué)上(shàng)来(lái)讲(jiǎng),不(bù)论(lùn)是(shì)微(wēi)生(shēng)物(wù)、动(dòng)物(wù)还(hái)是(shì)人(rén),行(xíng)为(wèi)都(dōu)遵(zūn)循(xún)着(zhe)一(yī)个(gè)最(zuì)基(jī)本(běn)的(de)规(guī)则:刺激-反应模式,即生物反应是对环境刺激的直接响应。

随着生物千亿年漫长的进化,动物发展出感觉和心理,通过视觉、听觉、嗅觉等感官感知外界,产生出兴奋、恐惧等简单情绪;人类进一步发展出自我意识,而人类意识和动物感觉最大的区别是能否自主规划、有目的地进行决(jué)策(cè)和(hé)行(xíng)动(dòng)。
拿(ná)生物进化过程和AI的发展历程相比,我们不难发现,其实AI的终极形态AGI就是要发展出自主感知现实、自我规划、有目的决策的能力。
世界模型的雏形就萌芽于心理学家对人类和动物认知理解世界并做出决策的观察。这个理论叫作心智模型,1990年由David Rumelhart提出,强调智能体需对环境形成抽象表征。
以我们自身举例,人类大脑对周围世界有一种习得的内在认知框架,根据经验做决策,如看到乌云就联想到下雨。再比如,我们不会记住每片树叶的形状,却能瞬间判断树枝能否承受体重。同理,世界模型就是让机器构建起对周围环境和世界的理解和预测能力,比如看到火就联想到烫伤。这种抽象能力,正是这一时期学者希望机器具有的禀赋。
但是,这阶段的世界模型研究停留在理论构想阶段,虽有了较为清晰的定义和目标,仍没有具体的技术路径。

世界模型研究开始落地是2000s到2010s的计算建模阶段,随着强化学习和深度学习的深入发展,学者开始尝试用神经网络构建可训练的世界模型。
强化学习通过奖惩机制让其在与环境交互过程中不断习得策略,类似于“训狗”,深度学习通过分层特征提取让其从海量数据中自动学习规律,类似于“炼金”。
2018年,DeepMind 《World Models》(Ha & Schmidhuber)论文首次用“VAE+RNN+控制器”的三段式架构,构建可预测环境的神经网络模型,成为现代世界模型的里程碑。
这一过程类似于“造梦”——先通过自动编码器VAE将现实场景压缩成数据,再利用RNN循环神经网络推演未来可能的情节,最后用精简的控制器指导行动。这意味着世界模型首次具备了颅内推演的能力,像人类一样在行动前预判后果,大大降低了试错成本。
2022年后,世界模型进入大模型时代,借助Transformer的序列建模能力和多模态学习技术,应用范围从单一模态扩展到跨模态仿真,世界模型的推演也从2D走向3D(如OpenAI的GATO、DeepMind的Genie)。

近期研究如Meta的VC-1、Google的PaLM-E进一步将世界模型的概念带入公众视野,将世界模型与大语言模型结合以实现更通用的环境推理成为一种技术发展路径。
Google的PaLM-E(5620亿参数)模型成功将语言模型与视觉、传感器数据等物理世界信息结合,机器人能够理解复杂指令(如“捡起掉落的锤子”)并适应新环境执行任务。Meta Llama系列的开源多模态框架(如(rú)MultiPLY)进(jìn)一步促进了对物理环境的3D感知研究。
由上,从概念推演到落地实践,世界模型在发展中逐步摸索,渐渐走出一条从混沌到清明的路。

Transformer架构的进化、多模态数据的爆发,让世界模型走出训练场,走进游戏场,再走向真实世界——谷歌、腾讯通过其生成逼真的游戏场景,特斯拉用神经网络预测车辆轨迹,DeepMind通过建模预测全球天气。
就这样,在实验室中蹒跚学步的世界模型开始了他对现实物理规律的探索之路。
就像人类幼年通过游戏感受规则完成社会化一样,世界模型的第一关也是游戏。
初期的模型应用仰赖规则明确的虚拟环境和边界清晰的离散空间,如Atari游戏(DQN)、星际争霸(AlphaStar),采用表格型模型(如Dyna),后期结合CNN/RNN处理图像输入。

进化至3D版后,谷歌DeepMind的Genie 2可通过单张图片生成可交互的无限3D世界,时长达1min,用户可自由探索动态环境(如地形变化、物体互动)。由腾讯、港科大、中国科大联合推出的GameGen-O模型可一键生成西部牛仔、魔法师、驯兽师等游戏角色,还能以更高保真度、更复杂的物理效果生成海啸、龙卷风、激光等各种场景。
经过大量训练后,世界模型由游戏过渡到工业场景。
游戏引擎的核心能力在于构建高保真、可交互的3D虚拟环境。这种能力被直接迁移到工业场景中,用于模拟工业场景中各种可能出现故障的复杂场景。

机器人公司波士顿动力在虚拟环境中预演机器人动作(如摔倒恢复),再迁移到实体机器;特斯拉2023年提出的世界模型直接整合了游戏引擎的仿真技术,利用合成数据训练自动驾驶系统,减少对真实路测数据的依赖;蔚来的智能世界模型能够在极短时间内推演数百种可能情境并做好预案和决策。
最近,世界模型还走进了基础研究领域。
DeepMind的GraphCast靠世界模型处理百万级网(wǎng)格(gé)气(qì)象(xiàng)变(biàn)量(liàng),预(yù)测(cè)天气能力比传统数值模拟快1000倍,能耗降低1000倍。它通过图神经网络架构,能够直接从历史再分析数据中学习天气系统的复杂动力学,精准、高效预测全球天气。

从游戏般的虚拟场景到自动驾驶等现实场景,世界模型的本质是通过大量多模态资料理解物理世界的规律。未来,“世界模型+大(dà)语(yǔ)言(yán)模(mó)型(xíng)”可(kě)能(néng)成(chéng)为AGI的核心架构,让AI不仅能聊天,还能真正理解并做出决策改变现实世界。
不过,我们为何需要世界模型?在大语言模型火爆全球的今天,是什么让其显得不可替代呢?

让AI真正从模仿表征到感知本质,克服其各种恐怖谷效应的关键是:让它真正理解这个世界,了解现实空间和物理规律,进而理解它为什么会做这件事,而不是机械地根据海量数据的关联概率推测下一个token是什么。
这是基于大规模文本语料的大语言模型和不断试错优化寻找最优路径的强化学习做不到的,只有世界模型能做到。
传统AI是数据驱动型的被动反应系统,而世界模型通过构建内部虚拟环境理解了物理、碰撞等现实规律,能够像人类一样通过想象预演行动后果,并在游戏、机器人等领域共享底层推理算力。
首先是通过底层建模和多模态整合构建出跟人类一样的心智模型。外部,世界模型不仅模拟物理规律,还试图理解社会规则和生物行为,从而在复杂场景中趋利避害。内部,世界模型根据感知、预测、规划和学习的协同,形成类似人类心智的时空认知能力。

其次是因果预测和反事实推理能力。世界模型能够基于当前状态和行动,预测未来的演变结果。其具备类似人类的常识库,能填补缺失信息并进行反事实推理(what if),即使未直接观察某事件,也能推断“如果采取不同行动会如何”。这种能力使其在数据稀缺时仍能有效决策,减少对海量标注数据的依赖,在自动驾驶领域应用较多(duō)。
最(zuì)后(hòu),世(shì)界(jiè)模型通过自监督学习构建对世界的通用表征,获得了跨任务、跨场景的泛化能力,而传统模型通常需针对特定领域的具体任务微调。
但是,这些能力,为什么火极一时的大语言模型做不到呢?

要弄清为什么世界模型的预测能力和大语言模型的推测token能力不一样,我们需要弄清一个概念:相关性≠因果性。前者是概率关联、后者是因果推理。
大语言模型(如GPT系列)侧重于大数据驱动的自回归学习,通过海量文本数据训练模型以生成文本,本质是预测概率,而世界模型学派认为自回归的Transformer无法通往AGI。AI需要具备真正的常识性理解能力,这些能力只能通过深度分析大量照片、音视频等多模态数据对世界的内在表征来获(huò)得(de)。
模(mó)型(xíng)结(jié)构(gòu)层(céng)面(miàn),大(dà)语(yǔ)言(yán)模(mó)型(xíng)主要(yào)依(yī)赖(lài)Transformer架构,通过(guò)自(zì)注(zhù)意(yì)力(lì)机(jī)制(zhì)处(chù)理(lǐ)文本(běn)序(xù)列(liè)。世(shì)界(jiè)模(mó)型(xíng)则(zé)包(bāo)含(hán)多(duō)个(gè)模(mó)块(kuài),如(rú)配(pèi)置(zhì)器(qì)、感(gǎn)知(zhī)、世(shì)界(jiè)模(mó)型(xíng)、角(jiǎo)色(sè)等(děng),能(néng)够(gòu)估(gū)计(jì)世(shì)界(jiè)状(zhuàng)态(tài)、预(yù)测(cè)变(biàn)化(huà)、寻(xún)找(zhǎo)最(zuì)优(yōu)方(fāng)案(àn)。
通(tōng)俗(sú)地(de)讲(jiǎng),大(dà)语(yǔ)言(yán)模(mó)型(xíng)训(xun)练(liàn)出(chū)的(de)文本(běn)天(tiān)才(cái)是(shì)纸(zhǐ)上(shàng)谈(tán)兵(bīng)的(de)文将(jiāng),对(duì)常(cháng)识(shi)可(kě)能(néng)一(yī)窍(qiào)不(bù)通(tōng)。而(ér)世(shì)界(jiè)模(mó)型(xíng)更(gèng)像(xiàng)在(zài)建(jiàn)模(mó)环(huán)境(jìng)里(lǐ)身(shēn)经(jīng)百(bǎi)战(zhàn)的(de)武(wǔ)将(jiāng),可(kě)以(yǐ)凭(píng)直(zhí)觉(jué)和(hé)经(jīng)验(yàn)预(yù)判(pàn)对(duì)手(shǒu)如(rú)何(hé)出(chū)招(zhāo)。

世(shì)界(jiè)模(mó)型(xíng)虽(suī)前(qián)景(jǐng)可(kě)期(qī),目(mù)前(qián)依(yī)然(rán)面(miàn)临(lín)着(zhe)一(yī)些(xiē)瓶(píng)颈(jǐng)。
算(suàn)力(lì)上(shàng),训(xun)练(liàn)世(shì)界(jiè)模(mó)型(xíng)所(suǒ)需(xū)要(yào)的(de)计(jì)算(suàn)资(zī)源(yuán)远(yuǎn)超(chāo)大(dà)语(yǔ)言(yán)模(mó)型(xíng),且(qiě)存(cún)在(zài)“幻(huàn)觉(jué)”(错(cuò)误(wù)预(yù)测(cè))问(wèn)题(tí);泛(fàn)化(huà)能(néng)力(lì)上(shàng),如(rú)何(hé)平(píng)衡(héng)模(mó)型(xíng)复(fù)杂(zá)度(dù)与(yǔ)跨(kuà)场(chǎng)景(jǐng)适(shì)应(yīng)性(xìng)仍(réng)需(xū)突(tū)破(pò);训(xun)练(liàn)集上(shàng),多(duō)模(mó)态(tài)的数据规模更少,且需深度标注,质量把关是重中之重。
如果说类似GPT一样的大语言模型已经到了能言善辩的青春期,世界模型实则还处于牙牙学语的幼年期。
总的来讲,世界模型是深度学习之外的另一(yī)条探索道路。如果未来深度学习陷入发展瓶颈,世界模型可能是一种备选方案。但现阶段,世界模型仍在探索期,我们仍要将主心骨放在大语言模型和深度学习这条技术线上。
多点发力,协同并进,才能让AI的成长有更多道路可走。


