文章来源:潮游速递网作者:admin发布时间:2026-01-13 00:58:22
11月11日消息,11月10日,斯坦福大学教授、WorldLabs联合创始人李飞飞发布了一篇题为《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier(从文字到世界:空间智能是AI的下一个前沿)》的长文。
李飞飞认为,当前以大型语言模型为代表的 AI 虽然擅长处理抽象知识,却如同在“黑暗中行走”,缺乏对物理世界的真实理解。而空间智能 —— 即人类用以理解、导航并与三维世界交互的底层能力,将是实现机器真正智能的关键突破。
IT之家附原文大意如下:
1950年,在计算机尚处于仅能完成自动算术运算与简单逻辑处理的阶段时,艾伦・图灵抛出了一个至今仍在学界乃至公众视野中引发广泛讨论的问题:机器是否具备思考能力?他洞察到了当时多数人未能察觉的可能性——这需要超越时代的想象力支撑——即智能并非只能与生俱来,未来或许可以通过人工构建的方式实现。这一前瞻性的洞见,随后开启了一场以“人工智能(AI)”为名的、持续至今的科学探索征程。在我投身AI领域研究的25年间,图灵当年的愿景始终是激励我前行的重要力量。然而,我们究竟距离实现真正的人工智能目标还有多远?这个问题的答案远非一句简单的“近”或“远”所能概括。
今天,大语言模型(LLMs)等领先的 AI 技术已经开始改变我们访问和处理抽象知识的方式。然而,它们仍然是黑暗中的文字匠;口才好但缺乏经验,知识渊博但没有根基。空间智能将改变我们创造和互动真实世界和虚拟世界的方式 —— 彻底改变故事叙述、创造力、机器人技术、科学发现等等。这是 AI 的下一个前沿。
自我踏入AI领域起,视觉与空间智能便始终是我探索之路上的指南针。这正是我耗费数年打造ImageNet的缘由——它作为首个大规模视觉学习与基准数据集,是现代AI诞生的三大核心要素之一,其余两个分别是神经网络算法与现代计算能力(例如GPU)。这同样是我在斯坦福大学的实验室过去十年间将计算机视觉与机器人学习相融合的原因。而这,也是我与联合创始人贾斯廷・约翰逊、克里斯托夫・拉斯纳、本・米尔登霍尔创立World Labs的初衷:首次全方位地将这一可能性变为现实。
空间智能:人类认知的支架
AI 从未如此令人兴奋。大语言模型等生成式 AI 模型已经从研究实验室走向日常生活,成为数十亿人的创造力、生产力和沟通工具。它们已经展示了曾经被认为是不可能的能力,轻松地生成连贯的文本、大量的代码、逼真的图像,甚至短视频片段。AI 是否会改变世界已经不再是一个问题。按照任何合理的定义,它已经改变了世界。
不过,依旧有不少事物是我们目前能力所无法触及的。自主机器人的构想虽然依旧充满吸引力,却仍停留在推测阶段,离未来学家长久以来所描绘的那种融入日常生活的普及状态相去甚远。在疾病治疗、新材料研发以及粒子物理学等领域,期望借助技术实现研究进程大规模提速的梦想,大多也还停留在设想层面。至于那种能够真正理解并助力人类创造者的人工智能——无论是帮助学生掌握分子化学里的复杂概念,辅助建筑师进行空间可视化设计,为电影制作人构建虚拟世界,还是满足任何人对极致沉浸式虚拟体验的追求——其实现的目标依然显得遥远。
要了解为什么这些能力仍然难以捉摸,我们需要研究空间智能是如何演变的,以及它如何塑造我们对世界的理解。
长期以来,视觉一直是人类智能的基石,但它的力量源于更根本的东西。早在动物能够筑巢、照顾幼崽、用语言交流或建立文明之前,简单的感知行为就悄然引发了通往智能的进化之旅。
这种看似孤立的从外部世界收集信息的能力,无论是微弱的光芒还是纹理的感觉,都在感知和生存之间架起了一座桥梁,而且随着世代的更迭,这座桥梁只会变得更加强大和复杂。神经元层层叠加,从这座桥梁中生长出来,形成了神经系统,这些系统解释世界并协调生物体与其周围环境之间的互动。
因此,许多科学家推测,感知和行动成为了驱动智能进化的核心循环,也是自然创造我们这个物种的基础 —— 我们是感知、学习、思考和行动的终极体现。
空间智能在定义我们如何与物理世界互动方面起着根本性的作用。每天,我们都依靠它来完成最普通的行为:通过想象保险杠和路缘之间越来越窄的间隙来停车,接住扔过房间的一串钥匙,在拥挤的人行道上行走而不会发生碰撞,或者在不看的情况下睡眼惺忪地将咖啡倒入杯子。
在更极端的情况下,消防员在不断变化的烟雾中穿梭于倒塌的建筑物中,对稳定性和生存做出瞬间判断,通过手势、肢体语言和一种共享的专业本能进行交流,而这种本能是无法用语言替代的。孩子们在语言表达能力形成之前的几个月或几年里,通过与环境的有趣互动来学习这个世界。所有这些都以直观、自动的方式发生 —— 这是机器尚未实现的流畅性。
空间智能同样是想象力与创造力的基石。从远古的洞穴壁画到当代电影,再到沉浸式电子游戏,创作者们总能在脑海中构建出独一无二的精彩世界,并借助各类视觉媒介将其展现给大众。无论是孩童在沙滩上堆砌沙堡,还是在电脑上游玩《我的世界》,这种以空间为依托的想象,都为现实或虚拟世界里的互动体验筑牢了根基。在众多行业实践中,对物体、场景以及动态交互环境的模拟,正为工业设计、数字孪生、机器人训练等大量核心业务场景提供着有力支撑。
历史充满了定义文明的时刻,其中空间智能发挥了核心作用。
在古希腊,埃拉托斯特尼将阴影转化为几何 —— 在亚历山大测量一个 7 度的角度,恰好在太阳在西奈没有投下阴影的时刻,以计算地球的周长。
哈格里夫的“珍妮纺织机”通过空间洞察革命性地改变了纺织制造:将多个纺锤并排放置在一个框架中,使一名工人能够同时纺纱多根线,生产力提高了八倍。
沃森和克里克通过物理构建 3D 分子模型发现了 DNA 的结构,操纵金属板和电线,直到碱基对的空间排列恰到好处。
在每一个案例中,当科学家和发明家必须操纵物体、可视化结构并推理物理空间时,空间智能推动了文明的进步—— 这些都无法仅通过文字来捕捉。
空间智能是我们认知建立的基础。它在我们被动观察或主动创造时发挥作用。它驱动着我们的推理和计划,即使是在最抽象的主题上。
而且,它决定了我们的互动方式 —— 语言或行动,与他人或环境。尽管大多数人不每天像埃拉托斯特尼那样发现新知,但思考方式相同:通过感官感知世界,再直觉理解其空间运作方式。
遗憾的是,今天的 AI 还没有像这样思考。
过去几年确实取得了巨大的进步。多模态 LLMs(MLLMs)在文本数据之外,还使用大量多媒体数据进行训练,已经引入了一些空间感知的基础知识,如今的 AI 可以分析图片、回答有关图片的问题,并生成超逼真的图像和短视频。通过传感器和触觉技术的突破,我们最先进的机器人已经可以在高度受限的环境中开始操作物体和工具。
然而,坦率地说,AI 的空间能力仍然远未达到人类水平。而且,其局限性很快就会显现出来。最先进的 MLLM 模型在估算距离、方向、大小或旋转物体时表现几乎与随机相同。它们无法导航迷宫、识别捷径或预测基本物理规律。AI 生成的视频虽然新兴且非常酷,但是通常在几秒钟后就会失去连贯性。
虽然目前最先进的 AI 在阅读、写作、研究和数据模式识别方面表现出色,但在理解或互动物理世界时存在根本局限。我们对世界的看法是整体性的 —— 不仅仅是我们所看到的东西,还包括一切在空间上的关系、意义以及重要性。通过想象、推理、创造和互动(而不仅仅是描述)来理解这一点,是空间智能的力量。
没有它,AI 就与它试图理解的物理现实脱节。它无法有效地驾驶我们的汽车,无法在我们的家庭和医院中引导机器人,无法为学习和娱乐实现全新的沉浸式和互动式体验,也无法加速材料科学和医学领域的发现。
哲学家维特根斯坦曾写道,“我的语言的局限意味着我的世界的局限。”我不是哲学家,但我知道至少对于 AI 来说,不仅仅只有文字。空间智能代表着超越语言的前沿领域 —— 它是一种连接想象、感知和行动的能力,为机器真正提升人类生活开启了可能性,从医疗保健到创造力,从科学发现到日常帮助。
AI 的下一个十年:构建真正具有空间智能的机器
那么,我们该如何构建具有空间智能的 AI 呢?如何才能创造出能够像埃拉托斯特尼一样用视觉进行推理、像工业设计师一样精确地进行工程设计、像故事讲述者一样富有想象力地进行创作、以及像急救人员一样流畅地与环境互动的模型?
构建具有空间智能的 AI 需要比 LLMs 更雄心勃勃的东西:世界模型,这是一种新型的生成模型,它在理解、推理、生成以及与语义、物理、几何和动态复杂的世界(虚拟或真实)交互方面的能力远远超出了当今 LLMs 的范围。
该领域尚处于起步阶段,目前的方法包括抽象推理模型到视频生成系统。World Labs 成立于 2024 年初,基于这样的信念:基础方法仍在建立中,这将成为未来十年的决定性挑战。
在这个新兴领域,最重要的是确立指导“发育”的原则。对于空间智能,我通过三个基本能力来定义世界模型:
1. 生成性:世界模型可以生成具有感知、几何和物理一致性的世界
能够解锁空间理解和推理的世界模型也必须生成它们自己的模拟世界。它们必须能够生成遵循语义或感知指令的、无限多样且不同的模拟世界 —— 同时在几何、物理和动态上保持一致 —— 无论它们代表的是真实空间还是虚拟空间。研究界正在积极探索这些世界应该根据其内在的几何结构进行隐式还是显式表示。
此外,除了强大的潜在表示之外,我认为通用世界模型的输出还必须允许为许多不同的用例生成世界的显式、可观察状态。特别是,它对现在的理解必须与它的过去紧密相连;与导致当前世界的先前状态相连。
2. 多模态:世界模型在设计上是多模态的
世界模型和动物、人类的认知特性相似,需要具备处理多样化输入形式的能力——在生成式AI范畴里,这类输入被称作“提示”。当获取到图像、视频、深度图、文本指令、手势或动作等部分信息时,世界模型应能对完整的世界状态进行预测或生成。这就要求它既能以高真实度的视觉效果处理视觉类输入,又能同样顺畅地解读语义层面的指令。如此一来,智能体与人类都可以借助多种输入方式,和模型就世界相关信息展开交互,并得到丰富多样的输出反馈。
3. 交互性:世界模型可以根据输入的操作输出下一个状态
最后,如果动作和 / 或目标是世界模型的提示的一部分,那么它的输出必须包括世界的下一个状态,以隐式或显式的方式表示。当仅给定一个动作(无论是否带有目标状态)作为输入时,世界模型应产生与世界先前状态、预期目标状态(如果有)以及其语义含义、物理定律和动态行为相一致的输出。
随着空间智能世界模型在推理和生成能力方面变得更加强大和稳健,可以想象,在给定目标的情况下,世界模型本身不仅能够预测世界的下一个状态,而且还能够根据新状态预测下一个动作。
这一挑战的范围超过了 AI 以前面临的任何挑战。
虽然语言是人类认知中一种纯粹的生成现象,但世界的运行规则要复杂得多。例如,在地球上,重力控制着运动,原子结构决定了光如何产生颜色和亮度,无数的物理定律约束着每一次相互作用。即使是最奇特、最具创造力的世界,也是由空间物体和主体构成的,它们遵循定义它们的物理定律和动态行为。要协调所有这些 —— 语义、几何、动态和物理,都需要全新的方法。
表示一个世界的维度比像语言这样的一维、顺序信号的维度要复杂得多。要实现能够提供我们人类所享有的那种通用能力的世界模型,需要克服几个强大的技术障碍。在 World Labs,我们的研究团队致力于朝着这个目标取得根本性的进展。
以下是我们目前的一些研究课题:
一种面向训练场景的新型通用任务函数:构建一个如同LLMs中预测下一个Token般简洁优雅的通用任务函数,始终是世界模型研究领域的核心追求。由于其输入与输出空间具有复杂性,这类函数在本质上更难被精确公式化。不过,尽管仍有大量内容有待探索,但此类目标函数及对应的表示形式,必须能够体现几何与物理定律,同时尊重世界模型作为想象与现实基础表示的根本属性。
大规模训练数据:训练世界模型所需的数据,其复杂性远超文本管理。值得欣慰的是,海量数据源已然存在。互联网级别的图像与视频集合,构成了丰富且易获取的训练素材——而难点在于,需开发能从这些二维图像或视频帧的RGB信号中,提取更深度空间信息的算法。过去十年的研究显示,扩展定律将语言模型的数据量与模型规模关联起来;世界模型的核心,则是构建可在相近规模下利用现有视觉数据的架构。另外,我不会小觑高质量合成数据,以及深度、触觉信息等额外模态的作用,它们在训练过程的关键环节中,对互联网规模的数据起到了补充作用。不过,未来的发展仍依赖于更出色的传感器系统、更强大的信号提取算法,以及更先进的神经模拟方法。
新的模型架构与表征学习领域中,世界模型的探索必然会带动模型架构和学习算法的发展,特别是在现有的多模态大型语言模型(MLLM)以及视频扩散范式之外。这两类模型往往把数据标记成一维或二维序列,这让一些简单的空间任务变得没必要地复杂——像统计短视频里不同椅子的数量,或是回忆一小时前房间的模样。其他架构或许能发挥作用,比如适用于标记化、上下文理解和记忆的3D或4D感知手段。举例来说,在World Labs,我们近期关于名为RTFM的实时生成帧模型的研究,就已经体现了这种转变,该模型把空间定位的帧当作空间记忆的一种形式,以此实现高效的实时生成,同时维持生成世界的持久性。
显然,在通过世界建模完全释放空间智能之前,我们仍然面临着严峻的挑战。这项研究不仅仅是一种理论上的实践,它还是一个新型创意和生产力工具的核心引擎。World Labs 内部的进展令人鼓舞。
最近,我们与数量有限的用户分享了 Marble 的惊鸿一瞥,这是首个可以通过多模态输入进行提示的世界模型,可以生成并维护一致的 3D 环境,供用户和故事讲述者在他们的创意工作流程中探索、互动和进一步构建。我们正在努力尽快向公众开放!
Marble 只是我们在创建真正具有空间智能的世界模型道路上的第一步。随着进展的加速,研究人员、工程师、用户和商业领袖都开始认识到它所蕴含的非凡潜力。下一代世界模型将使机器达到一个全新的空间智能水平 —— 这一成就将释放当今 AI 系统中仍然很大程度上缺失的关键能力。
三星、SK海力士等存储巨头拒绝降价,拟通过减产手段抬高存储产品价格
06:58虚假AI视频大量传播,非营利机构呼吁OpenAI收回Sora2
06:43历经多年测试!《逃离塔科夫》正式版预告现已公布!
06:29美国星巴克员工罢工事件:CEO坐着私人飞机四处出行,员工却连地铁票都负担不起
06:14GTA6会不会成为系列的收官之作?玩家感慨:等新作出来我们都老了
06:00茶百道外卖实行"单点不配送"规则,遭网友吐槽喝杯奶茶都得凑单配货!
05:46韩国吃播界知名美女网红Tzuyang,每年在外卖上的开销超过2.7万美元
05:31《逃离塔科夫》Steam平台差评扎堆!服务器频频崩溃引玩家强烈不满
05:17俄罗斯一名女乘客因不满出租车内播放的歌曲,竟拔出砍刀威胁司机更换曲目
05:03