标题 摘要 内容
    详情
    信息来源:澎湃新闻

    |我们惊叹于AI妙笔生花、代码无瑕的才华,却总在机器人把咖啡洒满桌布、被充电线逼到死机的那一刻,瞬间清醒:原来,这不过是硅基生命的一次‘降维打击’未遂。

    有没有感觉一些所谓的智能产品其实都挺傻的。

    比如扫地机器人,每天勤勤恳恳在家转圈,但想让它卡住,只需要一根充电线。

    然后它就开始原地疯狂打转,直到没电。

    有没有发现一个矛盾:AI在虚拟世界里能写诗、能写代码,看起来非常聪明

    可一旦想让它进入现实,比如帮我去厨房倒杯水,它就立马失灵了。

    它根本不理解物理世界。

    一、AI活在真空里

    大模型本质上只干了一件事:预测下一个词。

    你说上半句,它能接下半句,语言天赋的确惊人。

    但不幸的是,它所有的聪明都建立在文字这个虚拟符号上,却从未触碰过真实世界的一粒灰尘。

    图灵奖得主杨立昆曾说,只会文字接龙的AI,没有未来。

    必然,他提出的方向是让AI建立一种内部世界模型,能够感知环境、理解状态、预测后果,并根据目标规划行动。

    区别于当前AI,不只是回答问题,而是能在某种程度上模拟如果我这么做,会发生什么。

    我们来具象一下这种区别:

    一瓶没开封的矿泉水,和一杯盛满热咖啡的杯子,同时被放在桌子边缘。

    一个婴儿可能不懂区别,但任何一个成年人都会本能地紧张,因为大脑瞬间就脑补出了两种后果

    水瓶掉下去是咚一声闷响,而且水不会溢出来

    咖啡掉下去则是啪一声炸开,液体四溅。

    这种预判,来自我们从小被重力、惯性、液体流动性反复教育出来的物理常识。

    但AI没有这种常识。

    它能写出流体力学的博士论文,但判断不了一杯水被打翻后的运动轨迹。

    今年5月,一篇发表在arXiv上的综述论文指出:

    世界模型的核心作用是让智能体能够在“脑海”中预测自身行为的后果,而无需在真实环境中执行。

    目前AI对物理世界理解的这种缺失,导致任何想要进入现实世界的机器人都像个盲人。

    二、指向同一个方向

    今年以来,科技巨头们好像都指向了一个方向,AI必须从数字世界转向物理世界。

    6月初的台北GTC大会上,英伟达发布了Cosmos 3,全球首款完全开源的全模态物理AI世界模型。

    它能够以领先的物理精度原生理解和生成文本、图像、视频、环境声音和动作。

    黄仁勋说,物理AI的ChatGPT时刻已经到来,Cosmos3将物理AI的训练和评估周期从数月缩短到数天。

    就像我们前文说的,它让机器人在动手之前可以先思考,在虚拟环境中模拟行动后果,选出最优方案再执行。

    谷歌DeepMind也在做了同样的事。

    他们开发的Genie 3世界模型,已经能以每秒24帧的速度生成持久的3D交互式环境。

    今年5月,DeepMind把谷歌街景数据接入了Genie,用户输入一个真实地点,就能生成可交互的沉浸式场景。

    这相当于给AI提供了一个虚拟训练场,在模拟环境中反复试错,不用在现实世界中承担后果。

    三、底层问题的争论

    正当产业忙着落地时,关于什么叫世界模型的争论也随之而来。

    到底什么叫世界模型?

    今年6月初,斯坦福AI科学家李飞飞专门写了一篇长文回应这个问题。

    她的结论很直接:世界模型是现在AI领域最重要、也最被滥用的术语之一。

    她做了一个功能分类:渲染器、模拟器、规划器。

    一个能生成火焰视频的模型、一个能模拟燃烧过程的物理引擎、一个能规划行动路径的决策系统,现在都被叫作世界模型。

    但它们实际在做三件完全不同的事。其中,模拟器受到的关注最少,却最为关键,它是连接看起来像和物理上对的桥梁。

    杨立昆更是认为大语言模型这条路走错了,基于JEPA架构的世界模型才是通往AGI的唯一可行路径。

    两位AI领域顶级学者不约而同押注世界模型,世界模型正在成为AI下一个十年的核心战场。

    四、道阻且长

    英伟达测算,物理AI对应制造与物流产业的重塑空间约50万亿美元。

    但机遇越大,挑战也越艰巨。

    真实物理世界的数据极度稀缺,国内具身数据不过百万小时量级,和大语言模型动辄万亿级别token数据的训练量比起来,差距悬殊。

    合成数据可以填补部分空白,却无法完全还原真实世界的复杂和不确定。

    李飞飞也承认,从原始像素数据端到端稳定训练世界模型,至今仍是巨大的技术挑战。

    杨立昆同样如此,他的JEPA架构虽然理论优美,但工程落地的路还很长。

    但整体方向是清晰的。

    AI正在经历一场蜕变,像刚学走路的孩子,笨拙也固执,但终究会理解并触碰这个真实的世界。