人体做爰aaaa免费丨国产精品久久久久久福利丨日本www.在线中文字幕丨亚洲成av人最新无码丨在线|国产精品女主播阳台丨色屁屁xxxxⅹ在线视频丨日韩高清av丨国产边摸边吃奶边做爽视频丨成年在线网69站丨精品在线一区二区丨在线播放91灌醉迷j高跟美女丨女兵的真人大毛片丨国产精品久久欧美久久一区丨天堂久久精品丨装睡被陌生人摸出水好爽丨精品国产福利在线丨美女视频一区丨欧美 日韩 国产精品丨啪啪网站大全丨国产成人高清在线重口视频

行業新聞

行業新聞

Industry News

世界太小,不夠世界模型們用了
發布時間:2025-12-05 15:35:14 | 瀏覽次數:


硅星人  黃小藝


世界模型,已經像這個世界一樣混亂了。


OpenAI指著Sora生成的視頻說,這就是“世界模擬器”;楊立昆(Yann LeCun)指著Sora,說它是像素幻覺,真正的世界模型應該是“預測未來的抽象大腦”;谷歌DeepMind稱,Genie3就是一個“可交互的通用世界模型”;而李飛飛說,“空間智能”才是正解。


現實世界是唯 一的、客觀的,但AI圈里似乎人人都在制造屬于自己的“世界模型”。


盡管定義南轅北轍,但這群吵得不可開交的大佬們,在一個基本判斷上達成了共識:大語言模型早晚到頭,世界模型才是通往AGI的必經之路。


大語言模型在GPT-3.5之后經歷了參數的膨脹,而世界模型在技術路線收斂之前,就先經歷了概念的通貨膨脹。


世界模型是個筐,啥都往里裝


“世界模型”的混亂,根源在于它是一種目的,指的是讓AI具備理解外部世界規律,預測世界變化的能力,而非具體的技術路徑。


最 先混亂的就是概念。


關于世界模型的思想,最早可追溯至1943年認知科學家Kenneth Craik提出的“心智模型(Mental Model)”,即大腦通過構建外部世界的微縮模型來進行預測,換句話說,我們腦中有一個心智模型,不僅能處理當前看到的信息,還能預測“如果我這樣做,世界會變成什么樣子”。


雖然該理論在20世紀90年代就被引入強化學習了,但真正讓它在現代AI領域擁有姓名的,是Jürgen Schmidhuber等人在2018年發表的奠基性論文《Recurrent World Models Facilitate Policy Evolution》。這篇論文首次系統定義了神經網絡世界模型的框架,那時它還是一個由視覺組件(VAE)、記憶組件(RNN)和控制器構成的具體架構,在簡陋的賽車游戲和二維類射擊游戲里訓練。


七年過去,隨著大語言模型的爆發,對通用人工智能的渴望讓這一概念在近兩年像“線面”一樣繁殖了。


Yann LeCun在2022年提出了以世界模型為核心的“自主智能”,強調通過模塊化設計和自監督學習獲取抽象表征,并在2023年、2024年先后推出了I-JEPA、V-JEPA預測模型。


李飛飛在2024年提出了“空間智能”理念,創辦World Labs,又新發布了Marble,主張世界模型必須具備生成可交互3D環境的物理一致性能力,“對我來說,空間智能是創造、推理、互動、理解深刻的空間世界的能力,無論是二維、三維還是四維,包括動態和所有這些。”


甚至連OpenAI前首席科學家Ilya Sutskever提到的“壓縮即智能”,本質上也是認為只要能無損地壓縮預測下一個token(無論是文本還是像素),模型內部就構建了一個關于世界的映射。


一個抽象的概念,衍生出了更多抽象的概念。


若剝離這些定義上的爭論,從技術方向來看,當前世界模型主要分為兩大流派,分別對應了兩種截然不同的世界觀:表征派(Representation)與生成派(Generation)。


Yann LeCun就是“表征派”,這是一條不產生畫面的極簡主義路線。


類比人腦中的心智模型(Mental Model),我們對世界的預測和行動,往往是一種直覺,不是物理公式或者具體的畫面。基于此,LeCun的世界模型是一個深藏在系統后端的“大腦”,它只在表征處理后的潛在空間里運作,預測的是“抽象狀態”。


在這篇推文中,LeCun明確定義了一個世界模型需要同時輸入四個變量,對先前世界狀態的預估s(t),對當前的觀察x(t),當前的動作a(t),一個潛在變量z(t),結合四個變量來預測下一時刻的世界狀態s(t+1)。


這個定義有兩個關鍵點,一是世界模型預測下一刻的“狀態”而不是畫面,二是能針對連續的動作交互進行因果推斷。


比如一輛車開過來,它不會在腦海里畫出車牌號和反光,只會計算出“障礙物靠近”這一狀態。這種模型不為了給人看,只為了給機器做決策,它追求的是邏輯上的因果推演,而非視覺上的逼真。LeCun提出的I-JEPA(聯合嵌入預測架構)和V-JEPA,都摒棄了生成式AI“預測每一個像素”的做法,畢竟現實世界充滿了不可預測的噪音(比如樹葉的紋理),AI不應該浪費算力去生成這些細節。


第二大流派則是目前聲量最 大的“生成派”,和Yann LeCun最核心的區別就在于,他們要重建、模擬視覺世界。


這一派常常引用一句來自物理學家Richard Feynman的名言:“What I cannot create, I do not understand. —— 我若無法創造,便不能理解。”也就是說,只要模型能生成對的世界,就證明它懂了世界的物理規律。


2024年初,OpenAI在介紹Sora時就提到,它是一個世界模擬器。OpenAI認為,只要數據量足夠大,模型就能通過預測下一幀像素,涌現出對物理規律的理解。通過學習數十億的視頻片段,它記住了“人走路時腿會交替”、“玻璃杯掉落會破碎”的概率分布。


Sora作為世界模型的爭議很大,最直接的一點就是它無法回應LeCun對于動作與世界狀態的因果律——如果模型只能像放電影一樣生成視頻,而不能回答“如果我踢了這個球,它會怎么飛”這樣的動作交互,那么它可能只是記住了“球飛行的軌跡概率”,而不是理解了“力學定律”。


那么,如果這個視頻生成能夠根據用戶的動作輸入,實時預測下一幀呢?


于是,生成派衍生出了更進一步的形態:互動式生成視頻(Interactive Generative Video),例如Genie3。


和Sora不一樣,IGV的區別在于實時性、可交互性,也就是有了動作(Action)。谷歌 DeepMind 發布的 Genie 3,將其明確定位為「通用目的世界模型」。它允許用戶進入場景并與之互動,支持生成 720p 分辨率、24fps 幀率的實時畫面。用戶可以自由導航,比如以第 一人稱視角駕駛或探索復雜地形。這意味著模型不僅理解畫面,還理解了動作與環境變化的因果關系,盡管目前這個動作僅限于方向按鍵的上下左右。


最后,則是李飛飛所主張的“3D空間智能(Spatial Intelligence)”,以World Labs發布的Marble為最新代表。


如果說前兩者是在處理視頻流,那么Marble則是試圖從底層構建一個持久的、可下載的3D環境。


這條路線的技術底座更接近于“3D高斯潑濺(3D Gaussian Splatting)”。它不依賴傳統的網格建模,而是將世界表征為成千上萬個漂浮在空間中的彩色模糊小斑點(高斯體)。通過這些微粒的聚合,模型能渲染出精美的三維畫面,并允許用戶通過提示詞生成、利用內置編輯器自由改造,支持一鍵導出到Unity等引擎中。


盡管Marble現在離李飛飛所提到的空間智能還很遠,但可以看出她認為達到空間智能的第 一步,先要建立一個高精度的物理準確的3D空間。我們可以總結一下,區別于Sora,Marble生成的是一個符合物理規律的3D世界,區別于Genie3,Marble不是實時生成的世界,但它的精度和還原度更高。


但這些路線的成果,都沒有達到各自所期待的世界模型的模樣,甚至彼此間吵得不可開交,也都有一批擁護者,而這也導致“世界模型”的概念外延被無限擴大。


如今,凡是涉及環境理解與模擬的上下游工程,不管是具身智能、自動駕駛、游戲視頻等結構化的垂直領域,還是生成式視頻、多模態模型、視頻理解、3D模型等技術,甚至做視覺信息壓縮的DeepSeek OCR,全都主動或者被動地和世界模型掛上了鉤。


世界模型越來越像一個筐,啥都能往里裝了。


有泡沫也有野心,世界模型是一種“反LLM中心”敘事


如果僅僅是技術路線的不同,不足以解釋為何“世界模型”會在今年會井噴。熱潮背后,交織著資本的焦慮、技術的瓶頸以及對AGI的渴望。


我們必須先承認,這里面有巨大的泡沫成分。


在創投圈,敘事往往比代碼更值錢。當“大語言模型”的競爭格局已定,OpenAI、Google等瓜分了基礎模型的天下,后來者和垂直應用開發者急需一個新故事來打動投資人。


“視頻生成模型”聽起來就是一個工具軟件,天花板有限;但一旦改名叫“世界模型”,瞬間就上升到了AGI的高度。


這也是當下AI時代一個有趣的現象:科研人員大規模下場創辦公司,學術與商業發生了重疊。


在純粹的科研世界里,所有的創新都必須建立在嚴謹的公理之上。如果你要解決一個問題(如實現AGI),你首先必須精準地定義這個問題。然而,當 Lab 變成了 Company,學術大佬們變成了CEO,這種原本局限在期刊里的“定義之爭”,就被拋到了商業世界。


在科研中,不同路線可以共存;但在創業公司中,資源是有限的,如果 A 定義是對的,B 公司的幾十億投入可能就打了水漂,一個定義的差異,對應的卻是數以億計的算力投入方向,上下游產業鏈的備貨,投資人的價值重構。


而當我們拋開定義爭奪和炒作,世界模型的興起,也像是一場“反LLM中心主義”的運動。


整個AI行業對大語言模型(LLM)產生了一種集體性的技術焦慮。這種焦慮源于LLM的先天缺陷:它是“離身”(Disembodied)的。LLM是在純文本的符號系統中訓練出來的,它知道“蘋果”這個詞和“紅色”、“甜”經常一起出現,但它從未真正“看見”過蘋果,也無法理解蘋果掉在地上的重力加速度,更別提隨著數據規模的擴大,AI提升的邊際效益正在遞減。


無論是Ilya Sutskever在離職OpenAI后強調的“超越大模型”,還是李飛飛提出的“空間智能”,核心都在于一點:AI需要從學習“人類說的話”,轉向學習“世界發生的事”。行業正在從單純的文本處理,轉向對物理現實的模擬與交互,因為大家都意識到,通往AGI的最后一塊拼圖,不在互聯網的文本數據里,而在真實的物理世界中。


只是希望在世界模型真正出現之前,這個詞不要先被玩壞了。


 
打印本頁 || 關閉窗口
 上一篇:開開門創投受邀參加 “創業黔行”首場投融資對接會
 下一篇:

公司新聞

行業新聞

優質項目

服務交流

0
分享到:
公司簡介 | 關聯企業 | 公司新聞 | 聯系我們

貴州開開門投資管理有限公司

貴州貴孵創業孵化投資管理有限公司

黔ICP備15015032號-1

  貴公網安備 52010302002155號   投中網電子營業執照