大語言模型的局限在哪里?
(資料圖片)
AI教母李飛飛這樣說:
語言信號的輸出主要基于人類給的輸入信號,可以說,語言是不獨立于人之外的。
然而,物理世界是客觀存在的。所以提取、理解、生成3D世界的數(shù)據(jù)、實現(xiàn)空間智能和處理語言問題時截然不同。
沒想到,李飛飛一年前的訪談被扒出來,又引發(fā)大量圍觀。
她這段話意味著,大語言模型或許還不是真正的智能。
下面來看看大家還在熱議些啥吧。
這場討論的焦點在于,現(xiàn)在基于語言信號訓練的模型到底懂不懂物理世界的常識
首先,回顧一下李飛飛的說法。
她認為語言模型及當今的多模態(tài)語言模型的底層表示是一維的。它們在根本上就是操作于離散token的一維序列上,所以模型對于書面文本這種一維序列的表示是非常自然的。
然而,在處理空間智能問題時,核心是世界的三維本質(zhì)。
雖然多模態(tài)大語言模型也能看圖像,但它是將其他模態(tài)硬塞進這種一維token序列的底層表示中,這種一維且由人類生成的數(shù)據(jù),可能無法很好地表示物理世界,造成信息損失。
如果直接讓模型處理3D數(shù)據(jù),那么表示類型與模型旨在執(zhí)行的任務類型之間將會有更好的匹配。
而空間智能的挑戰(zhàn)就是在于從這個真實世界中提取、表示和生成信息。
除了這個維度上的差異,從更哲學的角度來說,她認為語言是一種純粹由生成產(chǎn)生的信號。自然界中并不存在預設的語言形式,也就是說語言不能獨立于人類之外。
大模型能夠通過學習并反芻所輸入的數(shù)據(jù),無論輸入什么樣的數(shù)據(jù),模型都能用足夠的泛化能力處理語言任務。這是因為語言,或者說文本的本質(zhì)允許模型在生成范式下表現(xiàn)得出色。
與語言不同,3D世界是真實存在于外部的。這個世界遵循著物理定律,并因材料等多種因素而具有其自身的結構。
因此,要讓模型倒推出3D世界的信息,并能夠表示和生成它,在技術層面上,空間智能可以借鑒語言模型,但從哲學的范疇來看,這兩者仍存在本質(zhì)差異。
有人舉了一堆例子來證明李飛飛的觀點,同時說明語言模型在理解物理世界時確實有局限。
基于語言信號訓練的模型在物理世界任務中表現(xiàn)差
比如用一個小實驗來測試Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro三個多模態(tài)大模型的物理常識,并與人類兒童表現(xiàn)做對比。
研究用Animal-AI這個用來測試動物和人工智能體物理認知的3D環(huán)境來測試大模型,讓大模型通過前進/后退、左轉(zhuǎn)/右轉(zhuǎn)、環(huán)境描述與規(guī)劃控制三個指令控制一個小角色在虛擬環(huán)境中完成任務。
第一個實驗是讓大模型完成一些簡單的任務,如直接找到小球,還有一些稍難的任務,如躲開障礙物找到小球。
結果發(fā)現(xiàn)模型只能搞定最簡單的任務,稍難一點就不行了。
第二個實驗是在第一個實驗的基礎上增加教學案例,比如演示正確做法,結果模型表現(xiàn)也沒有明顯的提升。
對比之后再看,這些大模型的表現(xiàn)遠不及人類兒童,也比不上專門為這個環(huán)境測試的機器人。
還有其他研究團隊設計了一個名為ABench-Physics的工具,專門用來測試大語言模型在物理推理方面的能力,核心就是想搞清楚這些模型到底能不能真的理解物理、解決物理問題。
測試分兩部分,Phy A由400道競賽級別的物理難題組成,先給大模型來個基礎測試。
Phy B屬于動態(tài)部分:修改Phy A中題目的數(shù)字,但不改變物理原理,用來測試大模型能不能進行靈活的物理推理。
結果顯示,最厲害的模型在Phy A上的正確率只有43%,而在Phy B中模型的平均準確率下降了22.5%。
這說明模型并不是真懂物理。
還有團隊用視覺任務測試大模型,比如讓模型判斷照片中哪些物體更近,或者匹配相同的事物。
人類對這些任務的正確率能達到95.7%,而幾個模型最高的正確率僅有51%。在視覺感知上,大模型還遠不及人類。
這些結果都進一步證明了李飛飛之前訪談中關于大模型理解真實物理世界局限性的觀點。
也得到了網(wǎng)友們的認同。
模型的開發(fā)確實正在擴展到將模型建立在物理與多模態(tài)理解的基礎上。
當然了,有正方就有反方。
有人先是反駁了關于語言的論述。
也有人認為,在某些情況下,語言描述現(xiàn)實的能力可能會比感知更優(yōu)。
還有人說模型的語言不用局限于人類的語言、文本等,人工智能或許能創(chuàng)造出自己的語言來理解物理世界。
或者,我們該思考,用語言訓練大模型取得現(xiàn)有成就的根本因素又是什么呢?
對于這場討論,你又有什么樣的看法呢?
[1]https://x.com/rohanpaul_ai/status/1965242567085490547[2]https://www.youtube.com/watch?v=vIXfYFB7aBI
— 完 —
熱門