楊立昆是法國計算機科學家 Yann LeCun 的中文名,他任 Meta 首席人工智能科學家和紐約大學教授,他帶領 Meta 的團隊推出了開源大模型領域 Llama。他與 Yoshua Bengio、Geoffrey Hinton 一同獲得2018年的圖靈獎。2024年3月28日,楊立昆在哈佛大學做了一場學術演講,其中提到了自己關于 AI 的7個觀點。
楊立昆在哈佛大學的演講現場
1.AI 應該能夠理解、記憶、推理、規劃
動物和人類可以通過嘗試和學習,理解世界是如何運作的,他們可以進行推理和規劃,他們有常識,這是今天絕大多數 AI 系統做不到的。
盡管硅谷的炒作總是告訴你 AGI 即將到來,但我們實際上并沒有那么接近。我們目前擁有的 AI 系統,在一些能力上極其有限。
如果我們有了接近人類智力的系統,我們就會有能夠在20小時練習中學會駕駛汽車的系統,就像任何17歲的青少年那樣;我們就會有家用機器人,能夠一次性學會清理餐桌和清空洗碗機,就像10歲孩子那樣。
所以我們漏掉了一些重要的東西。我們應該讓 AI 像人類那樣學習世界是如何運作的,不僅僅是從文本中學習,還應該從視頻或者其他感官輸入中學習。
我們需要一個擁有世界模型,擁有記憶,能夠推理,能夠規劃行動的系統,而且它是可控和安全的,這就是目標驅動的 AI。
2. 現在的大模型沒有前途
LLM 以及圖像識別、語音識別、翻譯等,現在 AI 中所有很酷的這些東西,都歸功于自監督學習。
它的工作方式是,你拿一段數據,比如一段文本,以某種方式轉換或破壞它,比如用空白標記替換其中的一些單詞。然后你訓練一些巨大的神經網絡來預測缺失的單詞,這就是 LLM 的訓練方式。
它們工作得很好,是因為 LLM 會在數十萬億個 token 上訓練,但這種東西會犯愚蠢的錯誤。它們并不真正理解邏輯,如果你告訴它們 A 和 B 是一回事,它們不一定知道 B 和 A 也是一回事。它們并不真正理解排序關系的傳遞性以及類似的東西。它們不會做邏輯推理,你必須明確地教它們做算術,或者讓它們調用工具來做算術。
它們對底層現實沒有任何了解。它們只是在文本上訓練。它們只知道語言中包含的知識。但大多數人類知識實際上與語言無關。
它們也真的不能規劃,每當它們看似可以規劃時,基本上是因為它們訓練過類似的規劃,它們基本上只是重復一個非常相似的計劃。
3.目標驅動的 AI 系統
我們希望 AI 可以做分層規劃。
舉個例子,假設我坐在紐約大學的辦公室里,我想去巴黎。我不會做毫秒級的計劃,這是不可能的,因為我不知道將會發生的情況。我是否必須避開一個我還沒看到的特定障礙?紅綠燈會是紅色還是綠色?我要等多久才能打到出租車?所以,我不能從一開始就計劃好一切。
但我能做高層規劃,我知道我需要到機場,并登機,這是兩個宏觀動作,對吧?然后再決定較低層次的子目標,我如何到達機場?嗯,我在紐約,所以我需要下樓到街上打車,就是下一層的目標。我如何到達我要去的街道,我必須坐電梯下去,然后走到街上?我如何去電梯?我需要從椅子上站起來,打開辦公室的門,走到電梯,按下按鈕。
所以你可以想象有這種分層規劃在進行。我們完全不費力氣就能做到這一點,動物也能很好地做到這一點。今天沒有任何 AI 系統能夠做到這一點。
所以我設計了目標驅動的 AI 系統,結構如下:
目標驅動 Al 的模塊化認知結構
在這個架構中,有一個感知模塊,用來觀察世界,并將其轉化為對世界的表示;有一個持久記憶模塊,用來記錄事實;有一個世界模型,這是系統的核心;有一個行動模塊,一個成本模塊,一個配置器。系統的工作方式如下: