大模型的發展已經陷入瓶頸了嗎?
近幾周,關于這件事情的爭論愈演愈烈。
市場的信心很重要,CEO們趕緊出來回應。
領頭羊OpenAI最早發聲,Altman明確表示:沒有的事。
隨后,Anthropic的CEO Dario Amodei和英偉達的老黃,也站出來向眾人保證。
不過,包括硅谷風投大佬Marc Andreessen在內的一些人則認為,這么長時間了,也沒看到什么明顯的進步,表現最好的幾個模型,性能也大差不差。
花兒謝了,冬天來了,又一年要過去了,GPT-5呢?
這關系到未來價值萬億美元的AI市場,如果燒錢的Scaling Law被證實回報越來越少,就會影響到當前的投資周期。
包括新的初創公司、新的數據中心、新的產品,甚至是重新啟用的核電站。
為此,Business Insider采訪了12位人工智能行業的前沿人士,包括初創公司的創始人、投資者,以及谷歌DeepMind和OpenAI的現任(和前任)員工, 探討了在追求超智能人工智能(superintelligent AI )的過程中所面臨的挑戰與機遇。
AGI的內幕
預訓練的難題
研究人員指出, 在人工智能開發的早期階段(即預訓練階段),公司可能會遇到兩個關鍵障礙。
第一個障礙是獲取計算能力,具體來說就是買顯卡。
這個市場主要由芯片巨頭英偉達主導, 而英偉達在持續的高需求下面臨著數錢的困難供應的挑戰。
法國風險投資公司Singular的合伙人Henri Tilloy表示,也許你可以拿出5000萬美元買GPU,但你在很可能在英偉達的供應名單上排在最后——等不起。
另一個供應問題就是訓練數據。盡管每年向大模型投入更多的數據和GPU,能夠可靠地產生更智能的模型, 但公司們已經耗盡了互聯網上公開可用的數據。
研究公司Epoch AI預測, 到2028年,可用的文本數據可能會被完全耗盡。
Clarifai的創始人兼首席執行官Matthew Zeiler表示,互聯網的規模是有限的。
多模態與私有數據
數據初創公司Encord的聯合創始人Eric Landau認為,當公共數據陷入瓶頸時,就需要其他數據來源發力了。
一個例子是多模態數據,將視覺和音頻信息(如照片或播客錄音) 輸入到AI系統中。
「這只是增加數據的一種方式(增加更多的數據模態),盡管實驗室和企業已經開始用了,但還算不上是充分利用」。
Lamini平臺的聯合創始人兼CEO Sharon Zhou,發現了另一個尚未開發的領域:私人數據。
許多公司已經與出版商簽訂了許可協議,以獲取他們龐大的信息資源。
例如OpenAI與Vox Media、Stack Overflow等組織建立了合作關系, 將受版權保護的數據引入自己的模型中。
Sharon Zhou說,「與我們的企業客戶和初創客戶的合作表明,私人數據中蘊含著許多對模型非常有用的信號。」
數據質量
目前,許多研究工作正集中在提高LLM訓練數據的質量,而不僅僅是數量。
Sharon Zhou表示,研究人員以前在預訓練階段可以「對數據相對懶惰」,只需將盡可能多的數據輸入模型,看看哪些有效。
「現在這種做法已經不再完全適用了,公司正在探索的一種解決方案是合成數據。」