導讀
一道小學生的數(shù)學題竟然難倒了全球AI大模型,只有4個大模型給出了正確答案!這究竟是怎么一回事?快來看看!
全球AI大模型被一道小學生數(shù)學題難倒
日前,一道來自小學生的數(shù)學題卻難倒了不少海內(nèi)外AI大模型,這道題的內(nèi)容是“9.11和9.9哪個更大”,而僅有4個大模型給出了正確答案。
挑戰(zhàn)大模型的數(shù)學推理能力
大模型的數(shù)學能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大進步空間,而此前筆者在采訪12位大模型時也得出了一個驚人的結(jié)論,這些大模型中僅有4個回答是正確的,而其他8個大模型卻都給出了錯誤的答案。
數(shù)字切分問題與模型的理解能力
而針對大模型的數(shù)學能力,筆者曾進行過深入的采訪,大部分行業(yè)人士認為大模型數(shù)學能力差的根本原因還是出在分詞上,即Tokenizer(分詞器)在處理數(shù)字時會出現(xiàn)問題,導致模型難以正確理解和計算。
正確答案揭曉與未來的發(fā)展方向
而這道9.11和9.9的大小比較題,12個大模型中,只有阿里通義千問、百度文心一言、Minimax和騰訊元寶答對,其他8個大模型都認為9.11比9.9更大。
雖然最終4個大模型給出了正確答案,但這并不能掩飾大模型數(shù)學能力的薄弱,畢竟面對簡單的大小比較題,8個大模型都給出了錯誤答案。
而對于未來大模型的發(fā)展方向,筆者也咨詢了不少專家學者以及從業(yè)者,針對此前大模型的回答,不少人表示“并不意外”。
一些專家認為,未來在模型的訓練數(shù)據(jù)上會越來越依賴構(gòu)造型的數(shù)據(jù),而不是直接爬取下來的數(shù)據(jù),以提升模型的復雜推理能力。
因為直接爬取下來的數(shù)據(jù)中會夾雜大量的錯誤數(shù)據(jù),這些錯誤數(shù)據(jù)會誤導模型,導致模型做出錯誤的判斷。
而構(gòu)造型的數(shù)據(jù)則可以事先篩選,保證數(shù)據(jù)的準確性和可靠性,從而培養(yǎng)模型健康的思維方式。