導讀

一道小學生的數(shù)學題竟然難倒了全球AI大模型，只有4個大模型給出了正確答案！這究竟是怎么一回事？快來看看！

全球AI大模型被一道小學生數(shù)學題難倒

日前，一道來自小學生的數(shù)學題卻難倒了不少海內(nèi)外AI大模型，這道題的內(nèi)容是“9.11和9.9哪個更大”，而僅有4個大模型給出了正確答案。

大模型的數(shù)學能力一直是短板，即便是目前最好的大模型GPT4也仍然有很大進步空間，而此前筆者在采訪12位大模型時也得出了一個驚人的結(jié)論，這些大模型中僅有4個回答是正確的，而其他8個大模型卻都給出了錯誤的答案。

而針對大模型的數(shù)學能力，筆者曾進行過深入的采訪，大部分行業(yè)人士認為大模型數(shù)學能力差的根本原因還是出在分詞上，即Tokenizer(分詞器)在處理數(shù)字時會出現(xiàn)問題，導致模型難以正確理解和計算。

而這道9.11和9.9的大小比較題，12個大模型中，只有阿里通義千問、百度文心一言、Minimax和騰訊元寶答對，其他8個大模型都認為9.11比9.9更大。

雖然最終4個大模型給出了正確答案，但這并不能掩飾大模型數(shù)學能力的薄弱，畢竟面對簡單的大小比較題，8個大模型都給出了錯誤答案。

而對于未來大模型的發(fā)展方向，筆者也咨詢了不少專家學者以及從業(yè)者，針對此前大模型的回答，不少人表示“并不意外”。

一些專家認為，未來在模型的訓練數(shù)據(jù)上會越來越依賴構(gòu)造型的數(shù)據(jù)，而不是直接爬取下來的數(shù)據(jù)，以提升模型的復雜推理能力。

因為直接爬取下來的數(shù)據(jù)中會夾雜大量的錯誤數(shù)據(jù)，這些錯誤數(shù)據(jù)會誤導模型，導致模型做出錯誤的判斷。

而構(gòu)造型的數(shù)據(jù)則可以事先篩選，保證數(shù)據(jù)的準確性和可靠性，從而培養(yǎng)模型健康的思維方式。