怎么不讓芝士從披薩上滑落?——在醬汁中加入1/8杯無毒膠水。”“懷孕時抽煙怎么樣?——醫生建議懷孕期間每天抽2-3根煙。” 就在最近的開發者大會上發布AI Overviews搜索功能后,谷歌再次翻車了。上一次Bard大模型聊天問答出錯,端掉了谷歌近1000億美元的市值;這一次爭議,恐怕會給近期熱火朝天的AI搜索市場潑下一場冷雨。
過去幾周,搜索成為行業口中的生態入口。非凡產研今年3月的報告顯示,AI搜索產品的訪問量占據了24.2%的全球市場份額,僅次于AI聊天機器人。賽道領頭羊Perplexity的月訪問量已經突破六千萬,國內的秘塔AI、天工AI以669萬和184萬的訪問量領先。
不過在21世紀經濟報道對秘塔AI、天工AI、360AI、百度簡單搜索、Perplexity、Bing Copilot、YouAI、Phind 8款AI搜索產品的測試中,盡管它們很少出現“幻覺”,但一旦面對各說各話的搜索結果,輸出答案會陷入混亂,并且讓人更加難以分辨真實性。在一位負責AI搜索的大廠開發人員看來,AI搜索的瓶頸并不在于大模型,而在于投喂的搜索結果。AI搜索能提供多大程度的更優質回答,成長性有多高,或許需要打上一個問號。
專補大模型短板
一位從事行業研究工作的人士表示,天下“苦中文搜索引擎久矣”,結果相關度低、彈窗廣告多、被誘導下載其他軟件……根據該行研人士的體驗,目前的AI搜索產品能夠篩選互聯網信息,自動生成思維大綱,適合用來完成復雜且而且一定發散性的工作。
早期許多人也想把ChatGPT當搜索引擎用,但勸退之處是ChatGPT容易“不懂裝懂”,而AI搜索一定程度上克服了這一點。
譬如,21世紀經濟報道向ChatGPT和AI搜索產品同時拋出一個問題,“意大利作家埃萊娜·費蘭特為什么離婚?”這是一個注定沒有答案的問題,埃萊娜·費蘭特是目前文壇最神秘的作家,真名、婚姻、照片沒有公開說明。
對于這條提問,GPT-3.5的回答真假參半:先是編造了費蘭特與一名不存在的作家達爾波的婚姻史,然后再解釋自己不知道離婚原因。
而測試的8款AI搜索產品均直接承認,沒有相關的搜索結果,并以角標的形式在結尾附上參考信源,可以點進原鏈接核查真實性。信源數量上,以Perplexity為代表的國外AI搜索產品大多在終端呈現5~6條信源,而以360AI搜索為例的國內AI搜索通常會附加20~30條信源鏈接。
一位負責AI搜索的大廠開發人員向記者解釋,之所以不會“胡說八道”,主要因為大模型被嚴格限制,只能基于搜索結果生成回答。此外,大模型每一輪訓練周期長,注定沒法動態更新數據,結合搜索結果相當于外掛了一個知識庫,提供額外的信息輸入。
從技術角度看,該開發人員表示,本質上AI搜索相當于能聯網的AI,核心技術架構都是RAG技術(檢索增強生成)。這一技術的精髓在于將信息檢索和內容生成兩個步驟巧妙結合:首先訪問特定的數據庫,檢索與用戶問題相關的最新信息;隨后,將檢索信息和用戶問題一同作為提示詞(Prompt),引導大模型生成回答。業內不少聲音認為這是緩解大模型幻覺的最優解,過去一年里,除了GPT3.5,主流的通用大模型基本都開放了聯網搜索功能。
“但也不等于能解決幻覺問題。”前述開發人員說,由于AI搜索非常依賴搜索結果,仍然有很大的不可控性。
傳言、玩梗、洋蔥新聞,AI搜索怎么看?
AI生成虛假信息問題已不是新鮮事。但在AI搜索的場景下,用戶明確期待獲得可靠信息,并且AI搜索篩選掉了一部分信源、提供看似權威的出處,一旦出錯,影響可能更致命。
記者在5月22日用前段時間眾說紛紜的一條傳言,嘗試測試AI搜索的時效性和準確性。“OpenAI什么時候推出了AI搜索?”秘塔AI回答有矛盾的5月9日、5月13日兩個發布時間,但沒有點出兩個日期其實都不對。
天工AI、360AI搜索、簡單搜索、Perplexity指出OpenAI沒有官方發布AI搜索產品。其中,只有Perplexity引用到了最直接的信息,即Sam Altman在發布會前夕發布的那條推文,“不會發布GPT-5,也不會發布AI搜索引擎。”