當地時間12月11日,谷歌發布最新大模型Gemini 2.0,推出AI智能體Mariner,可瀏覽電子表格、購物網站等,然后代表用戶采取行動。
Gemini 2.0系列模型中的第一個模型是Gemini 2.0 Flash實驗版,支持多模態輸入和輸出,例如可以直接生成圖像與文本混合的內容,以及多語言文本轉語音(TTS)音頻。它還可以原生調用谷歌搜索、代碼執行以及第三方用戶定義的函數等工具。
谷歌CEO桑達爾·皮查伊(Sundar Pichai)表示,Gemini 2.0的高級推理能力將融入谷歌AI搜索功能AI Overviews,以攻克更復雜的主題和多步驟問題,包括高等數學方程、多模態查詢和編程。Gemini 2.0能夠構建新的AI智能體,從而離構建通用助手更進一步。“它們可以更多地了解你周圍的世界,提前考慮多個步驟,并在你的監督下代表你采取行動。”
基于Gemini 2.0,AI智能體Mariner專為谷歌網絡瀏覽器Chrome而擴展。谷歌項目經理杰克琳·孔澤爾曼(Jaclyn Konzelmann)表示,用戶可以在瀏覽器中輸入請求,然后讓Mariner代表他們采取行動。Mariner的設計目的是“在有人參與的情況下”使用,它可以裝滿虛擬購物車,但實際上它不會購買,用戶必須自己購買。
據《紐約時報》報道,谷歌正與公司外的少數測試人員分享Mariner,但尚未公布對公眾發布的計劃。孔澤爾曼承認,和其他聊天機器人一樣,Mariner也會犯錯,“這仍然是一項實驗技術。”由于這類系統是根據大量數據中發現的模式而運行的,因此有時會出錯。聊天機器人在生成文本時犯錯有時會被忽視,但當系統試圖使用網站并采取其他行動時,錯誤就更成問題了。
谷歌還展示了新版智能手機數字助手Project Astra,可對圖像、文本、口頭命令做出反應,但同樣沒有向公眾開放。
與此同時,谷歌希望Chrome成為未來實現人工智能戰略的重要平臺。不過,美國司法部要求一名聯邦法官強迫谷歌出售或分拆Chrome瀏覽器,此前谷歌的搜索引擎被裁定為非法壟斷。