今天,Google 年度開發(fā)者 I/O 大會 2024 在加利福尼亞州山景城的 Shoreline Amphitheatre 舉行,此次大會以 Alphabet 首席執(zhí)行官桑達爾·皮查伊 (Sundar Pichai) 的主題演講拉開序幕。谷歌此前已經(jīng)明確表示,今年的 I/O 大會將全部圍繞人工智能展開。
這次大會上,皮查伊宣布了谷歌內(nèi)部的最新技術(shù)進展,尤其是圍繞 Gemini 所做的所有工作。
狂卷長文本,Gemini 家族迎來重大更新
“我們希望每個人都能從 Gemini 所做的事情中受益,”皮查伊說。他還透露了 Gemini 將如何融入谷歌的許多服務(wù)中。人們使用 Google 搜索的方式比以往任何時候都多,關(guān)鍵字搜索的時間甚至更長。
大會一開始皮查伊就宣布了 Gemini 系列大模型的更新。首先是 Gemini 1.5 Pro,可提供 100 萬長文本能力,并且已經(jīng)向全球開發(fā)者開放。
Gemini 1.5 Pro 是在上個月舉辦的 Google Cloud Next 2024 大會上發(fā)布的,具有原生音頻理解、系統(tǒng)指令、JSON 模式等。
Gemini 1.5 Pro 能夠使用視頻計算機視覺來分析圖像(幀)和音頻(語音)的視頻,這使其具有人類水平的視覺感知。使用深度神經(jīng)網(wǎng)絡(luò),Gemini 1.5 可以以超人的精度識別圖像(和視頻幀)中的物體、場景和人物。
成本問題一直是大模型開發(fā)的痛中之痛,為了解決這一痛點,谷歌 DeepMind 首席執(zhí)行官 Demis Hassabis 宣布推出 Gemini 1.5 Flash 模型,該模型旨在兼顧快速和成本效益。
“Gemini 1.5 Flash 擅長摘要、聊天應(yīng)用程序、圖像和視頻字幕、從長文檔和表格中提取數(shù)據(jù)等,”Google DeepMind 首席執(zhí)行官 Demis Hassabis 此前在博客文章中寫道。 Hassabis 補充說,谷歌創(chuàng)建 Gemini 1.5 Flash 是因為開發(fā)人員需要一個比 Gemini 1.5 Pro 更輕、更便宜的模型。
Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間,是針對開發(fā)者的大模型。盡管比 Gemini Pro 輕,但它的功能同樣強大,谷歌表示這是通過“蒸餾”的方式來實現(xiàn)的,將 Gemini 1.5 Pro 中最重要的知識和技能轉(zhuǎn)移到較小的模型上。這意味著 Gemini 1.5 Flash 將獲得與 Pro 相同的多模式功能,以及其長上下文窗口(AI 模型一次可以攝取的數(shù)據(jù)量),100 萬個 token。
最大的更新尚未到來——谷歌宣布今年晚些時候?qū)⒛P偷默F(xiàn)有上下文窗口增加一倍,達到 200 萬個 token。這將使其能夠同時處理 2 小時的視頻、22 小時的音頻、超過 60,000 行代碼或超過 140 萬個單詞。
![谷歌這次又“殺瘋了”!200 萬 token 長文本能力問鼎全球最強](http://www.dfulqf.cn/uploads/image/2024/0520/23140132030.png)
谷歌的 Josh Woodward 詳細介紹了 Gemini 1.5 Pro 和 Flash 的定價。Gemini 1.5 Flash 的價格定為每 100 萬個 token 35 美分,這比 GPT-4o 的每 100 萬個 token 5 美元的價格要便宜得多。
![谷歌這次又“殺瘋了”!200 萬 token 長文本能力問鼎全球最強](http://www.dfulqf.cn/uploads/image/2024/0520/23140210951.png)
值得一提的是,此次大會谷歌重磅宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升級后的 Gemini Advanced 可以處理“多個大型文檔,總計最多 1,500 頁,或匯總 100 封電子郵件”。支持 35 多種語言和 150 多個國家/地區(qū)。而其“即將”推出的功能是能夠“處理一個小時的視頻內(nèi)容或超過 30,000 行的代碼庫”。全球最強長文本能力可謂實至名歸。
![谷歌這次又“殺瘋了”!200 萬 token 長文本能力問鼎全球最強](http://www.dfulqf.cn/uploads/image/2024/0520/23140461482.png)
該公司還正在開發(fā)名為 Project Astra 的通用 AI 代理。大會現(xiàn)場,Demis Hassabis 展示了 Astra 模型,該模型通過智能手機攝像頭分析世界,并與用戶進行對話。 Demis Hassabis 表示,他的團隊“一直希望開發(fā)對日常生活有幫助的通用人工智能代理”。 Project Astra 是這方面進展的結(jié)果。
Project Astra 類似一款以取景器作為主界面的應(yīng)用程序。谷歌在演講中展示了一個人拿著手機,將攝像頭對準辦公室的各個地方,并用語言與其交互:“當(dāng)你看到有東西發(fā)出聲音時,請告訴我。”在這段視頻演示中,Gemini 能識別各種物體甚至代碼,并實時與人類進行語音互動。
在視頻中,Astra 的反應(yīng)很快。之所以能實現(xiàn)這一目標(biāo),是因為這些“Agent”“旨在通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中,并緩存這些信息以進行有效回憶,從而更快地處理信息。”
![谷歌這次又“殺瘋了”!200 萬 token 長文本能力問鼎全球最強](http://www.dfulqf.cn/uploads/image/2024/0520/23141032433.png)