編者按:OpenAI確實帶來了人工智能的“iPhone時刻”,而如今谷歌在AI時代,仍是“iPhone時刻”之后跟隨的Android……
在前一天晚上被OpenAI狠狠“截胡”的谷歌,在2024 I/O大會上,終于給出了有力的“回擊”。
美國當地時間5月14日上午10點(北京時間5月15日凌晨1點),2024 Google I/O大會正式召開,本次大會的主題演講將圍繞人工智能展開,谷歌公布了Gemini AI的最新進展,并圍繞谷歌核心業務和生成式人工智能的融合展開分享。不僅帶來了“進階版”的Gemini Pro 1.5,還帶來了全面對標Sora文生視頻大模型的Veo。
谷歌CEO桑達爾·皮查伊(Sundar Pichai)在活動現場表示,目前有超過1500萬開發者在使用Gemini做開發。而Gemini最近三個月時間達到了100萬訂閱用戶。
全新的Gemini大模型產品矩陣
首先,在本屆I/O大會上,谷歌宣布了多項技術能力的升級。
“進階版”Gemini 1.5 Pro
I/O大會上,Gemini 1.5 Pro進階版開放給開發者,進階后,最大支持上下文窗口從100萬Tokens升級到200萬,同時支持35種語言。現在可以分析比以前更長的文檔、代碼庫、視頻和音頻錄音。此外,Gemini 1.5 Pro還能夠實現處理更加復雜和細微的指示,包括指定產品級行為的指示,如角色、格式和風格等。
更高效率、更低時延Gemini 1.5 Flash
于此同時,為了滿足用戶對低延遲和低成本的需求,谷歌首先帶來輕量化模型Gemini 1.5 Flash。它基于“蒸餾”技術,專為大規模服務設計,速度更快、成本低至0.35美元/百萬Tokens。
Gemini 1.5 Flash依舊支持100萬和200萬Tokens兩個版本,適用于摘要、聊天應用、圖像和視頻字幕、長文檔和表格的數據提取等需要快速處理的任務。
為了反擊OpenAI,谷歌也在今日發布了多款多模態大模型,包括圖像大模型Image 3、視頻大模型Veo等。
Gemma大模型升級,開源大模型陣營再迎猛將
谷歌旗下開源大模型Gemma也在活動中迎來了重大升級。谷歌表示,即將于6月上線的Gemma 2中引入一個全新的、擁有270億參數的模型。這是Gemma模型的下一代升級,這個龐大的模型尺寸已經由Nvidia進行了優化,確保它能夠在最新的GPU上順暢運行,并且同樣在單個TPU主機和vertex AI平臺上表現出色。除了這一巨大的270億參數模型外,谷歌還計劃推出PaliGemma視覺語言開放模型,這將進一步擴展Gemma 2的功能和應用范圍。
文生圖大模型Imagen 3
Imagen 3作為谷歌最新推出的文生圖大模型,進一步增強了文本生成圖片的技術能力,與其前身Imagen 2相比,Imagen 3能夠更準確地理解了它翻譯成圖像的文本提示,使得模型產生的“干擾性工件”和錯誤更少,并且在生成方面更“富有創造性和細致”。谷歌還計劃很快將Imagen 3模型提供給使用谷歌企業生成式人工智能開發平臺Vertex AI的開發人員和企業客戶,以滿足更廣泛的用戶需求。
文生視頻大模型Veo
Veo是谷歌最新的視頻生成模型,正式對標Sora。Veo集成了谷歌旗下大量視覺模型的特性,具備高級的自然語言和視覺語義理解能力,可以生成長度超過1分鐘,分辨率最高1080P的“高質量”視頻,并具有多種視覺和電影風格。
教育模型LearnLM
針對于學習領域,谷歌還推出了LearnLM,這是一系列全新的用于學習領域的生成式AI模型。此舉不僅標志著Google在AI教育領域的重大突破,同時也是對OpenAI近日針對教學輔導場景所展示能力的有力“回應”。
LearnLM的誕生是Google DeepMind AI研究部門與谷歌研究部門深入合作的結晶。谷歌表示,LearnLM模型旨在通過“對話式”的方式,為學生提供個性化的學習指導,幫助他們深入理解并掌握各種主題。這不僅將提升學生的學習效率,也將為他們帶來更加豐富和有趣的學習體驗。
大模型賦能的產品與場景
大模型對話產品Gemini Live
在I/O大會上,谷歌發布了基于Gemini的對話式體驗產品——Gemini Live,它允許用戶在智能手機上與Gemini進行“深入”的語音聊天,用來反擊OpenAI日前的大模型對話演示。用戶可以在聊天機器人說話時打斷Gemini提出澄清問題,它將實時適應用戶的語音模式。此外,Gemini還可以通過智能手機攝像頭捕捉的照片或視頻看到并回應用戶的周圍環境。
在某種程度上,Gemini Live 是 Google Lens 和 Google Assistant 的演變,前者是谷歌長期以來的計算機視覺平臺,用于分析圖像和視頻,而后者是谷歌的人工智能驅動的語音生成和識別虛擬助手,可在手機、智能音箱和電視上使用。
值得一題的是,Live 將專屬于 Gemini Advanced,其背后是谷歌One AI進階計劃,價格為20美元/月。
首個AI Agent產品——Project Astra
作為谷歌首個AI Agent產品,也是推動Gemini Live技術的創新部分,Project Astra旨在創建用于實時、多模態理解的人工智能應用程序和智能體。