提供1000+款AI效率工具丨AIEVA.CN丨歡迎訪問
AI奇點網-AI工具特刊丨6月19日
谷歌發布新一代AI視頻自動配音工具,AI視頻開啟「有聲時代」!
6月17日,谷歌人工智能團隊DeepMind發布了一個名為V2A(Video-to-Audio)的AI架構系統,顧名思義即“視頻轉音頻”,能根據畫面內容或者手動輸入的提示詞直接為視頻配音。
該模型最大的功能在于,可為任何視頻自動創建合適的音軌BGM,在實踐中取得了十分有效的進展,可以大大降低視頻配音的制作成本。
當前Sora、Pika、可靈以及Runway等視頻模型已經能輸出逼真的短片,但它們均輸出的是默片。
谷歌V2A系統的特點,便是V2A能依靠自身的多模態視覺能力理解視頻當中的信息。V2A能看懂畫面,知道畫面里正在發生什么,應該出現什么聲音。
舉個例子,比如輸入一則主題為「在黑暗中行走」的無聲視頻,添加“電影、恐怖片、音樂、緊張、混凝土上的腳步聲”等文本提示后,AI模型就能根據提示詞生成恐怖片風格的背景音效,十分逼真。
00:00 / 00:12
腳步聲基本吻合人物走動的節奏,隨著畫面的切換,腳步聲也隨之消失,毛骨悚然的緊張感拉滿。
為了能夠貼近Sora熱點,谷歌V2A的開發團隊使用了不少Sora生成的視頻片段作為輸入范例。
00:00 / 00:08
比如上邊這段Sora生成的水母漂蕩影像,營造出了負壓十足的深海水壓感。
下方這則短片也是Sora的樣片,經由V2A生成的音樂配樂后的視頻頗有西部大片的感覺。