七月的上海熱情如火,比它更熱的,是在上海舉行的世界人工智能大會。作為全球范圍的行業盛事,今年的世界人工智能大會更是具有鮮明的特點:當往屆的人工智能技術較為分散地體現在AR/VR、大數據、云計算等領域時,今年的世界人工智能大會幾乎所有的參展企業都將人工智能聚焦在了大模型這個賽道上,當人工智能大模型賽道如此擁擠,人工智能未來又將向哪里“智能”呢?南方產業觀將通過在本屆世界人工智能大會上的所見所聞,試圖找出答案。
從人工智能大模型與大眾初次見面開始,簡單的文字對答很快就不能滿足大眾對“智能”的渴望了,很快,隨著人工智能大模型的快速迭代,文生圖,文生視頻和圖生視頻等多種AIGC方式的出現,讓人工智能大模型和大眾有了更親密的接觸,而在2024世界人工智能大會上,不僅有更多的玩家加入到了人工智能大模型在視頻領域的應用當中,而借助人工智能大模型而誕生的各種更加低門檻的視頻工具,也讓視頻化從專業走向了普及。
在2024世界人工智能大會期間,快手大模型首次集體亮相,視頻生成大模型可靈、圖像生成大模型可圖等產品的多項新功能正式發布。其中可靈AI基礎模型再度升級,推出更加清晰的高畫質版,以及首尾幀控制、鏡頭控制等全新編輯能力,同時,創作者單次生成的文生視頻時長增加至10s,是業內對用戶開放使用可實現的最長時長。
而另一家在世界人工智能大會這么“剛”的大會上打造了一個PINK顏色展位的嗶哩嗶哩(以下簡稱“B站”),同樣將其在人工智能領域的看家本領進行了展示。其中嗶哩嗶哩鳴實驗室為世界首位中文虛擬歌手洛天依就量身定制了AI語音聲庫,通過精妙的算法調校,不僅保留了洛天依聲音的標志性特質,還賦予了其更自然流暢和真實的表達能力,使其能夠輕松應對各種曲風和語言。在洛天依展區《歌行四方》的現場表演中,洛天依也呈現了堪比專業歌手級別的演唱,不少觀眾為此駐足,感受技術與藝術的完美融合。
此外,必剪Studio作為B自研的音視頻大模型,能為UP主提供免費生成1:1的真人模型定制服務,通過輸入文本或錄音,即可生成實拍級效果的出鏡口播視頻。無論是直播互動、短視頻制作,還是虛擬偶像創造,都能幫助大大縮短創作周期,降低創作難度,讓更多創意得以快速實現。而在動漫領域,B站自研的AI動態漫技術,則能夠通過圖文引導和動態控制,實現對角色五官、肢體動作、運鏡特效的生成與控制,構建完整的動漫場景,真正實現讓漫畫“動” 起來,大幅降低了內容制作的成本和門檻。
從各式各樣針對視頻領域的人工智能大模型和基于大模型誕生的視頻工具可以看出,如今無論是拿著一段文字、還是一張照片甚至是一幅漫畫,都能夠通過人工智能大模型“變成”動態的視頻,雖然目前的效果還較為參差不齊,但是人工智能大模型在視頻領域的應用,可以說和像安全和教育之類的領域相比,可謂是大步流星遙遙領先。
其實相對而言,人工智能大模型帶來的視頻,不是未來,而是現在。