洋彼岸,Sora的到來(lái),似乎讓AI有了睜眼看世界的可能。在官方表述中,Sora被稱為“世界模擬器”:它理解真實(shí)的規(guī)則,并在此基礎(chǔ)上生成“世界”。
如果說(shuō)從前還是一道銅墻鐵壁,那么現(xiàn)在,虛擬與真實(shí)可能僅一線之隔。大家都不想做創(chuàng)建虛構(gòu)的玩具,而是想成為生成世界的“造夢(mèng)機(jī)”。Sora之后,它的挑戰(zhàn)者們前赴后繼。
6月,視頻生成大模型迎來(lái)又一輪新品爆發(fā),生成式AI賽道像是“過(guò)年了”。快手可靈、Luma AI以及Runway迭代更新后的Gen-3 Alpha等現(xiàn)象級(jí)爆款不斷涌現(xiàn)。其中,討論度最高的是快手自研視頻生成大模型“可靈”,全面對(duì)標(biāo)Sora。
《每日經(jīng)濟(jì)新聞》記者將OpenAI官方公布的5條Sora視頻提示詞投喂給可靈,對(duì)其文生視頻的能力進(jìn)行測(cè)試,同時(shí)從動(dòng)態(tài)、視效、細(xì)節(jié)、場(chǎng)景等多維度表現(xiàn)進(jìn)行結(jié)果比對(duì)和關(guān)聯(lián)。
每經(jīng)記者從五大場(chǎng)景全面評(píng)測(cè)Sora和快手可靈
測(cè)試和觀察后發(fā)現(xiàn),雖然在部分維度Sora仍然領(lǐng)先,且可靈由于尚處開放初期,上線功能相對(duì)單一,生成存在一定限制,但幾乎可以判斷,國(guó)產(chǎn)視頻生成大模型已經(jīng)上升到了一個(gè)新的高度。
國(guó)金證券互聯(lián)網(wǎng)傳媒首席分析師陳澤敏在接受記者采訪時(shí)表示,拋開技術(shù),快手“可靈”已經(jīng)實(shí)現(xiàn)一部分絕對(duì)真實(shí)世界觀的數(shù)據(jù)支持,AI對(duì)不同世界觀的快速理解以及在視頻上的反應(yīng),“這是我認(rèn)為不可思議的”。
可靈,靈嗎?
Sora之后,國(guó)內(nèi)視頻生成大模型不斷推出。
3月底,字節(jié)旗下Dreamina(即夢(mèng))內(nèi)測(cè)視頻生成功能;4月底,生數(shù)科技首個(gè)文生視頻模型Vidu發(fā)布;5月,騰訊也開源了DiT架構(gòu)的混元文生圖模型。
今年以來(lái),快手先后發(fā)布1750億參數(shù)規(guī)模的通用大語(yǔ)言模型“快意”和文生圖大模型產(chǎn)品“可圖”。視頻生成大模型可靈則在6月被推出,快手方面稱,可靈能夠生成大幅度的合理運(yùn)動(dòng),模擬物理世界特性,生成的視頻分辨率達(dá)1080p,時(shí)長(zhǎng)最長(zhǎng)可達(dá)2分鐘。圖生視頻功能后續(xù)開放。
《每日經(jīng)濟(jì)新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞(東京街頭的女士、太空人、無(wú)人機(jī)視角的海岸、3D動(dòng)畫的小怪物、云端讀書的年輕人)測(cè)試可靈。同時(shí)比對(duì)生成視頻進(jìn)行效果測(cè)試,從“畫面呈現(xiàn)”“功能與體驗(yàn)”兩大維度下的多個(gè)具體表現(xiàn)進(jìn)行總結(jié)。
在畫面呈現(xiàn)上:
1、動(dòng)態(tài)效果。可靈的“鏡頭”普遍為前后向邏輯推進(jìn),Sora則更豐富。在“海浪撞擊懸崖的無(wú)人機(jī)視圖”一項(xiàng),Sora畫面的聚焦點(diǎn)在提示詞中“有燈塔的小島”,對(duì)整個(gè)環(huán)境進(jìn)行環(huán)視,重點(diǎn)突出。可靈的鏡頭前后推進(jìn),小島被設(shè)置在畫面的最遠(yuǎn)端,沒(méi)有重點(diǎn)突出小島。不過(guò),Sora和可靈對(duì)海浪的運(yùn)動(dòng)軌跡描述都很準(zhǔn)確。
2、視覺(jué)效果。這一項(xiàng)上,Sora和可靈表現(xiàn)都較為優(yōu)秀。特別是在“東京街頭的女士”視頻畫面呈現(xiàn)上,無(wú)論是對(duì)霓虹燈色彩的展示,還是潮濕地面反光的呈現(xiàn),兩個(gè)模型的畫面光影表達(dá)都很準(zhǔn)確。
3、細(xì)節(jié)表現(xiàn)。記者重點(diǎn)關(guān)注到二者對(duì)人的五官的呈現(xiàn)。Sora的刻畫更細(xì)致,特別是人在動(dòng)態(tài)場(chǎng)景下,五官?zèng)]有變形,幾乎是相對(duì)靜態(tài)的。可靈在動(dòng)態(tài)場(chǎng)景下,人的五官有所變形,會(huì)隨著畫面鏡頭的推進(jìn)、人的動(dòng)作而扭曲。
但在“3D動(dòng)畫的小怪物”生成上,可靈的細(xì)節(jié)表現(xiàn)與Sora差別不大,特別是對(duì)小怪物蓬松毛發(fā)特性的捕捉和呈現(xiàn)上,很精準(zhǔn)也很細(xì)致。