字節(jié)、快手,兩位短視頻巨頭在AI領(lǐng)域里迎來了正面交鋒。
11月8日,字節(jié)跳動旗下的AI內(nèi)容平臺即夢AI宣布,由字節(jié)跳動自研的視頻生成模型Seaweed面向平臺用戶正式開放。
據(jù)字節(jié)方面介紹,本次開放使用的豆包視頻生成模型Seaweed是該款模型的標(biāo)準(zhǔn)版,僅需60秒即能生成時長5秒的高質(zhì)量AI視頻,領(lǐng)先國內(nèi)業(yè)界3至5分鐘的所需生成時間。
《每日經(jīng)濟新聞》記者在對即夢、可靈的初代版本和最新版本進行實測時也發(fā)現(xiàn),迭代后,兩款產(chǎn)品在視頻生成效果上均有多方面、不同程度的提升,可靈在空間布局和畫面細節(jié)呈現(xiàn)上更為準(zhǔn)確,且對生成內(nèi)容效果的調(diào)節(jié)更具靈活性、便捷性;而即夢在生成時長和視頻風(fēng)格上有優(yōu)勢。
一位大模型技術(shù)人員向《每日經(jīng)濟新聞》記者表示,視頻生成模型要實現(xiàn)生產(chǎn)內(nèi)容的不同“畫風(fēng)”是很難做的,“技術(shù)之外,還主要看數(shù)據(jù)源的豐富程度”。
當(dāng)短視頻進入AI時代,字節(jié)和快手兩員猛將下場,誰將拔得頭籌?
初代VS迭代:半年時間,即夢、可靈更新了什么?
伴隨字節(jié)自研視頻生成模型Seaweed開放使用,國內(nèi)視頻生成模型大比拼里最具看點的一對——即夢、可靈終于正式交手。
它們都承載著理解物理世界,在衍生“真實”的同時盡可能放大想象的“AI造夢計劃”,但對于自身而言,即夢和可靈也都肩負字節(jié)和快手又一番商業(yè)化前景開拓的重任。
事實上,即夢與可靈都在短短不到一年的時間,完成了數(shù)次迭代。即夢3月底開啟視頻生成功能內(nèi)測,半年后,字節(jié)發(fā)布了豆包模型家族的兩款視頻生成模型Seaweed和Pixeldance,并通過即夢AI、火山引擎小范圍邀測,至如今Seaweed面向平臺用戶正式開放。
工信部信息通信經(jīng)濟專家委員會委員盤和林向《每日經(jīng)濟新聞》記者表示,即夢使用的新模型生成速度有所提升,給用戶的生成體驗更好了,“即夢AI目前在國內(nèi)生成領(lǐng)域,還是比較領(lǐng)先的”。
可靈在6月“出生”后一鳴驚人,發(fā)布至今經(jīng)歷了十余次更新,包括發(fā)布圖生視頻功能以及1.5模型的上線等重要更新。截至目前,可靈擁有超過360萬用戶,累計生成3700萬個視頻,并在近期正式上架獨立App(應(yīng)用軟件)。
《每日經(jīng)濟新聞》記者選取了OpenAI官方公布的5條Sora視頻提示詞(東京街頭的女士、太空人、無人機視角的海岸、3D動畫的小怪物、云端讀書的年輕人)分別測試即夢和可靈的初代版本和最新版本,縱向?qū)Ρ葍蓚€視頻生成模型的視頻效果。
對比即夢最初版本和最新版本生產(chǎn)的視頻效果后,我們發(fā)現(xiàn),即夢有兩部分更新較為明顯:一個是在動態(tài)的“人事物”表現(xiàn)上,動作的捕捉和連貫性均有較為明顯的提升;另一個是畫面風(fēng)格的差異化呈現(xiàn)也有比較大的進步。
以“東京街頭的女士”為例,初代即夢塑造的人物動作僵硬,特別是在腿部、腳部動作的捕捉上,整體呈現(xiàn)的效果是模糊和扭曲的。迭代后的新版即夢,人物動作自然流暢,腳部動態(tài)的細節(jié)處理更清晰、更符合真實世界的邏輯。
從畫面風(fēng)格的差異化上看,版本更新后的即夢畫風(fēng)區(qū)分度更高,無論對真實世界畫面,還是超現(xiàn)實畫面的描述上,都做出了不同風(fēng)格呈現(xiàn)。
這一點在“云端讀書的年輕人”視頻生成的效果上對比明顯。初代即夢將這一超現(xiàn)實畫面做了完全動畫風(fēng)格的處理,而新版即夢對人物的呈現(xiàn)更傾向?qū)憣嶏L(fēng)。
初代版本即夢“云端讀書的年輕人”視頻截圖