當(dāng)前,AI技術(shù)和產(chǎn)品的快速迭代升級(jí),特別是AI+視頻生成,正成為當(dāng)前AI產(chǎn)業(yè)發(fā)展的關(guān)鍵節(jié)點(diǎn),更受到業(yè)界關(guān)注。
近日信達(dá)證券在發(fā)布的研究報(bào)告中認(rèn)為,視頻雜糅了文本、語(yǔ)音、圖像等多維度內(nèi)容,其訓(xùn)練的難點(diǎn)也往往在于視頻數(shù)據(jù)對(duì)數(shù)量和質(zhì)量的不足、算法架構(gòu)需要優(yōu)化、物理規(guī)律性較差等等,但隨著AI+視頻的技術(shù)和產(chǎn)品升級(jí)迭代,眾多行業(yè)有望受益,諸如電影、廣告、視頻剪輯、視頻流媒體平臺(tái)、UGC創(chuàng)作平臺(tái)、短視頻綜合平臺(tái)等,而目前正處在A(yíng)I+視頻發(fā)展的關(guān)鍵性時(shí)刻。
信達(dá)證券還具體提到,市場(chǎng)主流的AI視頻生成技術(shù)迭代路徑經(jīng)歷了早期的GAN+VAE、Transformer 、 DiffusionModel以及Sora采用的DiT架構(gòu)(Transformer+Diffusion),技術(shù)迭代升級(jí)帶來(lái)視頻處理質(zhì)量上的飛躍性提升。其中,Transformer在并處處理、長(zhǎng)時(shí)間序列數(shù)據(jù)處理、多注意力處理上有著強(qiáng)大的優(yōu)勢(shì),通過(guò)預(yù)訓(xùn)練和微調(diào)可提高模型性能;Sora采用的DiT架構(gòu)有效進(jìn)行結(jié)合,利用Transformer處理潛在空間中的圖像數(shù)據(jù)塊,模擬數(shù)據(jù)的擴(kuò)散過(guò)程以生成時(shí)長(zhǎng)更長(zhǎng)、質(zhì)量更高的圖像和視頻。
信達(dá)證券還認(rèn)為,國(guó)內(nèi)AI+視頻產(chǎn)品單條價(jià)格低于海外產(chǎn)品,其中RunwayGen-3 Alpha和快手可靈為目前AI視頻生成的全球第一梯隊(duì),在視頻分辨率、生成速度、物體符合物理規(guī)律、提示詞理解、視頻時(shí)長(zhǎng)等諸多維度上表現(xiàn)均較為優(yōu)秀。
目前,AI+視頻大多數(shù)用于創(chuàng)意內(nèi)容生成,直接用于ToB商業(yè)化較少。追溯原因,首先生成視頻的人物一致性、所需時(shí)長(zhǎng)、畫(huà)面質(zhì)量尚且不滿(mǎn)足立即商業(yè)化水準(zhǔn);其次目前主流AI視頻工具還處在視頻生成競(jìng)爭(zhēng)的階段,且大多數(shù)為單一功能產(chǎn)品。在視頻生成之后,諸如準(zhǔn)確的提示詞生成、修改視頻片段、添加字幕、腳本生成、轉(zhuǎn)場(chǎng)銜接、背景音樂(lè)添加等眾多細(xì)節(jié)功能暫未集成,因此現(xiàn)今階段還需要多種不同的視頻創(chuàng)作工具串聯(lián)使用才能達(dá)到直接輸出可商業(yè)化視頻的效果,環(huán)節(jié)繁瑣、多工具之間的格式也可能存在不兼容的可能性,給用戶(hù)帶來(lái)使用上的不便。
據(jù)此信達(dá)證券認(rèn)為,后續(xù)需要持續(xù)關(guān)注能夠一站式提供視頻生成+編輯等功能的企業(yè),了解用戶(hù)痛點(diǎn),打磨產(chǎn)品細(xì)節(jié),才能真正將技術(shù)用于生產(chǎn)工作、娛樂(lè)等眾多環(huán)節(jié),帶來(lái)商業(yè)化變現(xiàn)的潛在空間;一站式AI視頻生成+剪輯+UGC創(chuàng)作,有望解決市場(chǎng)一直在質(zhì)疑的“AI+視頻缺少實(shí)質(zhì)作用問(wèn)題”。