巴黎奧運(yùn)會如火如荼地進(jìn)行著,視頻生成大模型的賽場同樣熱鬧,國內(nèi)多位“參賽選手”紛紛亮相,只為爭奪名為“中國版Sora”的金牌。
在剛剛過去的七月,生數(shù)科技打造的視頻大模型Vidu上線,面向用戶開放文生視頻和圖生視頻兩大功能;智譜AI正式發(fā)布視頻生成大模型“清影”;商湯發(fā)布首個面向C端用戶的可控人物視頻生成大模型Vimi;阿里達(dá)摩院推出一站式AI視頻創(chuàng)作平臺“尋光”;快手可靈AI正式上線網(wǎng)頁端,并開源名為LivePortrait的可控人像視頻生成框架……
“目前,國產(chǎn)視頻生成大模型的技術(shù)路徑與Sora基本一致,只不過每家都會加入自己的Trick(技巧)?!盠ogenic AI聯(lián)合創(chuàng)始人李博杰告訴《IT時報(bào)》記者,視頻的本質(zhì)可以看成是多張圖片的連續(xù)排布放映,在文生圖大模型中,最被人們熟知的技術(shù)是擴(kuò)散模型,它可以根據(jù)輸入的文字描述,獲取數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和分布規(guī)律,從而生成單張圖片。
與傳統(tǒng)路徑不同的是,智譜清影摒棄了交叉注意力機(jī)制(Cross Attention)模塊,采用將文本、時間、空間三個維度全部融合起來的Transformer架構(gòu),在輸入階段就將文本和視頻向量化(Embedding),然后再將不同模態(tài)的向量直接連接(Concatenate)起來,形成單一的特征向量,輸入到下游任務(wù)中。
不過,這兩種不同結(jié)構(gòu)的數(shù)據(jù)特征空間有較大差異,此時就需要通過專家自適應(yīng)層歸一化技術(shù)(Expert Adaptive Layernorm)對文本和視頻兩個模態(tài)分別進(jìn)行處理,利用擴(kuò)散模型中的時間步信息,實(shí)現(xiàn)視覺信息與語義信息的對齊。
6月28日,中央廣播電視影視劇紀(jì)錄片中心制作的三部AI短劇《英雄》《愛永無終止》《奇幻專賣店》上線央視頻。此后,博納影業(yè)與抖音合作推出AI科幻短劇《三星堆:未來啟示錄》,快手也利用可靈AI原創(chuàng)上線了AI奇幻短劇《山海奇鏡之劈波斬浪》。截至8月8日,抖音和快手打造的兩部AI短劇在所屬平臺播放量已經(jīng)分別累計(jì)達(dá)到5504.7萬次和5243.2萬次。
從這些AI短劇中可以看到,人物角色的面部特征從始至終保持一致。通常而言,單純使用文字描述生成視頻時,每次的結(jié)果都會有一定差異,那么,這些短劇的一致性是如何實(shí)現(xiàn)的呢?
李博杰分析,其中可能用到了文生視頻的核心模型——ControlNet。ControlNet是一種“輔助式”的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),通過在Stable Diffusion模型中添加輔助模塊,形成一個“鎖定”副本和可訓(xùn)練副本。簡單來說,通過ControlNet完成人物形象建模后“鎖定”,再通過可訓(xùn)練副本進(jìn)行后期視頻場景、動作等變換。
也正是因?yàn)椤版i定”,視頻人物難以實(shí)現(xiàn)大幅度動作,陳曉達(dá)經(jīng)過實(shí)測后告訴記者,每生成一幀畫面都是一次“開盲盒”的過程,無法確保生成內(nèi)容符合標(biāo)準(zhǔn),因此只能花費(fèi)大量時間不斷生成,從中挑選出可用畫面拼湊成一部短劇,“你會發(fā)現(xiàn)宣傳的都是3分鐘以內(nèi)的短劇,想要靠AI生成拼湊出一部完整的長視頻作品,目前還做不到。”
智譜AI CEO張鵬在接受媒體采訪時也表示,現(xiàn)在視頻生成大模型的商業(yè)化仍處于非常早期的階段,生成效果對物理世界規(guī)律的理解、高分辨率、鏡頭動作連貫性以及時長等,都有非常大的提升空間。
市場是有“嗅覺”的,雖然目前生成效果并不完美,但視頻生成大模型賽道的火熱程度不言而喻。啟明創(chuàng)投主管合伙人周志峰在2024世界人工智能大會上預(yù)測,3年內(nèi)AI視頻生成技術(shù)將全面爆發(fā)。頭豹研究院數(shù)據(jù)顯示,預(yù)計(jì)到2026年,中國AI視頻生成行業(yè)的市場規(guī)模將達(dá)到92.79億元。
當(dāng)無演員演繹、無場景搭建、無綠幕特效的“三無”AI影視作品走向市場時,演員和編劇的“危機(jī)”也悄然來臨。博納影業(yè)集團(tuán)影視制作副總經(jīng)理曲吉小江在China Joy短劇創(chuàng)新論壇上表示,將為AI短劇塑造的角色打造熱門個人IP。
面對AI“威脅”情況,從去年夏天開始,美國編劇工會和演員工會聯(lián)手發(fā)起大罷工,讓好萊塢陷入長達(dá)數(shù)月的停擺,導(dǎo)致影視作品數(shù)量大幅減少。據(jù)外媒報(bào)道,這一情況在今年依然沒有出現(xiàn)好轉(zhuǎn),部分演員還被要求在與華納公司的合同中同意使用“數(shù)字合成形象”,若拒絕則可能失去工作機(jī)會。
從國產(chǎn)視頻生成大模型的現(xiàn)有能力來看,制作動態(tài)海報(bào)、廣告短片、特效動畫等已經(jīng)不在話下,且應(yīng)用場景還在擴(kuò)展。陳曉達(dá)認(rèn)為,技術(shù)本身固然重要,但首先要讓使用者掌握標(biāo)準(zhǔn)化的工業(yè)流程,新技術(shù)才得以長效落地,“AI技術(shù)短時間內(nèi)沒法取代演員和編劇的地位,但會使用AI技術(shù)的人很快就能取代他們”。