在自然語言處理領(lǐng)域,一個(gè)引人矚目的現(xiàn)象正在顯現(xiàn):傳統(tǒng)的通過增加模型規(guī)模和數(shù)據(jù)量來提升性能的Scaling Law似乎已逼近瓶頸。業(yè)界開始擔(dān)憂,單純依賴這種策略或許已難以帶來顯著的性能飛躍,低精度訓(xùn)練和推理正使得模型性能提升的邊際效益逐漸遞減。然而,在自然語言處理遭遇挑戰(zhàn)的同時(shí),多模態(tài)模型領(lǐng)域卻似乎尚未觸及這一限制。
多模態(tài)數(shù)據(jù),涵蓋圖像、視頻、音頻等多種類型,因其信息豐富度、處理方法和應(yīng)用領(lǐng)域的復(fù)雜性,難以達(dá)到大規(guī)模訓(xùn)練的標(biāo)準(zhǔn)。因此,Scaling Law在多模態(tài)領(lǐng)域尚未得到充分驗(yàn)證。但這一現(xiàn)狀即將發(fā)生改變。清華系大模型公司生數(shù)科技最新發(fā)布的Vidu 1.5,正引領(lǐng)多模態(tài)領(lǐng)域邁向新的發(fā)展階段。
Vidu 1.5通過持續(xù)的規(guī)模擴(kuò)展(Scaling Up),已達(dá)到了一個(gè)關(guān)鍵的“奇點(diǎn)”時(shí)刻,涌現(xiàn)出了強(qiáng)大的“上下文能力”。這一能力使模型能夠理解并記憶輸入的多主體信息,展現(xiàn)出對(duì)復(fù)雜主體更為精準(zhǔn)的控制。無論是細(xì)節(jié)豐富的角色還是復(fù)雜的物體,僅需上傳不同角度的三張圖片,Vidu 1.5便能確保單主體形象的高度一致。
Vidu 1.5的突破不僅限于單主體控制,還實(shí)現(xiàn)了多主體之間的一致性。用戶能夠上傳包含人物角色、道具物體、環(huán)境背景等多種元素的圖像,Vidu能夠?qū)⑦@些元素?zé)o縫融合,實(shí)現(xiàn)自然交互。這一能力標(biāo)志著多模態(tài)模型在主體一致性方面取得了重大進(jìn)展。
Vidu在主體一致性方面的成就,不僅得益于Scaling Law的發(fā)揮,更源于其采用的無微調(diào)、大一統(tǒng)的技術(shù)架構(gòu)方案。當(dāng)前主流的視頻模型為實(shí)現(xiàn)一致性,大多采用在預(yù)訓(xùn)練基礎(chǔ)上針對(duì)單個(gè)任務(wù)進(jìn)行微調(diào)的LoRA方案。而Vidu的底層模型則跳出了這一框架,做出了開拓性的改變。這一改變與生數(shù)科技一貫堅(jiān)持的通用性理念相契合,通過統(tǒng)一的底層模型技術(shù)架構(gòu),無需單獨(dú)進(jìn)行數(shù)據(jù)收集、標(biāo)注和微調(diào),僅需1到3張圖即可輸出高質(zhì)量視頻。
回顧大語言模型的發(fā)展歷程,從GPT-2到GPT-3.5的質(zhì)變,同樣實(shí)現(xiàn)了從預(yù)訓(xùn)練+特定任務(wù)微調(diào)向統(tǒng)一框架的突破。Vidu 1.5的推出,標(biāo)志著多模態(tài)大模型正經(jīng)歷著類似于GPT-3.5的時(shí)刻。這一突破不僅體現(xiàn)在技術(shù)上,更在于設(shè)計(jì)理念上的革新。
生數(shù)科技CTO鮑凡表示,公司不會(huì)盲目追隨Sora等已有模型的路線,而是從一開始就瞄準(zhǔn)通用多模態(tài)大模型的目標(biāo),進(jìn)行自主研發(fā)。從全球首個(gè)基于Diffusion的Transformer架構(gòu)U-ViT的發(fā)布,到首次實(shí)現(xiàn)用統(tǒng)一架構(gòu)處理泛化任務(wù),生數(shù)科技不僅擁有先發(fā)優(yōu)勢(shì),更具備持續(xù)突破的能力。Vidu與業(yè)界其他視頻生成模型相比,已形成明顯的技術(shù)代差。
在主體一致性這一難題上,Vidu取得了顯著成果。鮑凡比喻道,這就像制造一臺(tái)好的發(fā)動(dòng)機(jī),雖然知道其重要性,但實(shí)現(xiàn)起來卻異常艱難。包括Sora在內(nèi)的國內(nèi)外視頻模型,在主體一致性方面均未取得突破。而Vidu則從上線之初就主打解決一致性問題,并逐步拓展到對(duì)單主體整體形象的控制,直至最新版本的Vidu 1.5,已能夠?qū)崿F(xiàn)對(duì)單主體不同視角的高度精準(zhǔn)控制,并攻破多主體控制的難題。
Vidu的技術(shù)方案與業(yè)界主流存在顯著差異。其他家仍局限于預(yù)訓(xùn)練+LoRA微調(diào)的方案,存在數(shù)據(jù)構(gòu)造繁瑣、訓(xùn)練時(shí)間長、易過擬合、無法捕捉細(xì)節(jié)等缺點(diǎn)。而生數(shù)則通過統(tǒng)一的底層模型技術(shù)架構(gòu),無需單獨(dú)進(jìn)行數(shù)據(jù)收集、標(biāo)注和微調(diào),僅需少量圖片即可輸出高質(zhì)量視頻。這一架構(gòu)的統(tǒng)一性不僅體現(xiàn)在問題形式上,更體現(xiàn)在底層設(shè)計(jì)上,與Sora的DiT架構(gòu)存在本質(zhì)區(qū)別。
隨著高質(zhì)量數(shù)據(jù)的一同擴(kuò)展,Vidu在底層視頻生成模型上也觀察到了類似于大語言模型的智能涌現(xiàn)現(xiàn)象。例如,Vidu 1.5能夠融合不同主體,創(chuàng)造出全新的角色,這是之前未曾預(yù)料到的能力。其智能涌現(xiàn)還體現(xiàn)在上下文能力提升和記憶能力增強(qiáng)上,能夠?qū)崿F(xiàn)對(duì)視頻中角色、道具、場景的統(tǒng)一控制。
Vidu在上下文能力方面的迭代節(jié)奏緊湊,從初期僅能參考單一主體的面部特征,到現(xiàn)在能參考多個(gè)主體,未來預(yù)期可以實(shí)現(xiàn)參考拍攝技巧、運(yùn)鏡、調(diào)度等更多因素。這一過程中,參考對(duì)象從具體到抽象,要求和難度逐漸提升。由于目前還沒有針對(duì)視頻模型上下文能力的開源解決方案,Vidu 1.5在這一領(lǐng)域形成了自己的技術(shù)壁壘。