国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

多模態(tài)模型Vidu1.5突破,Scaling Law迎來新拐點(diǎn)?

   時(shí)間:2025-02-17 03:21 來源:ITBEAR作者:任飛揚(yáng)

在自然語言處理領(lǐng)域,一個(gè)引人矚目的現(xiàn)象正在顯現(xiàn):傳統(tǒng)的通過增加模型規(guī)模和數(shù)據(jù)量來提升性能的Scaling Law似乎已逼近瓶頸。業(yè)界開始擔(dān)憂,單純依賴這種策略或許已難以帶來顯著的性能飛躍,低精度訓(xùn)練和推理正使得模型性能提升的邊際效益逐漸遞減。然而,在自然語言處理遭遇挑戰(zhàn)的同時(shí),多模態(tài)模型領(lǐng)域卻似乎尚未觸及這一限制。

多模態(tài)數(shù)據(jù),涵蓋圖像、視頻、音頻等多種類型,因其信息豐富度、處理方法和應(yīng)用領(lǐng)域的復(fù)雜性,難以達(dá)到大規(guī)模訓(xùn)練的標(biāo)準(zhǔn)。因此,Scaling Law在多模態(tài)領(lǐng)域尚未得到充分驗(yàn)證。但這一現(xiàn)狀即將發(fā)生改變。清華系大模型公司生數(shù)科技最新發(fā)布的Vidu 1.5,正引領(lǐng)多模態(tài)領(lǐng)域邁向新的發(fā)展階段。

Vidu 1.5通過持續(xù)的規(guī)模擴(kuò)展(Scaling Up),已達(dá)到了一個(gè)關(guān)鍵的“奇點(diǎn)”時(shí)刻,涌現(xiàn)出了強(qiáng)大的“上下文能力”。這一能力使模型能夠理解并記憶輸入的多主體信息,展現(xiàn)出對(duì)復(fù)雜主體更為精準(zhǔn)的控制。無論是細(xì)節(jié)豐富的角色還是復(fù)雜的物體,僅需上傳不同角度的三張圖片,Vidu 1.5便能確保單主體形象的高度一致。

Vidu 1.5的突破不僅限于單主體控制,還實(shí)現(xiàn)了多主體之間的一致性。用戶能夠上傳包含人物角色、道具物體、環(huán)境背景等多種元素的圖像,Vidu能夠?qū)⑦@些元素?zé)o縫融合,實(shí)現(xiàn)自然交互。這一能力標(biāo)志著多模態(tài)模型在主體一致性方面取得了重大進(jìn)展。

Vidu在主體一致性方面的成就,不僅得益于Scaling Law的發(fā)揮,更源于其采用的無微調(diào)、大一統(tǒng)的技術(shù)架構(gòu)方案。當(dāng)前主流的視頻模型為實(shí)現(xiàn)一致性,大多采用在預(yù)訓(xùn)練基礎(chǔ)上針對(duì)單個(gè)任務(wù)進(jìn)行微調(diào)的LoRA方案。而Vidu的底層模型則跳出了這一框架,做出了開拓性的改變。這一改變與生數(shù)科技一貫堅(jiān)持的通用性理念相契合,通過統(tǒng)一的底層模型技術(shù)架構(gòu),無需單獨(dú)進(jìn)行數(shù)據(jù)收集、標(biāo)注和微調(diào),僅需1到3張圖即可輸出高質(zhì)量視頻。

回顧大語言模型的發(fā)展歷程,從GPT-2到GPT-3.5的質(zhì)變,同樣實(shí)現(xiàn)了從預(yù)訓(xùn)練+特定任務(wù)微調(diào)向統(tǒng)一框架的突破。Vidu 1.5的推出,標(biāo)志著多模態(tài)大模型正經(jīng)歷著類似于GPT-3.5的時(shí)刻。這一突破不僅體現(xiàn)在技術(shù)上,更在于設(shè)計(jì)理念上的革新。

生數(shù)科技CTO鮑凡表示,公司不會(huì)盲目追隨Sora等已有模型的路線,而是從一開始就瞄準(zhǔn)通用多模態(tài)大模型的目標(biāo),進(jìn)行自主研發(fā)。從全球首個(gè)基于Diffusion的Transformer架構(gòu)U-ViT的發(fā)布,到首次實(shí)現(xiàn)用統(tǒng)一架構(gòu)處理泛化任務(wù),生數(shù)科技不僅擁有先發(fā)優(yōu)勢(shì),更具備持續(xù)突破的能力。Vidu與業(yè)界其他視頻生成模型相比,已形成明顯的技術(shù)代差。

在主體一致性這一難題上,Vidu取得了顯著成果。鮑凡比喻道,這就像制造一臺(tái)好的發(fā)動(dòng)機(jī),雖然知道其重要性,但實(shí)現(xiàn)起來卻異常艱難。包括Sora在內(nèi)的國內(nèi)外視頻模型,在主體一致性方面均未取得突破。而Vidu則從上線之初就主打解決一致性問題,并逐步拓展到對(duì)單主體整體形象的控制,直至最新版本的Vidu 1.5,已能夠?qū)崿F(xiàn)對(duì)單主體不同視角的高度精準(zhǔn)控制,并攻破多主體控制的難題。

Vidu的技術(shù)方案與業(yè)界主流存在顯著差異。其他家仍局限于預(yù)訓(xùn)練+LoRA微調(diào)的方案,存在數(shù)據(jù)構(gòu)造繁瑣、訓(xùn)練時(shí)間長、易過擬合、無法捕捉細(xì)節(jié)等缺點(diǎn)。而生數(shù)則通過統(tǒng)一的底層模型技術(shù)架構(gòu),無需單獨(dú)進(jìn)行數(shù)據(jù)收集、標(biāo)注和微調(diào),僅需少量圖片即可輸出高質(zhì)量視頻。這一架構(gòu)的統(tǒng)一性不僅體現(xiàn)在問題形式上,更體現(xiàn)在底層設(shè)計(jì)上,與Sora的DiT架構(gòu)存在本質(zhì)區(qū)別。

隨著高質(zhì)量數(shù)據(jù)的一同擴(kuò)展,Vidu在底層視頻生成模型上也觀察到了類似于大語言模型的智能涌現(xiàn)現(xiàn)象。例如,Vidu 1.5能夠融合不同主體,創(chuàng)造出全新的角色,這是之前未曾預(yù)料到的能力。其智能涌現(xiàn)還體現(xiàn)在上下文能力提升和記憶能力增強(qiáng)上,能夠?qū)崿F(xiàn)對(duì)視頻中角色、道具、場景的統(tǒng)一控制。

Vidu在上下文能力方面的迭代節(jié)奏緊湊,從初期僅能參考單一主體的面部特征,到現(xiàn)在能參考多個(gè)主體,未來預(yù)期可以實(shí)現(xiàn)參考拍攝技巧、運(yùn)鏡、調(diào)度等更多因素。這一過程中,參考對(duì)象從具體到抽象,要求和難度逐漸提升。由于目前還沒有針對(duì)視頻模型上下文能力的開源解決方案,Vidu 1.5在這一領(lǐng)域形成了自己的技術(shù)壁壘。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群

主站蜘蛛池模板: 日韩精品专区 | 国产私拍福利精品视频网站 | 日本精品久久久一区二区三区 | 男女激情视频网站 | 国产精品嫩草影院在线 | 亚洲精品在线网 | 亚洲欧美一区二区三区不卡 | 丁香四月婷婷 | 久久公开视频 | 亚洲国产成人在线观看 | 日本免费高清一区 | 欧美日韩在线网站 | www.激情小说.com | 自拍偷拍欧美视频 | 亚洲热热久久九九精品 | 久久国产精品久久精品国产 | 国内精品久久久久久99蜜桃 | 亚洲作爱视频 | 亚洲天堂资源网 | 日韩欧美精品在线视频 | 久久久久亚洲视频 | 亚洲精品福利在线观看 | 人人爽人人草 | 一色桃子在线精品播放 | 激情五月综合 | 亚洲男人的天堂2019 | 精品视频一区二区三区 | 久久精品国产第一区二区 | 亚洲国产欧美日韩精品一区二区三区 | 久久一区视频 | 亚欧精品一区二区三区 | 中文字幕久精品免费视频蜜桃视频 | 亚洲国产成人在线视频 | 亚洲男人的天堂成人 | 久久久精品麻豆 | 国产成人精品日本亚洲专 | 亚洲欧洲一区二区 | 亚洲欧美日韩综合在线 | 最近中文字幕无日本电影 | 亚洲人成77777在线观看网 | 亚洲国产成人在线视频 |