阿里巴巴旗下的通義萬相近日宣布了其2.1版本模型的重大升級,此次升級在視頻與圖像生成能力上實現了顯著提升,為用戶帶來了更為豐富和高質量的創作體驗。
在視頻生成領域,通義萬相2.1憑借自研的高效VAE和DiT架構,顯著增強了時空上下文建模能力。這一技術突破使得系統能夠支持無限長1080P視頻的高效編解碼,大大提升了視頻處理的靈活性和效率。尤為新版本首次實現了中文文字視頻生成功能,并在VBench榜單上榮登榜首,彰顯了其在視頻生成技術上的領先地位。
通義萬相2.1不僅支持中英文視頻的一鍵藝術字生成,還提供了多種視頻特效選項,如過渡效果、粒子效果和模擬效果等,極大地豐富了視頻的視覺表現力。無論是制作宣傳視頻還是個人短片,用戶都能輕松實現專業級的視覺效果。
在圖像生成方面,通義萬相2.1同樣表現出色。新版本采用了IC-LoRA圖像生成訓練方法,結合DiT架構,顯著增強了文本到圖像的上下文能力。用戶只需對多張圖像進行拼接與聯合描述,即可實現關聯圖像間的組合生成,并保持特征穩定連續。這一功能為設計師和攝影師提供了更多創意空間,讓圖像創作更加便捷和高效。
通義萬相2.1還支持復雜運鏡,能夠還原碰撞、反彈、切割、擠壓等真實世界的物理規律。例如,在模擬雨滴落在傘面上的場景中,系統能夠精確呈現水花濺起的細節,使畫面更加逼真和生動。這一功能在廣告制作、動畫制作等領域具有廣泛的應用前景。