在2024年的尾聲,文生影像領域迎來了一場前所未有的技術盛宴。國內外各大科技巨頭紛紛亮出殺手锏,其中,OpenAI的Sora、谷歌的Veo 2以及背靠字節跳動的即夢AI尤為引人注目。
Sora以最高1080P的分辨率、20秒的時長以及創新的故事板、Remix等功能,率先點燃了這場技術競賽的戰火。然而,谷歌隨后發布的Veo 2模型,憑借在指令遵循、鏡頭控制以及畫面質量上的卓越表現,再次刷新了人們的認知。與此同時,即夢AI也在激烈的市場競爭中嶄露頭角,其背靠字節跳動強大的短視頻基因,短短數月內便經歷了數次迭代,成功解決了AI生成影像中的中文嵌入難題。
在這場技術較量中,即夢AI憑借其獨特的“智能參考”功能,讓用戶能夠通過一句簡單的話語實現零門檻改圖,并精準收獲預期效果。例如,用戶只需輸入“兵馬俑喝奶茶”的prompt,即夢AI便能在幾秒鐘內將一張兵馬俑的照片轉化為左手握奶茶的圖片,且圖片其余部位保持原樣,無需額外操作。這一功能不僅滿足了C端用戶在社交媒體制圖方面的需求,也為創作者提供了極大的便利,降低了使用成本,提高了創作效率。
不僅如此,即夢AI還上線了“文字海報”功能,用戶只需輸入一句話即可生成中/英文海報,并可在后續進行涂抹修改錯字。這一功能不僅實現了簡單快速的排版設計,更在AI圖像生成中中文難以生成的問題上取得了突破。同時,即夢的模型還能根據提示詞自動完善文案并補充畫面細節,在控制圖片中的文字生成方面開創了行業先河。
在視頻生成方面,即夢AI同樣表現出色。其S&P雙模型采用了DiT架構,其中S2.0 pro模型在首幀一致性和畫質上表現出色,而P2.0 pro模型則具有較高的“提示詞遵循能力”。用戶輸入復雜的提示詞,如鏡頭切換、人物連續動作、情緒演繹、運鏡控制等,模型都能理解并精準生成視頻。
在實測中,即夢AI的P2.0 pro模型在鏡頭切換、人物動作以及運鏡控制等方面都展現出了卓越的性能。例如,輸入一張圖和prompt,即可生成多鏡頭視頻,實現全景、中景、特寫等鏡頭切換,并保持視頻與原圖風格、場景以及人物的高度一致。同時,模型還能演繹哭、笑、悲傷、生氣等單一情緒以及“哭中帶笑”等復雜情緒,為用戶提供了豐富的創作空間。
即夢AI在B端場景的應用同樣具有廣闊的前景。商品展示類的廣告短片、紅人口播短視頻等都可以通過即夢AI的模型能力實現。即夢還上線了“對口型”功能,用戶只需提供一張圖片、一段文字或音頻,即可生成對口型視頻,人物表情、神態以及服飾、配飾等細節都能達到動態逼真的效果。
在12月18日的即夢發布會上,剪映業務負責人張楠表示,視覺模型將極大改變人們觀看視頻的方式。用戶將不再是被動觀看,而是可以在任何時刻介入、參與和影響劇情走向或觀看不同的故事分支。這一觀點不僅展現了即夢AI在技術創新方面的雄心壯志,也預示著未來視頻內容創作和觀看方式的變革。
剪映業務負責人 張楠
作為字節跳動在生成式AI領域的重要布局,即夢AI不僅擁有優越的資源稟賦和算力資源,還具備獨特的生態站位優勢。抖音作為字節跳動旗下的短視頻平臺,需要源源不斷的內容支持。即夢AI可以與剪映結合,引入AI生產力工具后將內容反哺給抖音,為抖音提供更加豐富多樣的內容創作方式。