近日,阿里巴巴推出了Qwen-Image-Edit,這是一款基于其先前發布的Qwen-Image圖像生成基礎模型的圖像編輯版本。這一新工具的問世,或許預示著圖像處理領域將迎來一場革新。
Qwen-Image-Edit依托于一個擁有200億參數的Qwen-Image模型進行進一步訓練,將原本用于文本渲染的能力擴展至圖像編輯領域。它不僅能夠實現圖像中文字的精準編輯,還通過結合Qwen2.5-VL(用于視覺語義控制)和VAE Encoder(用于視覺外觀控制),賦予了用戶同時進行語義與外觀編輯的能力。
在實際應用中,Qwen-Image-Edit展現了其強大的雙重編輯功能。用戶不僅能夠進行低階的視覺外觀編輯,如添加、刪除或修改圖像元素,同時保持其他區域不變;還能實現高階的視覺語義編輯,比如IP創作、物體旋轉、風格遷移等,這些操作允許整體像素變化,但語義保持一致。例如,用戶可以在一張風景照中添加一塊指示牌,并指定牌上的文字為“Welcome to Penguin Beach”,Qwen-Image-Edit不僅能準確生成指示牌,還會為其添加自然的倒影。
Qwen-Image-Edit還支持中英文雙語文字編輯,用戶可以直接在圖片上增減或修改文字,同時保留原有字體、字號和風格。這一特性使得圖像中的文字編輯變得更加靈活和精確。
在多個公開基準測試中的評估顯示,Qwen-Image-Edit在圖像編輯任務上具備最佳表現(SOTA)性能。目前,用戶可以通過訪問Qwen Chat(chat.qwen.ai)并選擇“圖像編輯”功能來體驗這一強大的圖像編輯基礎模型。實測表明,Qwen-Image-Edit在文字生成、視角切換、場景創設、背景變幻等方面都能生成較為精準的結果,并且主體保持較高的一致性,光線和質感也會隨場景自然變化。
Qwen-Image-Edit的語義編輯功能在IP內容創作方面展現出巨大潛力。通過輸入簡單的文字提示,用戶可以輕松生成不同場景下的IP形象,這些形象在形態上保持一致,但背景和動作卻豐富多樣。例如,以Qwen的吉祥物水豚為例,用戶可以通過輸入對應的文字提示,生成水豚在不同場景下的圖片,這些圖片雖然像素大部分不同,但水豚的形態一致性得到了完美保留。
除了語義編輯外,Qwen-Image-Edit的外觀編輯功能也同樣強大。用戶可以在不改變圖像其他區域的前提下,添加、移除或修改特定元素。例如,用戶可以從圖像中去除細發絲或其他小物體,或者修改圖像中特定字母的顏色。外觀編輯在調整人物背景或更換服裝等場景中也有廣泛應用。
Qwen-Image-Edit的精準文本編輯能力也是其一大亮點。這得益于Qwen-Image在文本渲染方面的深厚功底。用戶可以直接在圖像上編輯中英文文本,無論是大標題還是細小復雜的文本元素,都能進行精確調整。這一特性使得圖像中的文字編輯變得更加簡單和高效。
盡管Qwen-Image-Edit在圖像編輯方面展現出了強大的能力,但目前其使用次數仍有限制,不能無限使用。在連續多輪修改中,其編輯的精準性和一致性仍有待提高。尤其是在處理更復雜字體如草書時,Qwen-Image-Edit仍存在一定的局限性。然而,隨著這一能力的持續迭代和優化,我們有理由相信,Qwen-Image-Edit將推動圖像生成領域的發展,降低視覺內容創作的技術門檻,并激發更多創新應用。