香港大學、阿里集團、螞蟻集團聯合開源了基于擴散模型的,圖像生成、控制模型——AnyDoor。
AnyDoor的主要功能是“圖像傳送”,就是將一張圖像的內容融合到另外一張圖像中,例如,將女生的藍色短袖換成,其他樣式的紅色衣服。
所以,也可以理解成“一鍵PS合成”或者PS中的內容感知移動工具。
根據「AIGC開放社區」使用其在線demo的體驗,操作方法非常簡單,上傳圖片然后標注涂抹區域即可。
整個功能強大且可視化,用戶可以控制強度、種子、指導量表等參數,使得融合的圖像更加細膩、逼真。
目前,AnyDoor在Github達到3000顆星,非常受歡迎。
開源地址:https://github.com/ali-vilab/AnyDoor
論文地址:https://arxiv.org/abs/2307.09481
Demo地址:https://huggingface.co/spaces/xichenhku/AnyDoor-online
AnyDoor的核心技術思路是同時表示身份和細節。表示身份,通過自監督模塊提取語義一致的 ID 特征;
表示細節,則利用高頻區域捕捉表面紋理,既能保持紋理細節,又能實現靈活的局部變化(光照、方向、姿勢等),使得對象能夠與不同的環境進行良好的融合。
與傳統方法不同,AnyDoor模型只需進行一次訓練,便能夠在推理階段廣泛應用于不同的對象、場景組合,而無需為每個對象調整參數。
身份特征提取模塊
傳統方法是使用CLIP圖像編碼器來嵌入目標對象。但CLIP是基于粗略描述的文本圖像對訓練的,只能嵌入語義級別的信息,而無法給出保留對象身份的可辨認表示。
為了解決這一難題,研究人員進行了兩大創新:1)移除背景,在將目標圖像饋送到ID提取器之前,使用分割器移除背景并將對象與圖像中心對齊。這種操作被證明有助于提取更整潔和更可辨認的特征。
2)自監督表示,在大規模數據集上預訓練,自監督模型具備實例檢索能力,可以將對象投影到一個數據增強不變的特征空間中。
研究人員使用了目前最佳的自監督模型之一DINO-V2作為ID提取器的主干,將圖像編碼為一個全局表示和一系列區域表示,通過連接這兩類表示來保留更多信息。
最后,通過一個線性層將這些表示與預訓練的文本到圖像UNet的嵌入空間對齊,投影后的表示作為ID標記。
細節特征提取
當ID標記失去了空間分辨率,會很難充分表示目標對象的細微細節。因此,需要額外的指導以在互補的方式生成細節。為了使融合的圖像更加逼真、絲滑,研究人員使用了兩種輔助方法來實現。
拼貼表示:將“去背景的目標對象”拼貼在給定場景的指定位置,以改善生成圖像的保真度。
但生成的內容與給定目標過于相似,缺乏多樣性,所以,研究人員又設置了一個信息瓶頸以防止拼貼給出太多外觀約束。
高頻圖:提取目標對象的高頻圖,這可以保持細微細節,同時允許姿態、照明、方向等各種局部變體。
研究人員使用Sobel作為濾波器,首先提取圖像的高頻區域,然后使用Hadamard乘積提取RGB顏色,同時添加了腐蝕掩模來過濾目標對象外輪廓附近的信息。
得到高頻圖后,根據給定的位置將其拼接到場景圖像上,再將拼接結果傳遞給細節提取器,二者之間進行深度融合實現更好的效果。
研究人員表示,AnyDoor模型主要用于一鍵換臉/換衣、虛擬試穿、在線PS等業務場景。可以讓很多不懂技術的電商賣家,也能實現專業PS的功能。
本文素材來源AnyDoor論文,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 隨意融合圖像,阿里、港大開源圖像控制模型AnyDoor
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國