在11月7日OpenAI的首屆開發者大會上,除了推出一系列重磅產品之外,還開源了兩款產品,全新解碼器Consistency Decoder(一致性解碼器)和最新語音識別模型Whisper v3。
據悉,Consistency Decoder可以替代Stable Diffusion VAE解碼器。該解碼器可以改善所有與Stable Diffusion 1.0+ VAE兼容的圖像,尤其是在文本、面部和直線方面有大幅度提升。僅上線一天的時間,在Github就收到1100顆星。
Whisper large-v3是OpenAI之前開源的whisper模型的最新版本,在各種語言上的性能都有顯著提升。OpenAI會在未來的API計劃中提供Whisper v3。
解碼器地址:https://github.com/openai/consistencydecoder
Whisper v3地址:https://github.com/openai/whisper
Consistency Decoder效果展示
Consistency Decoder算是OpenAI“一致性”家族里的新成員,所以,「AIGC開放社區」想為大家介紹一下OpenAI之前開源的另一個創新模型——Consistency Models。
擴散模型的出現極大推動了文生圖片、視頻、音頻等領域的發展,涌現了GAN、VAE等知名模型。但是這些模型在推理的過程中,過于依賴迭代采樣過程,導致生成效率非常緩慢或生成圖片質量太差。
OpenAI為了突破這個技術瓶頸,提出了Consistency Models(一致性模型)框架并將其開源。該技術的最大優勢是支持單步高質量生成,同時保留迭代生成的優點。簡單來說,可以使文生圖模型在推理的過程中又快又準攻守兼備。
此外,Consistency Models可以通過提取預先訓練的擴散模型來使用,也可以作為獨立的生成模型來訓練,兼容性強且靈活。
開源地址:https://github.com/openai/consistency_models
論文:https://arxiv.org/abs/2303.01469
為了讓大家更好的理解Consistency Models技術特點,「AIGC開放社區」先簡單的介紹一下擴散模型的原理。
什么是擴散模型
擴散模型主要通過模擬擴散過程來生成數據,核心技術是將數據看作是由一個簡單的隨機過程(例如,高斯白噪聲)經過一系列平滑變換得到的結果。
擴散模型主要由正向過程和反向過程兩大塊組成。正向過程(擴散過程):首先將原始數據通過添加噪聲逐漸擴散,直到變成無法識別的噪聲。
具體來說,每一步都會添加一點噪聲,噪聲的強度通常會隨著步驟的進行而增大。這個過程可以用一個隨機微分方程來描述。
反向過程(去噪聲過程):然后使用一個學習到的模型從噪聲數據中重建原始數據。
這個過程通常通過優化一個目標函數來進行,目標是讓重建的數據與原始數據盡可能相似。
Consistency Models簡單介紹
Consistency Models受擴散模型技術思路啟發,直接將噪聲映射到數據分布,無需迭代過程直接生成高質量圖像。實驗證明,如果模型輸出在同一軌跡上的點保持一致,可以有效學習此映射。
簡單來說,Consistency Models直接放棄了逐步去噪過程,而是直接學習把隨機的噪聲映射到復雜的圖像上,同時加上了一致性的規則約束,避免生成的圖像出現“驢唇不對馬嘴”的情況。
說的更直白一點,我們如果要做一道麻婆豆腐,需要先切豆腐、配菜,然后放在馬勺里進行大火翻炒,再放上調料最后出鍋。
而Consistency Models的方法是直接就變出一盤麻婆豆腐,省去了所有制作流程,并且口味、菜品都是按照用戶標準來的,這就是該技術的神奇之處。
基于上述技術概念,OpenAI的研究人員使用了知識蒸餾和直接訓練兩種方法來訓練Consistency Models。
知識蒸餾:使用一個預先訓練好的擴散模型(如Diffusion),生成一些數據對,然后訓練Consistency Models時讓這些數據對的輸出盡可能接近,來跟擴散模型進行知識蒸餾。
直接訓練法:直接從訓練集樣本中學習數據到噪聲的映射,不需要依賴預訓練模型。主要是加入噪聲進行數據增強,然后優化增強前后的輸出一致性。
實驗數據
研究人員在多個圖像數據集上測試了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。
結果表明,知識蒸餾訓練的Consistency Models效果最好,在所有數據集和步數下均優于現有最好的蒸餾技術Progressive Distillation。
例如,在CIFAR-10上,單步生成達到新記錄的FID 3.55,兩步生成達到2.93;在ImageNet 64x64上,單步生成FID為6.20,兩步生成為4.70,均刷新記錄。
直接訓練方式下,Consistency Models也顯示出強大的能力,在CIFAR-10上打敗了大多數單步生成模型,質量接近Progressive Distillation。
此外,該模型支持進行零樣本圖像編輯,可實現圖像去噪、插值、上色、超分辨率生成、筆觸生成等多種任務,而無需專門訓練。
本文素材來源OpenAI官網、論文、開源項目,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > OpenAI開源全新解碼器,極大提升Stable Diffusion性能
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國