OpenAI開源全新解碼器,極大提升Stable Diffusion性能

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      在11月7日OpenAI的首屆開發者大會上,除了推出一系列重磅產品之外,還開源了兩款產品,全新解碼器Consistency Decoder(一致性解碼器)和最新語音識別模型Whisper v3。

      據悉,Consistency Decoder可以替代Stable Diffusion VAE解碼器。該解碼器可以改善所有與Stable Diffusion 1.0+ VAE兼容的圖像,尤其是在文本、面部和直線方面有大幅度提升。僅上線一天的時間,在Github就收到1100顆星。

      Whisper large-v3是OpenAI之前開源的whisper模型的最新版本,在各種語言上的性能都有顯著提升。OpenAI會在未來的API計劃中提供Whisper v3。

      解碼器地址:https://github.com/openai/consistencydecoder

      Whisper v3地址:https://github.com/openai/whisper

      Consistency Decoder效果展示

      Consistency Decoder算是OpenAI“一致性”家族里的新成員,所以,「AIGC開放社區」想為大家介紹一下OpenAI之前開源的另一個創新模型——Consistency Models。

      擴散模型的出現極大推動了文生圖片、視頻、音頻等領域的發展,涌現了GAN、VAE等知名模型。但是這些模型在推理的過程中,過于依賴迭代采樣過程,導致生成效率非常緩慢或生成圖片質量太差。

      OpenAI為了突破這個技術瓶頸,提出了Consistency Models(一致性模型)框架并將其開源。該技術的最大優勢是支持單步高質量生成,同時保留迭代生成的優點。簡單來說,可以使文生圖模型在推理的過程中又快又準攻守兼備。

      此外,Consistency Models可以通過提取預先訓練的擴散模型來使用,也可以作為獨立的生成模型來訓練,兼容性強且靈活。

      開源地址:https://github.com/openai/consistency_models

      論文:https://arxiv.org/abs/2303.01469

      為了讓大家更好的理解Consistency Models技術特點,「AIGC開放社區」先簡單的介紹一下擴散模型的原理。

      什么是擴散模型

      擴散模型主要通過模擬擴散過程來生成數據,核心技術是將數據看作是由一個簡單的隨機過程(例如,高斯白噪聲)經過一系列平滑變換得到的結果。

      擴散模型主要由正向過程和反向過程兩大塊組成。正向過程(擴散過程):首先將原始數據通過添加噪聲逐漸擴散,直到變成無法識別的噪聲。

      具體來說,每一步都會添加一點噪聲,噪聲的強度通常會隨著步驟的進行而增大。這個過程可以用一個隨機微分方程來描述。

      反向過程(去噪聲過程):然后使用一個學習到的模型從噪聲數據中重建原始數據。

      這個過程通常通過優化一個目標函數來進行,目標是讓重建的數據與原始數據盡可能相似。

      Consistency Models簡單介紹

      Consistency Models受擴散模型技術思路啟發,直接將噪聲映射到數據分布,無需迭代過程直接生成高質量圖像。實驗證明,如果模型輸出在同一軌跡上的點保持一致,可以有效學習此映射。

      簡單來說,Consistency Models直接放棄了逐步去噪過程,而是直接學習把隨機的噪聲映射到復雜的圖像上,同時加上了一致性的規則約束,避免生成的圖像出現“驢唇不對馬嘴”的情況。

      說的更直白一點,我們如果要做一道麻婆豆腐,需要先切豆腐、配菜,然后放在馬勺里進行大火翻炒,再放上調料最后出鍋。

      而Consistency Models的方法是直接就變出一盤麻婆豆腐,省去了所有制作流程,并且口味、菜品都是按照用戶標準來的,這就是該技術的神奇之處。

      基于上述技術概念,OpenAI的研究人員使用了知識蒸餾和直接訓練兩種方法來訓練Consistency Models。

      知識蒸餾:使用一個預先訓練好的擴散模型(如Diffusion),生成一些數據對,然后訓練Consistency Models時讓這些數據對的輸出盡可能接近,來跟擴散模型進行知識蒸餾。

      直接訓練法:直接從訓練集樣本中學習數據到噪聲的映射,不需要依賴預訓練模型。主要是加入噪聲進行數據增強,然后優化增強前后的輸出一致性。

      實驗數據

      研究人員在多個圖像數據集上測試了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。

      結果表明,知識蒸餾訓練的Consistency Models效果最好,在所有數據集和步數下均優于現有最好的蒸餾技術Progressive Distillation。

      例如,在CIFAR-10上,單步生成達到新記錄的FID 3.55,兩步生成達到2.93;在ImageNet 64x64上,單步生成FID為6.20,兩步生成為4.70,均刷新記錄。

      直接訓練方式下,Consistency Models也顯示出強大的能力,在CIFAR-10上打敗了大多數單步生成模型,質量接近Progressive Distillation。

      此外,該模型支持進行零樣本圖像編輯,可實現圖像去噪、插值、上色、超分辨率生成、筆觸生成等多種任務,而無需專門訓練。

      本文素材來源OpenAI官網、論文、開源項目,如有侵權請聯系刪除

       

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > OpenAI開源全新解碼器,極大提升Stable Diffusion性能

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 秦皇岛市| 南充市| 麻城市| 贵南县| 伊金霍洛旗| 台东县| 伊吾县| 陈巴尔虎旗| 彭山县| 海城市| 柘城县| 达州市| 论坛| 中西区| 宜川县| 策勒县| 凌云县| 子洲县| 汶川县| 湘潭县| 缙云县| 乌兰县| 无棣县| 乌兰浩特市| 兰考县| 岚皋县| 临沂市| 西和县| 桑日县| 扎兰屯市| 乌鲁木齐市| 环江| 调兵山市| 富顺县| 辛集市| 偃师市| 民权县| 防城港市| 嘉峪关市| 元朗区| 冕宁县|