<strike id="8aak0"></strike>

<kbd id="8aak0"><pre id="8aak0"></pre></kbd>

<kbd id="8aak0"><center id="8aak0"></center></kbd>

當前位置：首頁 > RPA最新資訊 > AI視角 > OpenAI開源全新解碼器，極大提升Stable Diffusion性能

OpenAI開源全新解碼器，極大提升Stable Diffusion性能

suntingting 發布于 2023-11-08 10:45:52
分類：AI視角
來源：
閱讀()
評論()

在11月7日OpenAI的首屆開發者大會上，除了推出一系列重磅產品之外，還開源了兩款產品，全新解碼器Consistency Decoder（一致性解碼器）和最新語音識別模型Whisper v3。

據悉，Consistency Decoder可以替代Stable Diffusion VAE解碼器。該解碼器可以改善所有與Stable Diffusion 1.0+ VAE兼容的圖像，尤其是在文本、面部和直線方面有大幅度提升。僅上線一天的時間，在Github就收到1100顆星。

Whisper large-v3是OpenAI之前開源的whisper模型的最新版本，在各種語言上的性能都有顯著提升。OpenAI會在未來的API計劃中提供Whisper v3。

解碼器地址：https://github.com/openai/consistencydecoder

Whisper v3地址：https://github.com/openai/whisper

Consistency Decoder效果展示

Consistency Decoder算是OpenAI“一致性”家族里的新成員，所以，「AIGC開放社區」想為大家介紹一下OpenAI之前開源的另一個創新模型——Consistency Models。

擴散模型的出現極大推動了文生圖片、視頻、音頻等領域的發展，涌現了GAN、VAE等知名模型。但是這些模型在推理的過程中，過于依賴迭代采樣過程，導致生成效率非常緩慢或生成圖片質量太差。

OpenAI為了突破這個技術瓶頸，提出了Consistency Models（一致性模型）框架并將其開源。該技術的最大優勢是支持單步高質量生成,同時保留迭代生成的優點。簡單來說，可以使文生圖模型在推理的過程中又快又準攻守兼備。

此外，Consistency Models可以通過提取預先訓練的擴散模型來使用，也可以作為獨立的生成模型來訓練，兼容性強且靈活。

開源地址：https://github.com/openai/consistency_models

論文：https://arxiv.org/abs/2303.01469

為了讓大家更好的理解Consistency Models技術特點，「AIGC開放社區」先簡單的介紹一下擴散模型的原理。

什么是擴散模型

擴散模型主要通過模擬擴散過程來生成數據，核心技術是將數據看作是由一個簡單的隨機過程（例如，高斯白噪聲）經過一系列平滑變換得到的結果。

擴散模型主要由正向過程和反向過程兩大塊組成。正向過程（擴散過程）：首先將原始數據通過添加噪聲逐漸擴散，直到變成無法識別的噪聲。

具體來說，每一步都會添加一點噪聲，噪聲的強度通常會隨著步驟的進行而增大。這個過程可以用一個隨機微分方程來描述。

反向過程（去噪聲過程）：然后使用一個學習到的模型從噪聲數據中重建原始數據。

這個過程通常通過優化一個目標函數來進行，目標是讓重建的數據與原始數據盡可能相似。

Consistency Models簡單介紹

Consistency Models受擴散模型技術思路啟發，直接將噪聲映射到數據分布,無需迭代過程直接生成高質量圖像。實驗證明，如果模型輸出在同一軌跡上的點保持一致,可以有效學習此映射。

簡單來說，Consistency Models直接放棄了逐步去噪過程,而是直接學習把隨機的噪聲映射到復雜的圖像上，同時加上了一致性的規則約束，避免生成的圖像出現“驢唇不對馬嘴”的情況。

說的更直白一點，我們如果要做一道麻婆豆腐，需要先切豆腐、配菜，然后放在馬勺里進行大火翻炒，再放上調料最后出鍋。

而Consistency Models的方法是直接就變出一盤麻婆豆腐，省去了所有制作流程，并且口味、菜品都是按照用戶標準來的，這就是該技術的神奇之處。

基于上述技術概念，OpenAI的研究人員使用了知識蒸餾和直接訓練兩種方法來訓練Consistency Models。

知識蒸餾：使用一個預先訓練好的擴散模型（如Diffusion）,生成一些數據對,然后訓練Consistency Models時讓這些數據對的輸出盡可能接近,來跟擴散模型進行知識蒸餾。

直接訓練法:直接從訓練集樣本中學習數據到噪聲的映射,不需要依賴預訓練模型。主要是加入噪聲進行數據增強,然后優化增強前后的輸出一致性。

實驗數據

研究人員在多個圖像數據集上測試了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。

結果表明,知識蒸餾訓練的Consistency Models效果最好,在所有數據集和步數下均優于現有最好的蒸餾技術Progressive Distillation。

例如,在CIFAR-10上,單步生成達到新記錄的FID 3.55,兩步生成達到2.93;在ImageNet 64x64上,單步生成FID為6.20,兩步生成為4.70,均刷新記錄。

直接訓練方式下,Consistency Models也顯示出強大的能力，在CIFAR-10上打敗了大多數單步生成模型,質量接近Progressive Distillation。

此外,該模型支持進行零樣本圖像編輯,可實現圖像去噪、插值、上色、超分辨率生成、筆觸生成等多種任務,而無需專門訓練。

本文素材來源OpenAI官網、論文、開源項目，如有侵權請聯系刪除

繼續閱讀：

未經允許不得轉載：RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > OpenAI開源全新解碼器，極大提升Stable Diffusion性能

相關推薦

熱門信息

閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示
閱讀 (13753)
2 《Market Insight：中國RPA市場發展洞察（2022）》報告正式發布 | RPA中國
閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示
閱讀 (12964)
4 與科技共贏，與產業共進，第四屆ISIG中國產業智能大會成功召開
閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國

快速導航

主站蜘蛛池模板：秦皇岛市| 南充市| 麻城市| 贵南县| 伊金霍洛旗| 台东县| 伊吾县| 陈巴尔虎旗| 彭山县| 海城市| 柘城县| 达州市| 论坛| 中西区| 宜川县| 策勒县| 凌云县| 子洲县| 汶川县| 湘潭县| 缙云县| 乌兰县| 无棣县| 乌兰浩特市| 兰考县| 岚皋县| 临沂市| 西和县| 桑日县| 扎兰屯市| 乌鲁木齐市| 环江| 调兵山市| 富顺县| 辛集市| 偃师市| 民权县| 防城港市| 嘉峪关市| 元朗区| 冕宁县|