日韩综合一区,国产高清一区二区三区,国产国产一区

月23日，著名大模型開源平臺(tái)stability.ai在官網(wǎng)推出了——Stable Diffusion 3。
該版本與Stable Diffusion 2相比，在文本語義理解、色彩飽和度、圖像構(gòu)圖、分辨率、類型、質(zhì)感、對(duì)比度等方面大幅度增強(qiáng)，可對(duì)標(biāo)閉源模型Midjourney。
Stable Diffusion 3的參數(shù)在8億——80億之間，也就是說Stable Diffusion 3可能是專為移動(dòng)設(shè)備開發(fā)的，AI算力消耗將更低，推理速度卻更快。
目前，Stable Diffusion 3支持申請(qǐng)使用，未來會(huì)擴(kuò)大測(cè)試范圍。
申請(qǐng)地址：https://stability.ai/stablediffusion3

stability.ai沒有過多的介紹Stable Diffusion 3的技術(shù)內(nèi)容，但指出其核心架構(gòu)使用了Transformer和Flow FMatching（簡(jiǎn)稱“FM”）。
Transformer大家都很熟悉了，ChatGPT、T5 、BERT等很多著名模型都是基于該架構(gòu)開發(fā)的。
而FM是Meta AI和魏茨曼科學(xué)研究所在2022年10月發(fā)布的，一種全新高效建模、訓(xùn)練技術(shù)概念。
Flow Matching論文地址：https://arxiv.org/abs/2210.02747
Flow Matching簡(jiǎn)單介紹
目前，很多文生圖模型使用的是CNF（連續(xù)正規(guī)化流動(dòng)）訓(xùn)練方法，主要使用常微分方程對(duì)流動(dòng)進(jìn)行建模，實(shí)現(xiàn)從一種已知分布到目標(biāo)分布的平滑映射。
但由于訓(xùn)練過程需要進(jìn)行大量的微分方程模擬，會(huì)導(dǎo)致算力成本高、模型設(shè)計(jì)復(fù)雜、可解釋性差等缺點(diǎn)。
FM則是放棄微分方程的直接模擬,而是通過回歸固定條件概率軌跡來實(shí)現(xiàn)無模擬訓(xùn)練。研究人員設(shè)計(jì)了條件概率分布與向量場(chǎng)的概念,利用邊緣分布的結(jié)合可以建立總體目標(biāo)概率軌跡與向量場(chǎng),從而消除了模擬過程對(duì)梯度計(jì)算的影響。

1）條件概率路徑構(gòu)建：FM需要給出一個(gè)目標(biāo)概率路徑,該路徑從簡(jiǎn)單分布演變到逼近數(shù)據(jù)分布。然后利用條件概率路徑構(gòu)建了目標(biāo)路徑,這樣每個(gè)樣本有一個(gè)對(duì)應(yīng)的條件路徑。
2）變換層：構(gòu)成FM的基本單元，每個(gè)變換層都是可逆的。這意味著從輸入到輸出的每一步映射都可以精確地反轉(zhuǎn)，從而允許從目標(biāo)分布反推到原始分布。
3）耦合層：將輸入分成兩部分，對(duì)其中一部分應(yīng)用變換，而變換函數(shù)可以是任意的神經(jīng)網(wǎng)絡(luò)，其參數(shù)由另一部分決定，保證了變換的可逆性。
目前，F(xiàn)M技術(shù)已在圖像生成與超分辨率、圖像理解、圖像修復(fù)與填充、條件圖像生成、圖像風(fēng)格遷移與合成、視頻處理等領(lǐng)域得到廣泛應(yīng)用。
Stable Diffusion 3案例展示
本次的發(fā)布頁面也是由Stable Diffusion 3生成的，提示詞：史詩般的動(dòng)漫藝術(shù)風(fēng)格，一位巫師站在夜間的山頂上，向黑暗的天空施放咒語，上面寫著由彩色能量生成的“Stable Diffusion 3”文字