該版本與Stable Diffusion 2相比,在文本語義理解、色彩飽和度、圖像構(gòu)圖、分辨率、類型、質(zhì)感、對(duì)比度等方面大幅度增強(qiáng),可對(duì)標(biāo)閉源模型Midjourney。
Stable Diffusion 3的參數(shù)在8億——80億之間,也就是說Stable Diffusion 3可能是專為移動(dòng)設(shè)備開發(fā)的,AI算力消耗將更低,推理速度卻更快。
目前,Stable Diffusion 3支持申請(qǐng)使用,未來會(huì)擴(kuò)大測(cè)試范圍。
申請(qǐng)地址:https://stability.ai/stablediffusion3

stability.ai沒有過多的介紹Stable Diffusion 3的技術(shù)內(nèi)容,但指出其核心架構(gòu)使用了Transformer和Flow FMatching(簡(jiǎn)稱“FM”)。
Transformer大家都很熟悉了,ChatGPT、T5 、BERT等很多著名模型都是基于該架構(gòu)開發(fā)的。
而FM是Meta AI和魏茨曼科學(xué)研究所在2022年10月發(fā)布的,一種全新高效建模、訓(xùn)練技術(shù)概念。
Flow Matching論文地址:https://arxiv.org/abs/2210.02747
Flow Matching簡(jiǎn)單介紹
目前,很多文生圖模型使用的是CNF(連續(xù)正規(guī)化流動(dòng))訓(xùn)練方法,主要使用常微分方程對(duì)流動(dòng)進(jìn)行建模,實(shí)現(xiàn)從一種已知分布到目標(biāo)分布的平滑映射。
但由于訓(xùn)練過程需要進(jìn)行大量的微分方程模擬,會(huì)導(dǎo)致算力成本高、模型設(shè)計(jì)復(fù)雜、可解釋性差等缺點(diǎn)。
FM則是放棄微分方程的直接模擬,而是通過回歸固定條件概率軌跡來實(shí)現(xiàn)無模擬訓(xùn)練。研究人員設(shè)計(jì)了條件概率分布與向量場(chǎng)的概念,利用邊緣分布的結(jié)合可以建立總體目標(biāo)概率軌跡與向量場(chǎng),從而消除了模擬過程對(duì)梯度計(jì)算的影響。

1)條件概率路徑構(gòu)建:FM需要給出一個(gè)目標(biāo)概率路徑,該路徑從簡(jiǎn)單分布演變到逼近數(shù)據(jù)分布。然后利用條件概率路徑構(gòu)建了目標(biāo)路徑,這樣每個(gè)樣本有一個(gè)對(duì)應(yīng)的條件路徑。
2)變換層:構(gòu)成FM的基本單元,每個(gè)變換層都是可逆的。這意味著從輸入到輸出的每一步映射都可以精確地反轉(zhuǎn),從而允許從目標(biāo)分布反推到原始分布。
3)耦合層:將輸入分成兩部分,對(duì)其中一部分應(yīng)用變換,而變換函數(shù)可以是任意的神經(jīng)網(wǎng)絡(luò),其參數(shù)由另一部分決定,保證了變換的可逆性。
目前,F(xiàn)M技術(shù)已在圖像生成與超分辨率、圖像理解、圖像修復(fù)與填充、條件圖像生成、圖像風(fēng)格遷移與合成、視頻處理等領(lǐng)域得到廣泛應(yīng)用。
Stable Diffusion 3案例展示
本次的發(fā)布頁面也是由Stable Diffusion 3生成的,提示詞:史詩般的動(dòng)漫藝術(shù)風(fēng)格,一位巫師站在夜間的山頂上,向黑暗的天空施放咒語,上面寫著由彩色能量生成的“Stable Diffusion 3”文字

教室桌子上有一個(gè)紅蘋果,電影風(fēng)格,背景的黑板上用粉筆寫著“要么做大,要么回家”

一名宇航員騎著一只穿著蓬蓬裙的豬,撐著一把粉色的傘,豬旁邊的地上有一只戴著高帽的知更鳥,角落里寫著" Stable Diffusion "的字樣。

一只變色龍,黑色背景,攝影風(fēng)格。

一輛跑車的夜間照片,側(cè)面寫有“SD3”字樣,汽車在賽道上高速行駛,巨大的路標(biāo)上寫著“更快”的文字。

波浪沖擊蘇格蘭燈塔的魚眼鏡頭照片,黑色波浪。

本文素材來源stability.ai官網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系刪除
END
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > Stable Diffusion 3來啦!提示文本理解更好,圖像質(zhì)量更強(qiáng)
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)