輕松識(shí)別Midjourney等AI生成圖片,開(kāi)源GenImage

      后臺(tái)-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文頂部

      AIGC時(shí)代,人人都可以使用Midjourney、Stable Diffusion等AI產(chǎn)品生成高質(zhì)量圖片,其逼真程度肉眼難以區(qū)分真假。這種虛假照片有時(shí)會(huì)對(duì)社會(huì)產(chǎn)生不良影響,例如,生成公眾人物不雅圖片用于散播謠言;合成虛假圖片用于金融欺詐,造成信任危機(jī)等。

      因此,華為諾亞方舟實(shí)驗(yàn)室開(kāi)源了百萬(wàn)量級(jí)的GenImage數(shù)據(jù)集,幫助企業(yè)、開(kāi)發(fā)者快速構(gòu)建區(qū)分AI生成的圖像和真實(shí)圖像的檢測(cè)器和評(píng)估工具,致力于構(gòu)建AIGC時(shí)代的ImageNet。

      開(kāi)源地址:https://github.com/GenImage-Dataset/GenImage

      論文:https://arxiv.org/abs/2306.08571

      項(xiàng)目主頁(yè):https://genimage-dataset.github.io/


       

      GenImage主要優(yōu)點(diǎn)

      1)大量圖像,包括超過(guò)一百萬(wàn)對(duì) AI 生成的假圖像和收集的真實(shí)圖像。

      2)豐富的圖像內(nèi)容,涵蓋廣泛的1000類(lèi)圖像。

      3) 最先進(jìn)的生成器,Midjourney、Stable Diffusion、ADM、GLIDE、Wukong、VQDM等,利用先進(jìn)的擴(kuò)散模型和 GAN 合成圖像。

      上述優(yōu)點(diǎn)使得在GenImage 上訓(xùn)練的檢測(cè)器能夠經(jīng)過(guò)全面的評(píng)估,并表現(xiàn)出對(duì)不同圖像的強(qiáng)大適用性。

      華為團(tuán)隊(duì)對(duì)數(shù)據(jù)集進(jìn)行了全面分析,并提出了兩個(gè)任務(wù)來(lái)評(píng)估類(lèi)似于真實(shí)場(chǎng)景的檢測(cè)方法。交叉生成器:檢測(cè)器在一種生成器生成的數(shù)據(jù)上訓(xùn)練,在其他生成器生成的數(shù)據(jù)上驗(yàn)證。這個(gè)任務(wù)目的是考察檢測(cè)器在不同生成器上的泛化能力。


       

      退化圖像識(shí)別:檢測(cè)器需要對(duì)于低分辨率,模糊和壓縮圖像進(jìn)行識(shí)別。這個(gè)任務(wù)主要考察檢測(cè)器在真實(shí)條件(如互聯(lián)網(wǎng)上傳播)中面對(duì)低質(zhì)量圖像時(shí)的泛化問(wèn)題。

      數(shù)據(jù)集介紹

      過(guò)去開(kāi)源界也推出了一些數(shù)據(jù)集,主要有三個(gè)特點(diǎn)。第一數(shù)據(jù)規(guī)模小,第二都是基于GAN的,第三是局限于人臉數(shù)據(jù)。隨著時(shí)間推移,數(shù)據(jù)規(guī)模慢慢地在增加,生成器也從GAN時(shí)代過(guò)渡到Diffusion時(shí)代,數(shù)據(jù)的范圍也在增加。

      但是一個(gè)大規(guī)模以Diffusion模型為主,涵蓋各類(lèi)通用圖像的數(shù)據(jù)集仍然是缺失的。

      基于此,華為團(tuán)隊(duì)提出一個(gè)對(duì)標(biāo)imagenet的genimage數(shù)據(jù)集。真實(shí)的圖片采用了ImageNet。


       

      虛假的圖片采用ImageNet的標(biāo)簽進(jìn)行生成。華為團(tuán)隊(duì)利用了八個(gè)先進(jìn)的生成器來(lái)生成,分別是Midjourney,
      Stable Diffusion V1.4, Stable Diffusion V1.5, ADM, GLIDE, Wukong,VQDM和BigGAN。

      這些生成器生成的圖片總數(shù)基本與真實(shí)圖片一致。每個(gè)生成器生成的圖片數(shù)量也基本一致。每一類(lèi)生成的圖片數(shù)量基本一致。

      實(shí)驗(yàn)結(jié)果

      華為團(tuán)隊(duì)做了一些實(shí)驗(yàn)來(lái)考察這個(gè)數(shù)據(jù)集。他們發(fā)現(xiàn)在某個(gè)生成器上訓(xùn)練的ResNet-50模型在其他的測(cè)試準(zhǔn)確率會(huì)明顯降低。

      然而在真實(shí)情況下華為團(tuán)隊(duì)難以得知遇到的圖像的生成器是什么。因此檢測(cè)器對(duì)于不同生成器生成圖片的泛化能力很重要。


       

      華為團(tuán)隊(duì)對(duì)比了現(xiàn)有方法在Stable Diffusion V1.4上訓(xùn)練,然后在各種生成器上測(cè)試的結(jié)果,也評(píng)測(cè)了各種生成器上訓(xùn)練,然后在各種生成器上測(cè)試的結(jié)果。

      Testing Subset那一列中的每一個(gè)數(shù)據(jù)點(diǎn),都是在八個(gè)生成器上訓(xùn)練,然后在一個(gè)生成器上測(cè)試得到的平均結(jié)果。然后華為團(tuán)隊(duì)將這些測(cè)試集上的結(jié)果平均,得到最右側(cè)的平均結(jié)果。


       


       

      華為團(tuán)隊(duì)對(duì)測(cè)試集進(jìn)行退化處理,采用不同參數(shù)下的低分辨率,JPEG壓縮和高斯模糊,評(píng)測(cè)結(jié)果如下


       

      那么采集這么多數(shù)據(jù)是不是有用呢?華為團(tuán)隊(duì)做了相關(guān)實(shí)驗(yàn),證明通過(guò)提升數(shù)據(jù)類(lèi)比和每類(lèi)的圖片數(shù)量是可以提高性能。


       

      針對(duì)GenImage數(shù)據(jù)集對(duì)于不同圖片的泛化能力,華為團(tuán)隊(duì)發(fā)現(xiàn)他對(duì)于人臉和藝術(shù)類(lèi)圖片也能達(dá)到很好的效果。


       


       

      未來(lái)展望

      隨著AI生成圖片能力的不斷提升,對(duì)于AI生成的圖片實(shí)現(xiàn)有效檢測(cè)的需求將會(huì)越來(lái)越迫切。本數(shù)據(jù)集致力于為真實(shí)環(huán)境下的生成圖片檢測(cè)提供有效訓(xùn)練數(shù)據(jù)。

      華為團(tuán)隊(duì)使用ResNet-50在本數(shù)據(jù)集中訓(xùn)練,然后在真實(shí)推文中進(jìn)行檢測(cè)。如下圖,ResNet-50能夠有效識(shí)別真圖和假圖。

      這個(gè)結(jié)果證明了GenIamge可以用于訓(xùn)練模型以判別真實(shí)世界的虛假信息。華為團(tuán)隊(duì)認(rèn)為,該領(lǐng)域未來(lái)值得努力的方向是不斷提升檢測(cè)器在GenImage數(shù)據(jù)集上的準(zhǔn)確率,并進(jìn)而提升其在真實(shí)世界面對(duì)虛假信息的能力。


       

      真實(shí)圖片

      AI生成虛假圖片

      本文素材來(lái)源華為GenImage,如有侵權(quán)請(qǐng)聯(lián)系刪除

      未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 輕松識(shí)別Midjourney等AI生成圖片,開(kāi)源GenImage

      后臺(tái)-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文底部
      主站蜘蛛池模板: 新安县| 菏泽市| 汉川市| 东兴市| 屏东县| 政和县| 赤壁市| 饶河县| 唐河县| 和田市| 军事| 调兵山市| 贵溪市| 淮安市| 乌兰浩特市| 蕲春县| 安溪县| 东光县| 伽师县| 张家界市| 山东省| 烟台市| 阿尔山市| 阿图什市| 平南县| 临汾市| 和硕县| 龙门县| 香港| 岳池县| 太仆寺旗| 梧州市| 桑日县| 花垣县| 高阳县| 平山县| 宝山区| 长岭县| 江永县| 上林县| 普宁市|