視頻版PS!0樣本視頻編輯模型,普通人秒變鋼鐵俠

      后臺-系統(tǒng)設(shè)置-擴(kuò)展變量-手機廣告位-內(nèi)容正文頂部

      巴黎礦業(yè)大學(xué)、以色列理工學(xué)院的研究人員聯(lián)合推出了一款創(chuàng)新視頻模型——Slicedit。

      Slicedit主要通過結(jié)合文生圖像的擴(kuò)散模型以及對視頻時空切片的預(yù)處理,在不影響背景的情況下對視頻主體進(jìn)行修改。例如,將一名沖浪的男人變成鋼鐵俠,將一名轉(zhuǎn)球的男孩變成NBA巨星庫里,將貓的樣子變成豹等。

      雖然更改的視頻質(zhì)量并不是很理想,會出現(xiàn)模糊、扭曲的情況。但這種方式對于不會使用AE專業(yè)視頻編輯軟件的業(yè)余人員來說幫助巨大,可以快速完成視頻內(nèi)容修改,相當(dāng)于視頻版的PS。用來做鬼畜、抖音、快手類的搞笑視頻非常方便。

      論文地址:https://arxiv.org/abs/2405.12211


       

      把一名沖浪男人輕松變成鋼鐵俠,背景沒有發(fā)生任何改變。


       

      文生圖領(lǐng)域涌現(xiàn)出了DALL·E 3 、Midjourney、Stable Difusion等一大批優(yōu)秀的產(chǎn)品,但是將其應(yīng)用在視頻編輯卻很難,經(jīng)常出現(xiàn)時間不連貫、動作不一致、背景變動大等問題。而Slicedit通過空間時間切片、擴(kuò)展注意力、DDPM反演等克服了這些難題。

      空間時間切片

      在視頻處理領(lǐng)域,空間時間切片是從視頻的三維空間中提取的二維平面。這些切片可以是固定時間點上的視頻幀(即空間切片),或者是在特定方向上跨越時間的連續(xù)幀的組合。

      在Slicedit模型中,通過空間時間切片使得模型能夠處理視頻中的動態(tài)元素,如運動和變形,還能夠在編輯過程中保持背景和其他非目標(biāo)區(qū)域的穩(wěn)定和完整性


       

      例如,在將視頻中的人物替換為機器人,空間時間切片模塊能夠確保在替換過程中,背景和其他非人物區(qū)域保持不變,從而生成自然且連貫的視頻輸出。

      此外,在空間時間切片的幫助下,Slicedit還能在零樣本條件下無需針對特定視頻內(nèi)容進(jìn)行微調(diào),就能進(jìn)行視頻編輯。模型的靈活、擴(kuò)展性以及生成效率也得到了增強。

      擴(kuò)展注意力

      在傳統(tǒng)的注意力機制中,ChatGPT等模型通過自注意力來處理數(shù)據(jù),使模型在處理圖像或文本時,識別出不同部分之間的關(guān)聯(lián)。

      但這種機制在處理視頻時存在局限性,因為不能很好地處理時間序列數(shù)據(jù)。為了解決這個難題,研究人員提出了擴(kuò)展注意力。


       

      將普通轉(zhuǎn)球男人變成NBA巨星庫里


       

      擴(kuò)展注意力的核心思想是將注意力機制擴(kuò)展到多個時間步。這意味著模型在處理當(dāng)前幀時,不僅考慮當(dāng)前幀的信息,還會考慮與之相鄰的幀。通過這種方式,模型能夠捕捉到視頻幀之間的動態(tài)變化,從而生成更加連貫的視頻內(nèi)容。

      Slicedit模型中的擴(kuò)展注意力是,通過修改U-Net網(wǎng)絡(luò)中的自注意力模塊來實現(xiàn)的,在每個Transformer塊中引入了擴(kuò)展注意力機制。


       

      這種機制允許模型在處理視頻幀時,同時考慮多個幀的信息。為了實現(xiàn)這一點,模型使用了一組關(guān)鍵幀(Key-Frames),這些關(guān)鍵幀被用來與當(dāng)前幀進(jìn)行比較和關(guān)聯(lián)

      首先模型為每個幀生成Query、Key和Value。然后,模型計算當(dāng)前幀與關(guān)鍵幀之間的注意力分?jǐn)?shù)并通過softmax函數(shù)進(jìn)行歸一化。

      最后,模型根據(jù)這些注意力分?jǐn)?shù)對關(guān)鍵幀的特征進(jìn)行加權(quán)求和,以生成當(dāng)前視頻幀的輸出。

      DDPM反演

      常規(guī)的文生圖、文生視頻都是一種去噪過程,通常會從一個隨機噪聲向量開始,該向量遵循高斯分布。再通過迭代的方式逐步引入噪聲,直至生成高質(zhì)量的圖像或視頻。

      Slicedit則反推了這個過程,從目標(biāo)數(shù)據(jù)例如,從一個視頻幀開始,目標(biāo)是找到一組噪聲向量,這些向量在經(jīng)過DDPM的生成過程后能夠重建原始數(shù)據(jù)。這一過程就是反演,即從數(shù)據(jù)中提取出噪聲,而不是從噪聲中生成數(shù)據(jù)。


       

      Slicedit模型需要將輸入的視頻幀轉(zhuǎn)換為噪聲空間。這涉及到對視頻幀進(jìn)行逆向處理,以提取出在DDPM的生成過程中用于重建這些幀的噪聲向量。

      在提取出噪聲空間后,接下來需要進(jìn)行條件去噪,將條件信息例如,文本提示納入到評估范圍,以指導(dǎo)去噪過程,確保生成的視頻內(nèi)容符合用戶的二次編輯標(biāo)準(zhǔn)。

      研究人員表示,將會很快開源Slicedit模型,幫助更多的開發(fā)人員構(gòu)建自己的視頻編輯器

      本文素材來源Slicedit論文,如有侵權(quán)請聯(lián)系刪除

      未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 視頻版PS!0樣本視頻編輯模型,普通人秒變鋼鐵俠

      后臺-系統(tǒng)設(shè)置-擴(kuò)展變量-手機廣告位-內(nèi)容正文底部
      主站蜘蛛池模板: 汝州市| 翁源县| 凭祥市| 娱乐| 离岛区| 胶南市| 岐山县| 侯马市| 绍兴县| 公安县| 湖北省| 尼木县| 白银市| 抚顺市| 绍兴县| 宁海县| 慈溪市| 徐水县| 宁夏| 侯马市| 杭州市| 宁河县| 元谋县| 洪湖市| 赤峰市| 东方市| 建德市| 毕节市| 民县| 景东| 盐边县| 云安县| 贵南县| 仙居县| 巴中市| 府谷县| 莎车县| 本溪市| 扎鲁特旗| 福建省| 寻乌县|