巴黎礦業(yè)大學(xué)、以色列理工學(xué)院的研究人員聯(lián)合推出了一款創(chuàng)新視頻模型——Slicedit。
Slicedit主要通過結(jié)合文生圖像的擴(kuò)散模型以及對視頻時空切片的預(yù)處理,在不影響背景的情況下對視頻主體進(jìn)行修改。例如,將一名沖浪的男人變成鋼鐵俠,將一名轉(zhuǎn)球的男孩變成NBA巨星庫里,將貓的樣子變成豹等。
雖然更改的視頻質(zhì)量并不是很理想,會出現(xiàn)模糊、扭曲的情況。但這種方式對于不會使用AE專業(yè)視頻編輯軟件的業(yè)余人員來說幫助巨大,可以快速完成視頻內(nèi)容修改,相當(dāng)于視頻版的PS。用來做鬼畜、抖音、快手類的搞笑視頻非常方便。
論文地址:https://arxiv.org/abs/2405.12211
把一名沖浪男人輕松變成鋼鐵俠,背景沒有發(fā)生任何改變。
文生圖領(lǐng)域涌現(xiàn)出了DALL·E 3 、Midjourney、Stable Difusion等一大批優(yōu)秀的產(chǎn)品,但是將其應(yīng)用在視頻編輯卻很難,經(jīng)常出現(xiàn)時間不連貫、動作不一致、背景變動大等問題。而Slicedit通過空間時間切片、擴(kuò)展注意力、DDPM反演等克服了這些難題。
空間時間切片
在視頻處理領(lǐng)域,空間時間切片是從視頻的三維空間中提取的二維平面。這些切片可以是固定時間點上的視頻幀(即空間切片),或者是在特定方向上跨越時間的連續(xù)幀的組合。
在Slicedit模型中,通過空間時間切片使得模型能夠處理視頻中的動態(tài)元素,如運動和變形,還能夠在編輯過程中保持背景和其他非目標(biāo)區(qū)域的穩(wěn)定和完整性。
例如,在將視頻中的人物替換為機器人,空間時間切片模塊能夠確保在替換過程中,背景和其他非人物區(qū)域保持不變,從而生成自然且連貫的視頻輸出。
此外,在空間時間切片的幫助下,Slicedit還能在零樣本條件下無需針對特定視頻內(nèi)容進(jìn)行微調(diào),就能進(jìn)行視頻編輯。模型的靈活、擴(kuò)展性以及生成效率也得到了增強。
擴(kuò)展注意力
在傳統(tǒng)的注意力機制中,ChatGPT等模型通過自注意力來處理數(shù)據(jù),使模型在處理圖像或文本時,識別出不同部分之間的關(guān)聯(lián)。
但這種機制在處理視頻時存在局限性,因為不能很好地處理時間序列數(shù)據(jù)。為了解決這個難題,研究人員提出了擴(kuò)展注意力。
將普通轉(zhuǎn)球男人變成NBA巨星庫里
擴(kuò)展注意力的核心思想是將注意力機制擴(kuò)展到多個時間步。這意味著模型在處理當(dāng)前幀時,不僅考慮當(dāng)前幀的信息,還會考慮與之相鄰的幀。通過這種方式,模型能夠捕捉到視頻幀之間的動態(tài)變化,從而生成更加連貫的視頻內(nèi)容。
Slicedit模型中的擴(kuò)展注意力是,通過修改U-Net網(wǎng)絡(luò)中的自注意力模塊來實現(xiàn)的,在每個Transformer塊中引入了擴(kuò)展注意力機制。
這種機制允許模型在處理視頻幀時,同時考慮多個幀的信息。為了實現(xiàn)這一點,模型使用了一組關(guān)鍵幀(Key-Frames),這些關(guān)鍵幀被用來與當(dāng)前幀進(jìn)行比較和關(guān)聯(lián)。
首先模型為每個幀生成Query、Key和Value。然后,模型計算當(dāng)前幀與關(guān)鍵幀之間的注意力分?jǐn)?shù)并通過softmax函數(shù)進(jìn)行歸一化。
最后,模型根據(jù)這些注意力分?jǐn)?shù)對關(guān)鍵幀的特征進(jìn)行加權(quán)求和,以生成當(dāng)前視頻幀的輸出。
DDPM反演
常規(guī)的文生圖、文生視頻都是一種去噪過程,通常會從一個隨機噪聲向量開始,該向量遵循高斯分布。再通過迭代的方式逐步引入噪聲,直至生成高質(zhì)量的圖像或視頻。
Slicedit則反推了這個過程,從目標(biāo)數(shù)據(jù)例如,從一個視頻幀開始,目標(biāo)是找到一組噪聲向量,這些向量在經(jīng)過DDPM的生成過程后能夠重建原始數(shù)據(jù)。這一過程就是反演,即從數(shù)據(jù)中提取出噪聲,而不是從噪聲中生成數(shù)據(jù)。
Slicedit模型需要將輸入的視頻幀轉(zhuǎn)換為噪聲空間。這涉及到對視頻幀進(jìn)行逆向處理,以提取出在DDPM的生成過程中用于重建這些幀的噪聲向量。
在提取出噪聲空間后,接下來需要進(jìn)行條件去噪,將條件信息例如,文本提示納入到評估范圍,以指導(dǎo)去噪過程,確保生成的視頻內(nèi)容符合用戶的二次編輯標(biāo)準(zhǔn)。
研究人員表示,將會很快開源Slicedit模型,幫助更多的開發(fā)人員構(gòu)建自己的視頻編輯器。
本文素材來源Slicedit論文,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 視頻版PS!0樣本視頻編輯模型,普通人秒變鋼鐵俠
熱門信息
閱讀 (14912)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13979)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13100)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (13026)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11692)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國