天堂а√在线资源在线,成人在线亚洲,免费精品99久久国产综合精品

巴黎礦業(yè)大學(xué)、以色列理工學(xué)院的研究人員聯(lián)合推出了一款創(chuàng)新視頻模型——Slicedit。

Slicedit主要通過結(jié)合文生圖像的擴(kuò)散模型以及對視頻時空切片的預(yù)處理，在不影響背景的情況下對視頻主體進(jìn)行修改。例如，將一名沖浪的男人變成鋼鐵俠，將一名轉(zhuǎn)球的男孩變成NBA巨星庫里，將貓的樣子變成豹等。

雖然更改的視頻質(zhì)量并不是很理想，會出現(xiàn)模糊、扭曲的情況。但這種方式對于不會使用AE專業(yè)視頻編輯軟件的業(yè)余人員來說幫助巨大，可以快速完成視頻內(nèi)容修改，相當(dāng)于視頻版的PS。用來做鬼畜、抖音、快手類的搞笑視頻非常方便。

論文地址：https://arxiv.org/abs/2405.12211

把一名沖浪男人輕松變成鋼鐵俠，背景沒有發(fā)生任何改變。

文生圖領(lǐng)域涌現(xiàn)出了DALL·E 3 、Midjourney、Stable Difusion等一大批優(yōu)秀的產(chǎn)品，但是將其應(yīng)用在視頻編輯卻很難，經(jīng)常出現(xiàn)時間不連貫、動作不一致、背景變動大等問題。而Slicedit通過空間時間切片、擴(kuò)展注意力、DDPM反演等克服了這些難題。

空間時間切片

在視頻處理領(lǐng)域，空間時間切片是從視頻的三維空間中提取的二維平面。這些切片可以是固定時間點上的視頻幀（即空間切片），或者是在特定方向上跨越時間的連續(xù)幀的組合。

在Slicedit模型中，通過空間時間切片使得模型能夠處理視頻中的動態(tài)元素，如運動和變形，還能夠在編輯過程中保持背景和其他非目標(biāo)區(qū)域的穩(wěn)定和完整性。

例如，在將視頻中的人物替換為機器人，空間時間切片模塊能夠確保在替換過程中，背景和其他非人物區(qū)域保持不變，從而生成自然且連貫的視頻輸出。

此外，在空間時間切片的幫助下，Slicedit還能在零樣本條件下無需針對特定視頻內(nèi)容進(jìn)行微調(diào)，就能進(jìn)行視頻編輯。模型的靈活、擴(kuò)展性以及生成效率也得到了增強。

擴(kuò)展注意力

在傳統(tǒng)的注意力機制中，ChatGPT等模型通過自注意力來處理數(shù)據(jù)，使模型在處理圖像或文本時，識別出不同部分之間的關(guān)聯(lián)。

但這種機制在處理視頻時存在局限性，因為不能很好地處理時間序列數(shù)據(jù)。為了解決這個難題，研究人員提出了擴(kuò)展注意力。

將普通轉(zhuǎn)球男人變成NBA巨星庫里

擴(kuò)展注意力的核心思想是將注意力機制擴(kuò)展到多個時間步。這意味著模型在處理當(dāng)前幀時，不僅考慮當(dāng)前幀的信息，還會考慮與之相鄰的幀。通過這種方式，模型能夠捕捉到視頻幀之間的動態(tài)變化，從而生成更加連貫的視頻內(nèi)容。

Slicedit模型中的擴(kuò)展注意力是，通過修改U-Net網(wǎng)絡(luò)中的自注意力模塊來實現(xiàn)的，在每個Transformer塊中引入了擴(kuò)展注意力機制。

這種機制允許模型在處理視頻幀時，同時考慮多個幀的信息。為了實現(xiàn)這一點，模型使用了一組關(guān)鍵幀（Key-Frames），這些關(guān)鍵幀被用來與當(dāng)前幀進(jìn)行比較和關(guān)聯(lián)。

首先模型為每個幀生成Query、Key和Value。然后，模型計算當(dāng)前幀與關(guān)鍵幀之間的注意力分?jǐn)?shù)并通過softmax函數(shù)進(jìn)行歸一化。

最后，模型根據(jù)這些注意力分?jǐn)?shù)對關(guān)鍵幀的特征進(jìn)行加權(quán)求和，以生成當(dāng)前視頻幀的輸出。

DDPM反演

常規(guī)的文生圖、文生視頻都是一種去噪過程，通常會從一個隨機噪聲向量開始，該向量遵循高斯分布。再通過迭代的方式逐步引入噪聲，直至生成高質(zhì)量的圖像或視頻。

Slicedit則反推了這個過程，從目標(biāo)數(shù)據(jù)例如，從一個視頻幀開始，目標(biāo)是找到一組噪聲向量，這些向量在經(jīng)過DDPM的生成過程后能夠重建原始數(shù)據(jù)。這一過程就是反演，即從數(shù)據(jù)中提取出噪聲，而不是從噪聲中生成數(shù)據(jù)。