文本領域的ChatGPT,畫圖領域的Midjourney都展現出了大模型強大的一面,雖然視頻領域有Gen-2這樣的領導者,但現有的視頻擴散模型在生成的效果中仍然存在時間一致性不足和不自然的動態效果。
南洋理工大學S實驗室的研究人員發現,擴散模型訓練和推理階段初始噪聲的頻率分布不均勻,是導致生成視頻質量下降的重要原因之一。因此,開發了創新性文生視頻模型FreeInit。
FreeInit的核心技術概念是通過重新初始化噪聲,來彌合訓練和推理之間的差距。研究人員提出了一種創新性的推理采樣策略,通過迭代地改進初始噪聲的空時低頻分量,從而提高時間的一致性。
為驗證FreeInit的有效性,研究人員在多個文到視頻生成模型上進行了大量實驗,包括AnimateDiff、ModelScope和VideoCrafter等。結果顯示,FreeInit可以使這些模型的時間一致性指標提高2.92—8.62。
開源地址:https://github.com/tianxingwu/freeinit
論文地址:https://arxiv.org/abs/2312.07537v1
為了找出文生視頻模型效果不佳的原因,研究人員通過對多個模型的信噪比進行檢測,驚奇地發現,視頻擴散模型的推理初始化噪聲中,低頻信息很難被完全移除。
這與高斯白噪聲初始化存在明顯的分布差距。這種低頻信息殘留,可能就是導致生成視頻效果的時間線,不連貫的主要原因。
為了驗證這個想法,研究人員設計了一個創造性的測試實驗:他們收集真實視頻,使其經過擴散模型的正向推理,得到具有強相關性的噪聲;然后再用這個噪聲作為推理的初始化,繼續生成視頻。
結果發現,與高斯噪聲相比,相關噪聲生成的視頻時間一致性和細節清晰度明顯增強。這充分證明了低頻信息對推理質量的關鍵影響,也證實了訓練推理初始化的差距確實是重要原因。
而FreeInit的創新點在于,在模型推理的過程中可精煉低頻信息,逐步彌合訓練推理的差距,使初始化噪聲分布逼近相關性更強的訓練噪聲,從而生成時間一致性更好的視頻。
采樣、擴散模塊
FreeInit在推理的第一步,先初始化獨立高斯噪聲,然后通過經典的DDIM離散采樣策略,采樣生成初步的視頻潛碼。
通過利用擴散模型已有的去噪功能,從完全隨機的噪聲中采樣出較為清晰的視頻潛碼。
接著獲取上一步生成視頻潛碼的帶有時間相關性的噪聲版本,將生成的視頻潛碼通過原始的高斯噪聲進行正向擴散過程,使其重新含有低頻時間相關信息。
這里需要復用DDIM采樣中使用的高斯噪聲,避免引入過多額外隨機性。最終得到低頻信息較豐富的噪聲潛碼。
噪聲重新初始化
將得到的含低頻相關性噪聲與新的高斯噪聲高頻部分結合,得到重新初始化的噪聲,并為下一輪采樣的初始提供輸入。
這里采用頻域分解的方式:先通過3D FFT變換噪聲潛碼到頻域,然后與新的高斯噪聲通過低通濾波器和高通濾波器分別提取低頻和高頻部分后拼接。該模塊在保留低頻信息的同時,也為高頻部分引入額外靈活性。
將上述多個模塊進行聯合、重組,便形成了一次完整的采樣優化過程。研究者表示,進行多次重復迭代,可以進一步累積提升低頻信息質量,逐步彌合訓練和推理的初始化差距,最終讓生成視頻質量不斷改善,時間一致性也越來越好。
本文素材來源FreeInit論文,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 創新性文生視頻模型,南洋理工開源FreeInit
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國