創新性文生視頻模型,南洋理工開源FreeInit

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      文本領域的ChatGPT,畫圖領域的Midjourney都展現出了大模型強大的一面,雖然視頻領域有Gen-2這樣的領導者,但現有的視頻擴散模型在生成的效果中仍然存在時間一致性不足和不自然的動態效果。

      南洋理工大學S實驗室的研究人員發現,擴散模型訓練和推理階段初始噪聲的頻率分布不均勻,是導致生成視頻質量下降的重要原因之一。因此,開發了創新性文生視頻模型FreeInit。

      FreeInit的核心技術概念是通過重新初始化噪聲,來彌合訓練和推理之間的差距。研究人員提出了一種創新性的推理采樣策略,通過迭代地改進初始噪聲的空時低頻分量,從而提高時間的一致性。

      為驗證FreeInit的有效性,研究人員在多個文到視頻生成模型上進行了大量實驗,包括AnimateDiff、ModelScope和VideoCrafter等。結果顯示,FreeInit可以使這些模型的時間一致性指標提高2.92—8.62。

      開源地址:https://github.com/tianxingwu/freeinit

      論文地址:https://arxiv.org/abs/2312.07537v1


       

      為了找出文生視頻模型效果不佳的原因,研究人員通過對多個模型的信噪比進行檢測,驚奇地發現,視頻擴散模型的推理初始化噪聲中,低頻信息很難被完全移除

      這與高斯白噪聲初始化存在明顯的分布差距。這種低頻信息殘留,可能就是導致生成視頻效果的時間線,不連貫的主要原因。

      為了驗證這個想法,研究人員設計了一個創造性的測試實驗:他們收集真實視頻,使其經過擴散模型的正向推理,得到具有強相關性的噪聲;然后再用這個噪聲作為推理的初始化,繼續生成視頻。

      結果發現,與高斯噪聲相比,相關噪聲生成的視頻時間一致性和細節清晰度明顯增強。這充分證明了低頻信息對推理質量的關鍵影響,也證實了訓練推理初始化的差距確實是重要原因


       

      而FreeInit的創新點在于,在模型推理的過程中可精煉低頻信息,逐步彌合訓練推理的差距,使初始化噪聲分布逼近相關性更強的訓練噪聲,從而生成時間一致性更好的視頻。

      采樣、擴散模塊

      FreeInit在推理的第一步,先初始化獨立高斯噪聲,然后通過經典的DDIM離散采樣策略,采樣生成初步的視頻潛碼。

      通過利用擴散模型已有的去噪功能,從完全隨機的噪聲中采樣出較為清晰的視頻潛碼。


       

      接著獲取上一步生成視頻潛碼的帶有時間相關性的噪聲版本,將生成的視頻潛碼通過原始的高斯噪聲進行正向擴散過程,使其重新含有低頻時間相關信息。

      這里需要復用DDIM采樣中使用的高斯噪聲,避免引入過多額外隨機性。最終得到低頻信息較豐富的噪聲潛碼。

      噪聲重新初始化

      將得到的含低頻相關性噪聲與新的高斯噪聲高頻部分結合,得到重新初始化的噪聲,并為下一輪采樣的初始提供輸入。

      這里采用頻域分解的方式:先通過3D FFT變換噪聲潛碼到頻域,然后與新的高斯噪聲通過低通濾波器和高通濾波器分別提取低頻和高頻部分后拼接。該模塊在保留低頻信息的同時,也為高頻部分引入額外靈活性。


       

      將上述多個模塊進行聯合、重組,便形成了一次完整的采樣優化過程。研究者表示,進行多次重復迭代,可以進一步累積提升低頻信息質量,逐步彌合訓練和推理的初始化差距,最終讓生成視頻質量不斷改善,時間一致性也越來越好。

      本文素材來源FreeInit論文,如有侵權請聯系刪除

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 創新性文生視頻模型,南洋理工開源FreeInit

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 义乌市| 花莲市| 越西县| 罗田县| 油尖旺区| 北川| 汉阴县| 灌南县| 建湖县| 甘孜| 青田县| 阳谷县| 聂荣县| 靖边县| 万荣县| 井陉县| 航空| 吕梁市| 池州市| 绥中县| 响水县| 衡水市| 鄂托克旗| 海淀区| 筠连县| 新田县| 全椒县| 河西区| 永顺县| 南京市| 永寿县| 淮安市| 温泉县| 威海市| 东乡族自治县| 岐山县| 大港区| 嘉荫县| 乐安县| 共和县| 贡山|