生成超清分辨率視頻,南洋理工開源Upscale-A-Video

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      大模型在生成高質量圖像方面表現出色,但在生成視頻任務中,經常會面臨視頻不連貫、圖像模糊、掉幀等問題。

      這主要是因為生成式抽樣過程中的隨機性,會在視頻序列中引入無法預測的幀跳動。同時現有方法僅考慮了局部視頻片段的時空一致性,無法保證整個長視頻的整體連貫性。

      為了解決這些難題,新加坡南洋理工大學的研究人員開發了一種Upscale-A-Video框架,無需任何訓練便能快速集成到大模型中,提供視頻超分辨率、去噪、還原等強大功能。

      論文地址:https://arxiv.org/abs/2312.06640

      開源地址:https://github.com/sczhou/Upscale-A-Video

      項目地址:https://shangchenzhou.com/projects/upscale-a-video/

      Upscale-A-Video功能展示

      Upscale-A-Video主要借鑒了圖像模型中的擴散方法,設計了一種無需大規模訓練即可快速遷移的框架。

      該框架融合了局部和全局兩種策略來維持時間的一致性。局部層,模型通過 3D 卷積和時序注意力層增強特征提取網絡U-Net在短視頻片段內的一致性。

      全局層,則通過光流指導的循環潛碼傳播功能,提供跨視頻片段強化更長時間尺度下的連貫性。

      除了時間一致性,Upscale-A-Video還可以通過文本提示指導細節紋理的生成,不同的提示詞可產生不同風格、質量。


       

      時序U-Net

      U-Net作為特征提取網絡,對視頻質量起決定性作用。傳統只考慮空間信息的U-Net在處理視頻時往往會引入高頻誤差,表現為抖動和閃爍。

      Upscale-A-Video通過向U-Net中插入3D卷積塊和時序自注意力層,增強其對時間維度的建模能力。這使U-Net可以學習視頻數據中幀與幀之間的依賴,從而在局部序列內實現一致的超分辨重建。


       

      另一方面,研究人員選擇固定U-Net中的空間層參數,只對新增時序層進行調優。這種策略的優點是可以避免從頭大規模預訓練,充分利用圖像模型中提取的豐富特征。同時也縮短了網絡收斂的時間,起到事半功倍的效果。

      循環潛碼

      時序U-Net的作用范圍僅局限于短視頻片段,難以約束更長序列的全局一致性。而視頻抖動和質量波動往往都是長時間范圍內的現象。

      為解決這一問題,Upscale-A-Video設計了一個基于光流的循環潛碼傳播模塊。

      該模塊可以在不增加訓練參數的情況下,通過前向和后向傳播推斷所有幀的潛碼信息,有效擴大模型感知的時間范圍。


       

      具體來說,該模塊利用預先估計的光流場,進行逐幀傳播與融合。它根據光流的前向-后向一致性誤差判斷傳播的有效性,只選擇誤差小于閾值的區域進行特征傳播。

      而超出閾值的區域則保留當前幀信息。這種混合融合策略,既利用了光流建模的長期信息,又避免了傳播錯誤的累積。

      文本提示增強指導

      Upscale-A-Video還支持文本條件和噪聲水平的控制,用戶可以依據實際情況,引導模型生成不同風格和質量的結果。


       

      文本提示可以指導模型合成更逼真的細節,如動物皮毛、油畫筆觸等。噪聲水平的調整也提供了在還原與生成間權衡的靈活性:加入更少噪聲有利于保真,而更高水平的噪聲則促使模型補充更豐富的細節。

      這種可控制的生成能力進一步增強了Upscale-A-Video處理復雜真實場景的魯棒性

      實驗數據

      研究人員從定量和定性兩個方面全面驗證了Upscale-A-Video的性能。在四個合成低質量視頻基準上,皆取得了最高的峰值信號噪聲比和最低的流式感知損失。

      流式驗證集和AI生成視頻上, Upscale-A-Video的非參考畫質評分也高居各方法之首。這也證明了Upscale-A-Video在保真還原和感知質量上的優勢。


       

      從生成效果對比來看,Upscale-A-Video重建的視頻展現了更高實際分辨率下的細節層次;運動軌跡更加連貫自然,沒有明顯的抖動和裂縫。這得益于強大的擴散先驗和時空一致性優化。

      相比之下,卷積神經網絡和擴散等方法會出現模糊不清,失真等效果,無法達到同等水準。

      本文素材來源Upscale-A-Video論文,如有侵權請聯系刪除

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 生成超清分辨率視頻,南洋理工開源Upscale-A-Video

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 万荣县| 长顺县| 土默特左旗| 且末县| 同德县| 文成县| 宁南县| 无极县| 柳江县| 彝良县| 万山特区| 淳化县| 盐池县| 正蓝旗| 池州市| 灵寿县| 汉源县| 桐柏县| 峡江县| 侯马市| 乐山市| 揭东县| 阿图什市| 淮北市| 龙井市| 潜江市| 兴城市| 麟游县| 乐平市| 犍为县| 阳曲县| 西充县| 景谷| 宿州市| 永顺县| 定结县| 吴忠市| 浑源县| 海宁市| 双辽市| 泗洪县|