<tfoot id="kmeme"><input id="kmeme"></input></tfoot>

<strike id="kmeme"><input id="kmeme"></input></strike>

當前位置：首頁 > RPA最新資訊 > AI視角 > 生成超清分辨率視頻，南洋理工開源Upscale-A-Video

生成超清分辨率視頻，南洋理工開源Upscale-A-Video

suntingting 發布于 2023-12-25 13:55:18
分類：AI視角
來源：
閱讀()
評論()

大模型在生成高質量圖像方面表現出色,但在生成視頻任務中，經常會面臨視頻不連貫、圖像模糊、掉幀等問題。

這主要是因為生成式抽樣過程中的隨機性,會在視頻序列中引入無法預測的幀跳動。同時現有方法僅考慮了局部視頻片段的時空一致性,無法保證整個長視頻的整體連貫性。

為了解決這些難題，新加坡南洋理工大學的研究人員開發了一種Upscale-A-Video框架，無需任何訓練便能快速集成到大模型中，提供視頻超分辨率、去噪、還原等強大功能。

論文地址：https://arxiv.org/abs/2312.06640

開源地址：https://github.com/sczhou/Upscale-A-Video

項目地址：https://shangchenzhou.com/projects/upscale-a-video/

Upscale-A-Video功能展示

Upscale-A-Video主要借鑒了圖像模型中的擴散方法,設計了一種無需大規模訓練即可快速遷移的框架。

該框架融合了局部和全局兩種策略來維持時間的一致性。局部層,模型通過 3D 卷積和時序注意力層增強特征提取網絡U-Net在短視頻片段內的一致性。

全局層,則通過光流指導的循環潛碼傳播功能,提供跨視頻片段強化更長時間尺度下的連貫性。

除了時間一致性,Upscale-A-Video還可以通過文本提示指導細節紋理的生成,不同的提示詞可產生不同風格、質量。

時序U-Net

U-Net作為特征提取網絡,對視頻質量起決定性作用。傳統只考慮空間信息的U-Net在處理視頻時往往會引入高頻誤差,表現為抖動和閃爍。

Upscale-A-Video通過向U-Net中插入3D卷積塊和時序自注意力層,增強其對時間維度的建模能力。這使U-Net可以學習視頻數據中幀與幀之間的依賴,從而在局部序列內實現一致的超分辨重建。

另一方面,研究人員選擇固定U-Net中的空間層參數,只對新增時序層進行調優。這種策略的優點是可以避免從頭大規模預訓練,充分利用圖像模型中提取的豐富特征。同時也縮短了網絡收斂的時間,起到事半功倍的效果。

循環潛碼

時序U-Net的作用范圍僅局限于短視頻片段,難以約束更長序列的全局一致性。而視頻抖動和質量波動往往都是長時間范圍內的現象。

為解決這一問題,Upscale-A-Video設計了一個基于光流的循環潛碼傳播模塊。

該模塊可以在不增加訓練參數的情況下,通過前向和后向傳播推斷所有幀的潛碼信息,有效擴大模型感知的時間范圍。

具體來說,該模塊利用預先估計的光流場,進行逐幀傳播與融合。它根據光流的前向-后向一致性誤差判斷傳播的有效性,只選擇誤差小于閾值的區域進行特征傳播。

而超出閾值的區域則保留當前幀信息。這種混合融合策略,既利用了光流建模的長期信息,又避免了傳播錯誤的累積。

文本提示增強指導

Upscale-A-Video還支持文本條件和噪聲水平的控制,用戶可以依據實際情況,引導模型生成不同風格和質量的結果。

文本提示可以指導模型合成更逼真的細節,如動物皮毛、油畫筆觸等。噪聲水平的調整也提供了在還原與生成間權衡的靈活性:加入更少噪聲有利于保真,而更高水平的噪聲則促使模型補充更豐富的細節。

這種可控制的生成能力進一步增強了Upscale-A-Video處理復雜真實場景的魯棒性

實驗數據

研究人員從定量和定性兩個方面全面驗證了Upscale-A-Video的性能。在四個合成低質量視頻基準上，皆取得了最高的峰值信號噪聲比和最低的流式感知損失。

流式驗證集和AI生成視頻上, Upscale-A-Video的非參考畫質評分也高居各方法之首。這也證明了Upscale-A-Video在保真還原和感知質量上的優勢。

從生成效果對比來看,Upscale-A-Video重建的視頻展現了更高實際分辨率下的細節層次;運動軌跡更加連貫自然,沒有明顯的抖動和裂縫。這得益于強大的擴散先驗和時空一致性優化。

相比之下,卷積神經網絡和擴散等方法會出現模糊不清，失真等效果，無法達到同等水準。

本文素材來源Upscale-A-Video論文，如有侵權請聯系刪除

繼續閱讀：

未經允許不得轉載：RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 生成超清分辨率視頻，南洋理工開源Upscale-A-Video

相關推薦

熱門信息

閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示
閱讀 (13753)
2 《Market Insight：中國RPA市場發展洞察（2022）》報告正式發布 | RPA中國
閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示
閱讀 (12964)
4 與科技共贏，與產業共進，第四屆ISIG中國產業智能大會成功召開
閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國

快速導航

主站蜘蛛池模板：万荣县| 长顺县| 土默特左旗| 且末县| 同德县| 文成县| 宁南县| 无极县| 柳江县| 彝良县| 万山特区| 淳化县| 盐池县| 正蓝旗| 池州市| 灵寿县| 汉源县| 桐柏县| 峡江县| 侯马市| 乐山市| 揭东县| 阿图什市| 淮北市| 龙井市| 潜江市| 兴城市| 麟游县| 乐平市| 犍为县| 阳曲县| 西充县| 景谷| 宿州市| 永顺县| 定结县| 吴忠市| 浑源县| 海宁市| 双辽市| 泗洪县|

<strike id="ukey6"><input id="ukey6"></input></strike><strike id="ukey6"><rt id="ukey6"></rt></strike>