文本直接生成2分鐘視頻,即將開源模型StreamingT2V

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      Picsart人工智能研究所、德克薩斯大學和SHI實驗室的研究人員聯合推出了StreamingT2V視頻模型。通過文本就能直接生成2分鐘、1分鐘等不同時間,動作一致、連貫、沒有卡頓的高質量視頻。

      雖然StreamingT2V在視頻質量、多元化等還無法與Sora媲美,但在高速運動方面非常優秀,這為開發長視頻模型提供了技術思路。

      研究人員表示,理論上,StreamingT2V可以無限擴展視頻的長度,并正在準備開源該視頻模型。

      論文地址:https://arxiv.org/abs/2403.14773

      github地址:https://github.com/Picsart-AI-Research/StreamingT2V(即將開源)

       

      StreamingT2V生成的2分鐘視頻13:46StreamingT2V生成的2分鐘視頻00:0601:55跳過片頭片尾 |色彩調整亮度標準飽和度100對比度100恢復默認設置

      StreamingT2V生成的2分鐘視頻

      傳統視頻模型一直受訓練數據、算法等困擾,最多只能生成10秒視頻。Sora的出現將文生視頻領域帶向了一個全新的高度,突破了諸多技術瓶頸,僅通過文本就能生成最多1分鐘的視頻。

      而StreamingT2V采用了創新的自回歸技術框架,通過條件注意力、外觀保持和隨機混合三大模塊,極大的延長了視頻的時間,同時保證動作的連貫性。

      簡單來說,StreamingT2V使用了一種“擊鼓傳花”的方法,每一個模塊通過提取前一個視頻塊中的表示特征,來保證動作一致性、文本語義還原、視頻完整性等。
       

      生成的1分鐘視頻

      條件注意力模塊

      條件注意力模塊是一種“短期記憶”,通過注意力機制從前一個視頻塊中提取特征,并將其注入到當前視頻塊的生成中,實現了流暢自然的塊間過渡,同時保留了高速運動特征。

      先使用圖像編碼器對前一個視頻塊的最后幾幀(例如20幀)進行逐幀編碼,得到相應的特征表示,并將這些特征送入一個淺層編碼器網絡(初始化自主模型的編碼器權重)進行進一步編碼。

      然后將提取到的特征表示注入到StreamingT2V的UNet的每個長程跳躍連接處,從而借助前一視頻塊的內容信息來生成新的視頻幀,但不會受到先前結構、形狀的影響。

      外觀保持模塊

      為了保證生成視頻全局場景、外觀的一致性,StreamingT2V使用了外觀保持這種“長期記憶”方法。

      外觀保持從初始圖像(錨定幀)中提取高級場景和對象特征,并將這些特征用于所有視頻塊的生成流程。這樣做可以幫助在自回歸過程中,保持對象和場景特征的連續性。

      此外,現有方法通常只針對前一個視頻塊的最后一幀進行條件生成,忽視了自回歸過程中的長期依賴性。通過使用外觀保持,可以使用初始圖像中的全局信息,從而更好地捕捉到自回歸過程中的長期依賴性。

      隨機混合模塊

      前兩個模塊保證了StreamingT2V生成的視頻大框架,但是在分辨率、質量方面還有欠缺,而隨機混合模塊主要用來增強視頻的分辨率。

      如果直接增強質量會耗費大量AI算力、時間,所以,隨機混合采用了自回歸增強的方法。

      首先,研究人員將低分辨率視頻劃分為多個長度為24幀的視頻塊,這些塊之間是有重疊的。然后,利用一個高分辨率的視頻模型,對每一個視頻塊進行增強,得到對應的高分辨率視頻塊。

      例如,有兩個重疊的視頻塊A和B,重疊部分包含20幀。對于重疊部分的每一幀,隨機混合模塊會從A塊和B塊中各取出一幀,然后對這兩幀進行加權平均,生成一個新的混合幀。通過這種方式,重疊部分的每一幀都是A塊和B塊對應幀的隨機混合。

      而對于不重疊的部分,隨機混合模塊則直接保留原始視頻塊中的幀。經過隨機混合后的視頻塊就可以輸入到高分辨率模型中進行增強。

      研究人員指出,如果讓相鄰的兩個視頻塊直接共享完全相同的重疊幀,會導致視頻在過渡處出現不自然的凍結和重復效果。而隨機混合模塊通過生成新的混合幀,很好地規避了這個難題,使得塊與塊之間的過渡更加平滑自然。

      實驗數據顯示, StreamingT2V生成的1分鐘、2分鐘長視頻,不僅保持了高分辨率和清晰畫質,整體的時間連貫性也得到了很大提升。視頻中的物體運動姿態豐富,場景和物體隨時間的演變更加自然流暢,沒有突兀的斷層或凍結情況出現。

      本文素材來源StreamingT2V論文,如有侵權請聯系刪除

      END

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 文本直接生成2分鐘視頻,即將開源模型StreamingT2V

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 白玉县| 通城县| 米易县| 高青县| 衢州市| 广西| 湖北省| 凤翔县| 东源县| 武川县| 都昌县| 镇巴县| 泽库县| 察隅县| 新晃| 雅安市| 奉节县| 获嘉县| 永康市| 宝应县| 孝义市| 岳普湖县| 万州区| 靖宇县| 镇坪县| 靖远县| 墨竹工卡县| 拉萨市| 黑山县| 凤庆县| 隆安县| 东乡族自治县| 沐川县| 正蓝旗| 高安市| 奉节县| 西宁市| 塔城市| 闽清县| 临泉县| 德州市|