可為人體生成3D空間音頻,上海AI實驗室、Meta開源創新模型

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      最新研究表明,準確建模人類的3D空間音頻與視覺場景的匹配,是實現虛擬環境沉浸感和臨場感的關鍵。但多數學術界和企業目前只專注于視覺方面,而忽略了同樣重要的聽覺。

      為了加速3D空間音頻的研發進程,上海AI實驗室和Meta聯合開發了一種可為人體生成3D空間音頻模型將其開源。

      據悉該模型使用了頭戴式麥克風的音頻信號以及人體姿態作為輸入,輸出包圍發聲人身體的三維音場,從而可以在三維空間的任意位置渲染出空間音頻。

      論文地址:https://arxiv.org/abs/2311.06285

      開源地址:https://github.com/facebookresearch/SoundingBodies


       

      從技術層面來看,要開發一個3D空間音頻模型并不容易,主要面臨三大技術難題。1)音源位置未知,系統需要區分一些細微的身體動作聲,判斷聲音來自左手還是右手;

      2)麥克風距離音源較遠,無法直接獲取音源信號;3)語音和身體動作聲混合在一起,無法進行分離。


       

      為了解決這些問題,研究人員構建了一個多模態融合模式,并加入身體姿態信息來消除聲源的位置歧義,以生成正確的空間音頻。

      音頻編碼器

      該模塊的作用是處理來自頭戴式麥克風的輸入音頻信號。通常我們想要模擬VR場景,用戶需要戴著頭盔,而音頻是來自頭盔上的麥克風。

      輸入音頻包含語音和身體動作產生的各種聲音,比如手拍、腳步聲等。音頻編碼器的技術原理是首先根據可能的音源位置(比如不同的身體部位),對輸入音頻進行時間平移對齊。


       

      然后把時間對齊后的多個音頻信號在通道維度上拼接在一起,傳入一個全連接層,得到最終的音頻特征表達。這種機制的好處是包含了來自各個可能音源位置的音頻信息。

      人體姿態編碼器

      主要作用是分析輸入的人體姿態關鍵點,并生成姿態特征表達。當一個人產生音頻的時候,他的身體動作會提供音源位置的強烈提示,例如,拍手聲就是來自手部位置。所以人的姿態序列對生成正確的三維空間音頻非常重要


       

      具體來說,首先獲取身體各個關鍵點的三維坐標信息,然后通過卷積網絡學習生成每個關節點的特征表達。最后將所有關節點的特征在通道維度上拼接,傳入多層全連接網絡,得到最終的姿態特征。

      音頻解碼器

      這個模塊是基于以上獲得的音頻和姿態特征,以及想要生成的三維目標位置,預測這個位置的音頻輸出。所以,該解碼器包含多個解碼層。

      同時, 每個解碼塊都包含卷積層、門控層和殘差連接,可以捕獲音頻的長時序上下文。同時,解碼塊通過條件輸入,結合音頻特征、姿態特征和目標位置編碼,來生成三維目標位置的音頻輸出。


       

      通過這種多模態特征解析和逐步上采樣,系統最后可以擴展到整個三維空間,合成身臨其境的3D音場效果

      盡管該模型在3D空間音頻生成方面實現了技術突破,為建立真正沉浸式的虛擬人類邁出了關鍵一步。但研究人員表示,目前僅適用于渲染人體音,無法處理非自由音場傳播環境,因為計算量較大,難以部署到資源受限的消費類設備上。

      本文素材來源上海AI實驗室論文,如有侵權請聯系刪除

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 可為人體生成3D空間音頻,上海AI實驗室、Meta開源創新模型

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 八宿县| 江油市| 苗栗市| 泊头市| 天台县| 安达市| 哈密市| 郸城县| 视频| 平果县| 伊金霍洛旗| 乌拉特中旗| 华宁县| 舟山市| 正安县| 满洲里市| 远安县| 开封市| 乡城县| 巴楚县| 左云县| 迁西县| 家居| 长顺县| 阳谷县| 潢川县| 即墨市| 烟台市| 米泉市| 永善县| 额尔古纳市| 洛隆县| 南汇区| 库尔勒市| 陕西省| 磐石市| 霍州市| 广东省| 喀什市| 秦皇岛市| 洛川县|