最新研究表明,準確建模人類的3D空間音頻與視覺場景的匹配,是實現虛擬環境沉浸感和臨場感的關鍵。但多數學術界和企業目前只專注于視覺方面,而忽略了同樣重要的聽覺。
為了加速3D空間音頻的研發進程,上海AI實驗室和Meta聯合開發了一種可為人體生成3D空間音頻模型將其開源。
據悉該模型使用了頭戴式麥克風的音頻信號以及人體姿態作為輸入,輸出包圍發聲人身體的三維音場,從而可以在三維空間的任意位置渲染出空間音頻。
論文地址:https://arxiv.org/abs/2311.06285
開源地址:https://github.com/facebookresearch/SoundingBodies
從技術層面來看,要開發一個3D空間音頻模型并不容易,主要面臨三大技術難題。1)音源位置未知,系統需要區分一些細微的身體動作聲,判斷聲音來自左手還是右手;
2)麥克風距離音源較遠,無法直接獲取音源信號;3)語音和身體動作聲混合在一起,無法進行分離。
為了解決這些問題,研究人員構建了一個多模態融合模式,并加入身體姿態信息來消除聲源的位置歧義,以生成正確的空間音頻。
音頻編碼器
該模塊的作用是處理來自頭戴式麥克風的輸入音頻信號。通常我們想要模擬VR場景,用戶需要戴著頭盔,而音頻是來自頭盔上的麥克風。
輸入音頻包含語音和身體動作產生的各種聲音,比如手拍、腳步聲等。音頻編碼器的技術原理是首先根據可能的音源位置(比如不同的身體部位),對輸入音頻進行時間平移對齊。
然后把時間對齊后的多個音頻信號在通道維度上拼接在一起,傳入一個全連接層,得到最終的音頻特征表達。這種機制的好處是包含了來自各個可能音源位置的音頻信息。
人體姿態編碼器
主要作用是分析輸入的人體姿態關鍵點,并生成姿態特征表達。當一個人產生音頻的時候,他的身體動作會提供音源位置的強烈提示,例如,拍手聲就是來自手部位置。所以人的姿態序列對生成正確的三維空間音頻非常重要。
具體來說,首先獲取身體各個關鍵點的三維坐標信息,然后通過卷積網絡學習生成每個關節點的特征表達。最后將所有關節點的特征在通道維度上拼接,傳入多層全連接網絡,得到最終的姿態特征。
音頻解碼器
這個模塊是基于以上獲得的音頻和姿態特征,以及想要生成的三維目標位置,預測這個位置的音頻輸出。所以,該解碼器包含多個解碼層。
同時, 每個解碼塊都包含卷積層、門控層和殘差連接,可以捕獲音頻的長時序上下文。同時,解碼塊通過條件輸入,結合音頻特征、姿態特征和目標位置編碼,來生成三維目標位置的音頻輸出。
通過這種多模態特征解析和逐步上采樣,系統最后可以擴展到整個三維空間,合成身臨其境的3D音場效果。
盡管該模型在3D空間音頻生成方面實現了技術突破,為建立真正沉浸式的虛擬人類邁出了關鍵一步。但研究人員表示,目前僅適用于渲染人體音,無法處理非自由音場傳播環境,因為計算量較大,難以部署到資源受限的消費類設備上。
本文素材來源上海AI實驗室論文,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 可為人體生成3D空間音頻,上海AI實驗室、Meta開源創新模型
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國