<ul id="ya8iw"></ul>

<strike id="ya8iw"></strike>

當前位置：首頁 > RPA最新資訊 > AI視角 > 可為人體生成3D空間音頻，上海AI實驗室、Meta開源創新模型

可為人體生成3D空間音頻，上海AI實驗室、Meta開源創新模型

suntingting 發布于 2023-11-29 12:45:50
分類：AI視角
來源：
閱讀()
評論()

最新研究表明,準確建模人類的3D空間音頻與視覺場景的匹配,是實現虛擬環境沉浸感和臨場感的關鍵。但多數學術界和企業目前只專注于視覺方面,而忽略了同樣重要的聽覺。

為了加速3D空間音頻的研發進程，上海AI實驗室和Meta聯合開發了一種可為人體生成3D空間音頻模型將其開源。

據悉該模型使用了頭戴式麥克風的音頻信號以及人體姿態作為輸入,輸出包圍發聲人身體的三維音場,從而可以在三維空間的任意位置渲染出空間音頻。

論文地址：https://arxiv.org/abs/2311.06285

開源地址：https://github.com/facebookresearch/SoundingBodies

從技術層面來看，要開發一個3D空間音頻模型并不容易，主要面臨三大技術難題。1)音源位置未知,系統需要區分一些細微的身體動作聲,判斷聲音來自左手還是右手；

2)麥克風距離音源較遠,無法直接獲取音源信號;3)語音和身體動作聲混合在一起,無法進行分離。

為了解決這些問題,研究人員構建了一個多模態融合模式,并加入身體姿態信息來消除聲源的位置歧義,以生成正確的空間音頻。

音頻編碼器

該模塊的作用是處理來自頭戴式麥克風的輸入音頻信號。通常我們想要模擬VR場景,用戶需要戴著頭盔,而音頻是來自頭盔上的麥克風。

輸入音頻包含語音和身體動作產生的各種聲音,比如手拍、腳步聲等。音頻編碼器的技術原理是首先根據可能的音源位置(比如不同的身體部位),對輸入音頻進行時間平移對齊。

然后把時間對齊后的多個音頻信號在通道維度上拼接在一起,傳入一個全連接層,得到最終的音頻特征表達。這種機制的好處是包含了來自各個可能音源位置的音頻信息。

人體姿態編碼器

主要作用是分析輸入的人體姿態關鍵點,并生成姿態特征表達。當一個人產生音頻的時候,他的身體動作會提供音源位置的強烈提示,例如，拍手聲就是來自手部位置。所以人的姿態序列對生成正確的三維空間音頻非常重要。

具體來說,首先獲取身體各個關鍵點的三維坐標信息,然后通過卷積網絡學習生成每個關節點的特征表達。最后將所有關節點的特征在通道維度上拼接,傳入多層全連接網絡,得到最終的姿態特征。

音頻解碼器

這個模塊是基于以上獲得的音頻和姿態特征,以及想要生成的三維目標位置,預測這個位置的音頻輸出。所以，該解碼器包含多個解碼層。

同時, 每個解碼塊都包含卷積層、門控層和殘差連接,可以捕獲音頻的長時序上下文。同時,解碼塊通過條件輸入,結合音頻特征、姿態特征和目標位置編碼,來生成三維目標位置的音頻輸出。

通過這種多模態特征解析和逐步上采樣,系統最后可以擴展到整個三維空間,合成身臨其境的3D音場效果。

盡管該模型在3D空間音頻生成方面實現了技術突破，為建立真正沉浸式的虛擬人類邁出了關鍵一步。但研究人員表示，目前僅適用于渲染人體音,無法處理非自由音場傳播環境，因為計算量較大,難以部署到資源受限的消費類設備上。

本文素材來源上海AI實驗室論文，如有侵權請聯系刪除

繼續閱讀：

未經允許不得轉載：RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 可為人體生成3D空間音頻，上海AI實驗室、Meta開源創新模型

相關推薦

熱門信息

閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示
閱讀 (13753)
2 《Market Insight：中國RPA市場發展洞察（2022）》報告正式發布 | RPA中國
閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示
閱讀 (12964)
4 與科技共贏，與產業共進，第四屆ISIG中國產業智能大會成功召開
閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國

快速導航

主站蜘蛛池模板：八宿县| 江油市| 苗栗市| 泊头市| 天台县| 安达市| 哈密市| 郸城县| 视频| 平果县| 伊金霍洛旗| 乌拉特中旗| 华宁县| 舟山市| 正安县| 满洲里市| 远安县| 开封市| 乡城县| 巴楚县| 左云县| 迁西县| 家居| 长顺县| 阳谷县| 潢川县| 即墨市| 烟台市| 米泉市| 永善县| 额尔古纳市| 洛隆县| 南汇区| 库尔勒市| 陕西省| 磐石市| 霍州市| 广东省| 喀什市| 秦皇岛市| 洛川县|

<del id="ayqi0"></del>

<strike id="ayqi0"><input id="ayqi0"></input></strike><strike id="ayqi0"><menu id="ayqi0"></menu></strike><del id="ayqi0"></del>