Meta開源最大多模態視頻數據集—Ego-Exo4D

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      社交、科技巨頭Meta聯合15所大學的研究機構,經過兩年多的努力發布了首個多模態視頻訓練數據集和基礎套件Ego-Exo4D,用于訓練和研究AI大模型。

      據悉,該數據集收集了來自13個城市839名參與者的視頻,總時長超過1400小時,包含舞蹈、足球、籃球、攀巖、音樂、烹飪、自行車維修等8大類,131個復雜場景動作。這使得AI模型更好地理解人類的行為,有助于開發出更強大的多模態大模型。

       

      Ego-Exo4D也是目前最大的公開第一人稱和第三人稱視頻訓練集。Meta已經準備開源該數據集,最晚12月底開放下載。

      Ego-Exo4D下載地址:
      https://ego-exo4d-data.org/

      論文地址:
      https://ego-exo4d-data.org/paper/ego-exo4d.pdf

       

      與其他視覺數據集不同的是,Ego-Exo4D最大技術特點在于數據的多模態性。基于Aria智能眼鏡平臺,第一人稱視頻帶有豐富的同步錄制信息,包括七通道音頻、眼動追蹤狀態、頭部運動測量(IMU)、雙目RGB-D攝像視頻、周圍三維環境點云等。

       

      此外,數據集中所有視頻都配有三種不同的語言描述,分別是領域專家對表現的評論、參與者自身對所做活動的敘述以及第三方對各個原子操作的文字描述。

      第一人稱和第三人稱攝像機設置

      Ego-Exo4D數據集使用了一款名叫Aria的眼鏡。該眼鏡可以拍攝第一人稱視頻,記錄運動員自己的視角。

      同時場外還有4-5個GoPro攝像機,拍攝第三人稱視頻,記錄教練的視角。這些攝像機使用了定制的QR碼進行時間同步,確保第一人稱視頻和第三人稱視頻能精確匹配上,然后進行比較。

      Aria眼鏡內置豐富的傳感器,提供RGB、深度、音頻、IMU、眼動等多模態數據。Ego-Exo4D充分利用這些硬件優勢,為每段第一人稱視頻同步捕獲了七通道音頻、眼動追蹤、IMU動作數據、兩個RGB-D SLAM攝像頭以及周圍3D點云環境。這些數據可支持多種新穎的多模態視頻理解研究。

       

      精準文本描述

      Ego-Exo4D視頻數據還匹配了三種不同形式的語言描述,均與視頻時間軸對齊:第一是領域內資深專家對執行者表現的評價性解說,揭示非專業人士不易察覺的技巧和方法;

       

      第二是執行者對自己所做活動的第一人稱敘述;第三是外部標注人員對每個行為操作的簡要文字描述。這些豐富的語言資源可以大幅推動視頻理解中的語言參照和示教相關應用。

      四大類基準測試

      為了驗證數據集的有效性,研究人員在四類基準測試上進行第一人稱視頻理解和多模態識別測試,用于評估在復雜視角轉換、細粒度操作檢測、示范者評級等方面的表現。

      1)跨視角對應和遷移基準測試

      該基準測試任務利用第一、三人稱視頻,研究跨視角的目標匹配和新視角合成問題。考察點包括:在極端視角、嚴重遮擋下的稀疏對應問題;合成新視角圖像時運用姿態、語義先驗的有效性等。

      2)細粒度操作識別基準測試

      該任務需要區分復雜順序活動中語義相近的細粒度操作,如識別折疊被褥還是整理被褥。訓練階段允許使用配對的第一、三人稱視頻,以學習視角不變的表示。測試階段僅給第一人稱視頻,考察跨視角特征遷移的效果。

       

      3)示范者熟練度評估基準測試

      這項基準測試要求對整個視頻中的示范者進行整體熟練度評級,同時需要識別視頻中局部段落的正確/錯誤執行。這可驅動人類行為質量分析以及教練系統的研究。

      4)第一人稱姿態估計基準測試

      這項基準測試目標是從第一人稱視頻中恢復三維的手部和身體關鍵點,解決動態場景中嚴重遮擋、模糊、大姿態變化等難題。

       

      結果顯示,Ego-Exo4D皆獲得了不錯的成績。例如,在第一人稱和第三人稱視角之間的目標追蹤和姿態預測任務上,方法可以達到38%的平均IoU;而在識別17種順序活動中689種細粒度操作的任務上,方法可以獲得58%的準確率。

      研究人員表示,傳統的訓練數據多數都是重復和模擬,很難讓AI從更深度的角度去理解人類的行為和動作。

      Ego-Exo4D提供了一個前所未有的大規模第一人稱和第三人稱視角視頻數據集。該數據集和基準測試填補了現有數據集的空白,可推動更強的多模態大模型研究。

      未來,數據集、文本標注和基準代碼將完全開源以供研究人員使用。‍

      本文素材來源Ego-Exo4D論文,如有侵權請聯系刪除

      END

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > Meta開源最大多模態視頻數據集—Ego-Exo4D

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 镇赉县| 富顺县| 宕昌县| 永和县| 冀州市| 潮安县| 林周县| 任丘市| 霸州市| 张家港市| 兴业县| 红原县| 都安| 吴忠市| 塘沽区| 漾濞| 平顺县| 达拉特旗| 芜湖县| 青冈县| 泰兴市| 乌什县| 兴文县| 康平县| 纳雍县| 长乐市| 泸西县| 屯留县| 民县| 阿克陶县| 闽清县| 麻城市| 互助| 平和县| 新津县| 雅江县| 景泰县| 甘德县| 台南市| 瓮安县| 汉寿县|