91精品视频一区二区,一本大道久久a久久精二百,欧美日韩国产影片

看、聽、說的多模態已成為主流大模型的重要功能之一。但在數據爆炸時代，大模型學習文本類的結構化數據相對還好一些，但要去學習視頻、音頻、圖片等非結構化數據非常困難。

目前，從結構化和非結構化數據實現多模態學習，會隨著模態數量、輸入大小和數據異構性的增加，深度神經網絡會變過擬合和泛化效果不佳。

尤其是當在規模有限的數據集上訓練時，這一狀況就越發明顯，例如，經常表現出非平穩行為的時間序列數據。因此，谷歌提出了創新框架LANISTR來解決這些難題。

論文地址：https://arxiv.org/pdf/2305.16556

LANISTR是一個基于注意力機制的框架，其核心思想是在單模態和多模態層面上應用基于掩碼的訓練。

還特別引入了一種新的基于相似度的多模態掩碼損失，使其能夠從存在缺失模態的大型多模態數據中學習跨模態之間的關系。

多模態融合編碼器

現實數據經常以復合形式存在，單一模態的數據往往不足以捕捉事件的全貌。例如，在醫療診斷中，臨床報告和MRI掃描圖像才能展現患者狀況的全面視圖；而在電子商務中，商品描述與銷售歷史（時間序列）相結合才能更好地預測市場需求。

因此，一個好用的多模態大模型，必須具備將這些分散信息源綜合的能力。為了實現這一目標，LANISTR采用了基于Transformer架構的交叉注意力機制。

多模態融合編碼器可將來自各模態的嵌入向量首先被串聯起來，然后通過一系列的Transformer層進行處理。

在這些層中，交叉注意力機制發揮了重要作用，允許模型在不同的模態表示之間自由“詢問”和“回答”，使每個模態的特征都能關注其他模態的特征，并根據它們的相關性和重要性進行加權整合。

這一流程與人腦思考有些類似，可根據上下文和情境在不同感官信號間切換注意力，從而實現信息的高效整合。

4種編碼器介紹

LANISTR中的多模態融合編碼器一共由文本、圖像、表格和時間序列4種編碼器組成，每種模態都有其獨特的表達方式和信息結構。這種機制不僅增強了對單個模態特征的理解，還促進了模態間的交互學習，從而對整個場景有了更加全面的認識。

文本編碼器：基于Transformer架構主要處理文本數據。通過掩碼語言方法進行預訓練，隨機掩蓋文本中的部分詞匯，讓模型學習預測這些被掩蓋詞的能力。這種機制促使模型理解詞語間的依賴關系和語境含義，從而提取出豐富的語言特征。

圖像編碼器：采用Vision Transformer架構用于處理視覺數據。可將圖像分割成多個小塊，并將這些塊視為序列輸入到Transformer中，通過自注意力機制學習圖像的高層次特征，還會使用掩碼圖像建模方法，通過重建被掩碼的像素或特征來訓練，以提取圖像的視覺特征。

表格編碼器：使用了定制的神經網絡結構，針對分類特征的嵌入層來編碼每一列數據的特征。考慮到表格數據的稀疏性和多樣性，了集成特征選擇或降維技術，以聚焦于最有信息量的特征。

時間序列編碼器：由于大模型需要捕捉隨時間變化的動態模式，時間序列編碼器使用了循環神經網絡方法，長短時記憶網絡和門控循環單元。通過對序列進行建模提取出時間序列的模式和趨勢，為后續的多模態融合準備數據。

研究人員在兩個數據集上測試了LANISTR的性能，在MIMIC-IV數據集上，當僅使用0.1%的有標簽數據進行微調時，模型的AUROC相比最先進的方法提高了6.6%。

在亞馬遜產品評論數據集中，僅使用0.01%的有標簽數據，模型的準確率提升了14%。值得一提的是，這些改進是在高達35.7%和99.8%的樣本存在模態缺失的情況下完成的，這更加證明了LANISTR的多模態學習能力。

本文素材來源LANISTR論文，如有侵權請聯系刪除

繼續閱讀：

谷歌創新框架：從非結構化數據，實現多模態學習