參數小,性能強!開源多模態模型—TinyGPT-V

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      安徽工程大學、南洋理工大學和理海大學的研究人員開源了多模態大模型——TinyGPT-V。

      TinyGPT-V以微軟開源的Phi-2作為基礎大語言模型,同時使用了視覺模型EVA實現多模態能力。盡管TinyGPT-V只有28億參數,但其性能可以媲美上百億參數的模型。

      此外,TinyGPT-V訓練只需要24G GPU就能完成,不需要A100、H100那些高端顯卡來訓練。

      所以,非常適用于中小型企業和個人開發者,同時可以部署在手機、筆記本等移動設備上。

      開源地址:https://github.com/DLYuanGod/TinyGPT-V

      論文地址:https://arxiv.org/abs/2312.16862


       

      TinyGPT-V主要架構

      TinyGPT-V主要由大語言模型Phi-2、視覺編碼器和線性投影層三大塊組成。

      開發人員選擇了微軟最新開源的Phi-2,作為TinyGPT-V的基礎大語言模型。Phi-2只有27億參數,但理解和推理能力非常強,在多項復雜基準測試中體現出與大130億參數模型接近或者超過的效果。

      視覺編碼器采用了與MiniGPT-v2相同的架構,基于ViT的EVA模型。這是一個預訓練好的視覺基礎模型,在整個TinyGPT-V的訓練過程中保持凍結狀態。


       

      線性投影層的作用則是,將視覺編碼器提取的圖像特征嵌入到大語言模型中,使大語言模型能夠理解圖像信息。

      TinyGPT-V中的第一層線性投影層采用了來自BLIP-2的Q-Former結構,這樣可以最大程度復用BLIP-2的預訓練成果。

      第二層線性投影層用新的高斯分布初始化,目的是彌補前一層輸出和語言模型嵌入層之間的維度差距。

      TinyGPT-V訓練流程

      TinyGPT-V的訓練經過了四個階段,每個階段所使用的數據集及實驗流程各不相同。

      第一階段是熱身訓練,目的是使Phi-2模型適應圖像模式的輸入。這個階段使用的訓練數據包含Conceptual Caption、SBU和LAION三個數據集,總計約500萬幅圖像和對應的描述文本。

      第二階段進行預訓練,目的是進一步減少圖像文本對上的損失。這個階段同樣使用第一階段的Conceptual Caption、SBU和LAION數據集。實驗設置了4個階段,每個階段有5000個迭代。


       

      第三階段進行指令調優,使用MiniGPT-4和LLaVA的一些帶指令的圖像文本對進行模型訓練,如“描述這張圖片的內容”。

      第四階段進行多任務調優。這一階段使用了更為復雜和豐富的多模態數據集,如LLaVA中復雜語義對齊的句子、Flickr30K中的物體解析數據集、多任務混合語料、純文本語料等。

      同時采用了與第二階段類似的學習率策略,最終使得損失從2.720下降到了1.399。

      為了測試TinyGPT-V的性能,研究人員從多個角度評估了在視覺問答、視空間推理、圖片字幕生成等多個視覺語言任務上的表現。


       

      結果顯示,TinyGPT-V的參數很小,性能卻非常強悍,例如,在VSR空間推理任務上,以53.2%的準確率,超過所有參與測試的模型。

      本文素材來源TinyGPT-V論文,如有侵權請聯系刪除

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 參數小,性能強!開源多模態模型—TinyGPT-V

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 吉隆县| 阜南县| 根河市| 泊头市| 通辽市| 南开区| 新蔡县| 武强县| 错那县| 贺兰县| 五河县| 海南省| 广河县| 鄯善县| 安平县| 嘉荫县| 吉安市| 平度市| 公主岭市| 龙山县| 吴川市| 灵宝市| 伊金霍洛旗| 通海县| 平阳县| 溧水县| 满城县| 大竹县| 蒲城县| 河南省| 萝北县| 鄯善县| 余干县| 泾阳县| 莱阳市| 子洲县| 定兴县| 宝应县| 荆门市| 乐都县| 海城市|