安徽工程大學、南洋理工大學和理海大學的研究人員開源了多模態大模型——TinyGPT-V。
TinyGPT-V以微軟開源的Phi-2作為基礎大語言模型,同時使用了視覺模型EVA實現多模態能力。盡管TinyGPT-V只有28億參數,但其性能可以媲美上百億參數的模型。
此外,TinyGPT-V訓練只需要24G GPU就能完成,不需要A100、H100那些高端顯卡來訓練。
所以,非常適用于中小型企業和個人開發者,同時可以部署在手機、筆記本等移動設備上。
開源地址:https://github.com/DLYuanGod/TinyGPT-V
論文地址:https://arxiv.org/abs/2312.16862
TinyGPT-V主要架構
TinyGPT-V主要由大語言模型Phi-2、視覺編碼器和線性投影層三大塊組成。
開發人員選擇了微軟最新開源的Phi-2,作為TinyGPT-V的基礎大語言模型。Phi-2只有27億參數,但理解和推理能力非常強,在多項復雜基準測試中體現出與大130億參數模型接近或者超過的效果。
視覺編碼器采用了與MiniGPT-v2相同的架構,基于ViT的EVA模型。這是一個預訓練好的視覺基礎模型,在整個TinyGPT-V的訓練過程中保持凍結狀態。
線性投影層的作用則是,將視覺編碼器提取的圖像特征嵌入到大語言模型中,使大語言模型能夠理解圖像信息。
TinyGPT-V中的第一層線性投影層采用了來自BLIP-2的Q-Former結構,這樣可以最大程度復用BLIP-2的預訓練成果。
第二層線性投影層用新的高斯分布初始化,目的是彌補前一層輸出和語言模型嵌入層之間的維度差距。
TinyGPT-V訓練流程
TinyGPT-V的訓練經過了四個階段,每個階段所使用的數據集及實驗流程各不相同。
第一階段是熱身訓練,目的是使Phi-2模型適應圖像模式的輸入。這個階段使用的訓練數據包含Conceptual Caption、SBU和LAION三個數據集,總計約500萬幅圖像和對應的描述文本。
第二階段進行預訓練,目的是進一步減少圖像文本對上的損失。這個階段同樣使用第一階段的Conceptual Caption、SBU和LAION數據集。實驗設置了4個階段,每個階段有5000個迭代。
第三階段進行指令調優,使用MiniGPT-4和LLaVA的一些帶指令的圖像文本對進行模型訓練,如“描述這張圖片的內容”。
第四階段進行多任務調優。這一階段使用了更為復雜和豐富的多模態數據集,如LLaVA中復雜語義對齊的句子、Flickr30K中的物體解析數據集、多任務混合語料、純文本語料等。
同時采用了與第二階段類似的學習率策略,最終使得損失從2.720下降到了1.399。
為了測試TinyGPT-V的性能,研究人員從多個角度評估了在視覺問答、視空間推理、圖片字幕生成等多個視覺語言任務上的表現。
結果顯示,TinyGPT-V的參數很小,性能卻非常強悍,例如,在VSR空間推理任務上,以53.2%的準確率,超過所有參與測試的模型。
本文素材來源TinyGPT-V論文,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 參數小,性能強!開源多模態模型—TinyGPT-V
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國