文本生成精準圖像字幕,谷歌等開源PixelLLM

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      傳統的大語言模型可以描述、回答與圖像相關的問題,甚至進行復雜的圖像推理。但使用大型語言模型進行文本定位,或用圖像指代準確坐標卻不太行。

      為了進行該技術的探索,谷歌和加州大學圣地亞哥分校的研究人員開發了像素對齊大語言模型——PixelLLM。

      PixelLLM可以將圖像位置信息作為輸入或輸出。當將位置作為輸入時,模型可以根據位置生成與指定對象或區域相關的描述文本。

      當生成位置作為輸出時,模型可以為每個輸出詞語生成像素坐標,實現密集的詞語定位。

      項目地址:https://jerryxu.net/PixelLLM/

      論文地址:https://arxiv.org/abs/2312.09237

      PixelLLM功能展示

      PixelLLM的核心技術原理是,通過在大語言模型的單詞特征之上添加一個小型多層感知機(MLP),來回歸每個輸出單詞的像素坐標,從而實現對文本的密集定位。而語言模型的權重可以保持凍結,也可以通過低秩微調(LoRA)進行更新。

      PixelLLM的整體架構包括圖像編碼器、提示編碼器/特征提取器和大語言模型組成。

      支持圖像以及位置或文本的任意組合作為輸入,并生成字幕以及每個詞的像素定位作為輸出。

      圖像編碼器

      圖像編碼器使用了Vision Transformer為輸入圖像生成表征,可以把圖片轉換成計算機可以理解的格式。

      圖像編碼器使用了兩種并行的主干:一種是從SAM模型初始化的ViT-H,用于獲取強大的定位特征;

      另一種是從EVA02初始化的ViT-L,用于學習語義特征。兩種主干的輸出在通道維上拼接,作為整體的圖像表征。

      提示編碼/提取器

      提示編碼器將位置或文本等非圖像輸入編碼為與圖像表征相匹配的特征空間。對于位置輸入,使用正弦余弦位置編碼和線性層編碼邊界框坐標或點序列。對于文本輸入,將詞嵌入與圖像表征拼接作為語言模型的前綴特征。


      提示特征提取器用于接收來自提示編碼器的特征,以及來自圖像編碼器的整幅圖像表征。它的作用是從整幅圖像中提取出與提示相關的區域特征。

      提示特征提取器使用了基于學習性查詢詞的“雙向變壓”結構。其中提示特征和查詢詞作為“詢問”;圖像表征作為關鍵字和結果,并進行自注意力聚焦。

      大語言模型

      PixelLLM使用了谷歌曾發布的T5-XL作為基礎語言模型,并將大部分參數進行了凍結, 只有提問和結果的投影層通過LoRA進行了低秩適配。

      主要用于接收來自提示特征提取器的區域特定特征,以及可選的文本特征,并自動回歸地生成字幕。

      此外,在映射到詞典空間的線性層之前,應用了多層感知器為每個詞預測坐標。這樣語言解碼和定位預測可以并行地進行。

      訓練方法和實驗數據

      PixelLLM使用了谷歌的Localized Narrative數據集進行預訓練。該數據集包含了人類對圖像進行敘述的注釋,以及注釋者在敘述過程中的鼠標軌跡。這些注釋提供了敘述中每個詞語的同步位置信息。

      在訓練過程中,研究人員通過最小化生成的描述與實際注釋之間的差異來優化PixelLLM模型。語言模型的權重可以保持固定,也可以使用低秩微調(LoRA)進行更新。

      為了評估PixelLLM的性能,研究人員在RefCOCO、Visual Genome等下游數據集上進行了微調,根據具體任務的要求,微調模型的參數,并在相應的任務上進行性能評估。

      結果顯示,PixelLLM在多個視覺-語言任務上取得了最先進的性能。例如,在RefCOCO的指代定位任務上達到了89.8。在Visual Genome的基于位置的描述生成任務上達到了19.9。

      本文素材來源PixelLLM論文,如有侵權請聯系刪除

       

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 文本生成精準圖像字幕,谷歌等開源PixelLLM

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 大悟县| 临江市| 东兰县| 略阳县| 乌兰察布市| 扎兰屯市| 静海县| 桐城市| 峨眉山市| 漳浦县| 光泽县| 怀宁县| 临澧县| 蚌埠市| 颍上县| 固阳县| 乌兰察布市| 右玉县| 喀喇沁旗| 吉水县| 正镶白旗| 班玛县| 广宁县| 新郑市| 邵武市| 曲水县| 永修县| 陈巴尔虎旗| 扬州市| 施甸县| 通辽市| 新乡县| 六盘水市| 新安县| 东方市| 马龙县| 浙江省| 会昌县| 武陟县| 大田县| 茌平县|