GPT-4充當“規劃師、審計師”,顛覆性雙層文生圖表模型

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      DALL-E 3、Midjourney、Stable Diffusion等模型展現出了強大的創造能力,通過文本便能生成素描、朋克、3D、二次元等多種類型的高質量圖片,但在生成科學圖表(柱狀、直方、箱線、樹狀等)方面卻略顯不足。

      這是因為模型在生成圖表時會遺漏重要的對象,生成錯誤的對象關系箭頭,以及產生不可讀的文本標簽,缺乏對對象的精細布局控制。尤其是當多個對象存在復雜的箭頭或線段關系時,無法渲染清晰可讀的文本,而這兩點對于圖表生成至關重要。

      為了解決這兩大難題,北卡羅來納大學提出了DiagrammerGPT框架。首先,使用GPT-4充當“規劃師”,根據文本描述生成圖表的布局規劃信息

      規劃信息包含實體(對象和文本標簽)、實體之間的關系(箭頭、線段等)以及實體的布局信息(邊界框坐標)。然后再用GPT-4充當“審計師”來審核整個規劃計劃,進行圖表細節優化

      ?

      在圖表生成階段,通過DiagramGLIGEN擴散模型能夠根據圖表規劃生成精準圖表,并用Pillow庫對文本標簽進行渲染提升精準度。

      根據測試數據顯示,在多個量化指標上,DiagrammerGPT 顯著優于Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的圖表。

      在圖表與文本相關性和對象關系的準確性評估方面,DiagrammerGPT分別取得36%和48%的優于基準模型的評分。該研究對于文本生成高精準圖表模型來說,有著重大突破。

      開源地址:https://github.com/aszala/DiagrammerGPT

      論文地址:https://arxiv.org/abs/2310.12128

      圖表規劃

      DiagrammerGPT框架的最大創新在于,利用GPT-4的強大自然語言處理能力指導圖表布局生成。為了生成更準確的規劃,還設計了閉環反饋機制。

      一個GPT-4 充當“規劃師”生成初始規劃,另一個 GPT-4 充當“審計師”,評估規劃的準確性并提供反饋。而規劃師可以根據反饋調整規劃布局。

      1)初始圖表規劃生成

      研究人員對GPT-4通過10個語境學習樣例進行了訓練,每個樣例都包含完整的圖表文本描述、實體、關系和布局信息。規劃包含3個要素:

      實體:對象和文本標簽的列表。對象指圖表中的圖像元素,文本標簽指對象的文字說明。

      關系:實體之間的關系,比如箭頭連接、線段連接、文本標簽標注對象等。

      布局:所有實體的邊界框坐標信息,[x,y,w,h]格式。

      2)規劃優化

      為進一步提高規劃質量,提出了規劃師、審計師的閉環反饋機制進行迭代優化。其中GPT-4充當規劃師,另一個GPT-4充當審計師。審計師會檢查規劃與文本描述是否匹配,提供反饋意見;規劃師根據反饋更新規劃。

      其中,審計師GPT-4也是通過特定語境學習進行訓練的,以提供有效的反饋意見。兩者訓練使用不同的語境學習樣本。

      圖表生成

      研究人員通過Diagram GLIGEN擴散模型用于圖表生成,并加入了門控自注意力層,可以利用圖表規劃的布局信息指導圖像生成。

      與原始的GLIGEN模型只處理物體不同,DiagramGLIGEN可同時處理文本標簽和箭頭關系作為布局輸入。DiagramGLIGEN在AI2D-Caption數據集上進行了訓練,使其能生成特定領域的科學圖表。

      但由于擴散模型本身文本渲染效果不佳,無法輸出清晰可讀的文本,研究人員使用Pillow庫顯式渲染文本標簽,提升文本的清晰度。

      訓練、評估數據集

      研究人員基于AI2D科學圖表數據集構建了AI2D-Caption數據集,用于文本到圖表生成的訓練和數據測試。AI2D包含約4900張科學圖表圖像,涵蓋天文、生物、工程等領域。

      其中選取了105張圖表,使用大語言模型為每個圖表生成詳細的圖像標題和對象描述。其中30張作為語言模型的語境學習樣本,75張作為測試集。

      相比原始AI2D只有簡單的標題,AI2D-Caption提供了更豐富的文本描述,包括完整的圖表標題和每個對象的詳情。

      多個基準測試數據顯示,在VPEval上,DiagrammerGPT的對象、數量、關系和文本渲染準確性均明顯優于基準模型,從多個方面證明了其生成圖表的高質量。

      在圖像字幕上,DiagrammerGPT生成的圖表能產生更相關的標題,標題與真值更加接近。在CLIPScore上,DiagrammerGPT的圖像-文本和圖像-圖像相似度更高,更接近真值圖表和標題。還進行了人類評估,多數人表示,更喜歡DiagrammerGPT生成的圖表。

      本文素材來源北卡羅來納大學論文,如有侵權請聯系刪除

      END

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > GPT-4充當“規劃師、審計師”,顛覆性雙層文生圖表模型

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 六盘水市| 扶绥县| 敦化市| 西宁市| 高碑店市| 大城县| 富宁县| 辽宁省| 理塘县| 贵州省| 陕西省| 长兴县| 西峡县| 始兴县| 彝良县| 彭阳县| 彩票| 方正县| 巴楚县| 卓资县| 吐鲁番市| 平山县| 安岳县| 自贡市| 绍兴县| 科尔| 隆化县| 噶尔县| 常州市| 嵩明县| 和林格尔县| 乡宁县| 金堂县| 高清| 霞浦县| 沈丘县| 乡城县| 中宁县| 太仓市| 宿州市| 云和县|