DALL-E 3、Midjourney、Stable Diffusion等模型展現出了強大的創造能力,通過文本便能生成素描、朋克、3D、二次元等多種類型的高質量圖片,但在生成科學圖表(柱狀、直方、箱線、樹狀等)方面卻略顯不足。
這是因為模型在生成圖表時會遺漏重要的對象,生成錯誤的對象關系箭頭,以及產生不可讀的文本標簽,缺乏對對象的精細布局控制。尤其是當多個對象存在復雜的箭頭或線段關系時,無法渲染清晰可讀的文本,而這兩點對于圖表生成至關重要。
為了解決這兩大難題,北卡羅來納大學提出了DiagrammerGPT框架。首先,使用GPT-4充當“規劃師”,根據文本描述生成圖表的布局規劃信息。
規劃信息包含實體(對象和文本標簽)、實體之間的關系(箭頭、線段等)以及實體的布局信息(邊界框坐標)。然后再用GPT-4充當“審計師”來審核整個規劃計劃,進行圖表細節優化。
在圖表生成階段,通過DiagramGLIGEN擴散模型能夠根據圖表規劃生成精準圖表,并用Pillow庫對文本標簽進行渲染提升精準度。
根據測試數據顯示,在多個量化指標上,DiagrammerGPT 顯著優于Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的圖表。
在圖表與文本相關性和對象關系的準確性評估方面,DiagrammerGPT分別取得36%和48%的優于基準模型的評分。該研究對于文本生成高精準圖表模型來說,有著重大突破。
開源地址:https://github.com/aszala/DiagrammerGPT
論文地址:https://arxiv.org/abs/2310.12128
圖表規劃
DiagrammerGPT框架的最大創新在于,利用GPT-4的強大自然語言處理能力指導圖表布局生成。為了生成更準確的規劃,還設計了閉環反饋機制。
一個GPT-4 充當“規劃師”生成初始規劃,另一個 GPT-4 充當“審計師”,評估規劃的準確性并提供反饋。而規劃師可以根據反饋調整規劃布局。
1)初始圖表規劃生成
研究人員對GPT-4通過10個語境學習樣例進行了訓練,每個樣例都包含完整的圖表文本描述、實體、關系和布局信息。規劃包含3個要素:
實體:對象和文本標簽的列表。對象指圖表中的圖像元素,文本標簽指對象的文字說明。
關系:實體之間的關系,比如箭頭連接、線段連接、文本標簽標注對象等。
布局:所有實體的邊界框坐標信息,[x,y,w,h]格式。
2)規劃優化
為進一步提高規劃質量,提出了規劃師、審計師的閉環反饋機制進行迭代優化。其中GPT-4充當規劃師,另一個GPT-4充當審計師。審計師會檢查規劃與文本描述是否匹配,提供反饋意見;規劃師根據反饋更新規劃。
其中,審計師GPT-4也是通過特定語境學習進行訓練的,以提供有效的反饋意見。兩者訓練使用不同的語境學習樣本。
圖表生成
研究人員通過Diagram GLIGEN擴散模型用于圖表生成,并加入了門控自注意力層,可以利用圖表規劃的布局信息指導圖像生成。
與原始的GLIGEN模型只處理物體不同,DiagramGLIGEN可同時處理文本標簽和箭頭關系作為布局輸入。DiagramGLIGEN在AI2D-Caption數據集上進行了訓練,使其能生成特定領域的科學圖表。
但由于擴散模型本身文本渲染效果不佳,無法輸出清晰可讀的文本,研究人員使用Pillow庫顯式渲染文本標簽,提升文本的清晰度。
訓練、評估數據集
研究人員基于AI2D科學圖表數據集構建了AI2D-Caption數據集,用于文本到圖表生成的訓練和數據測試。AI2D包含約4900張科學圖表圖像,涵蓋天文、生物、工程等領域。
其中選取了105張圖表,使用大語言模型為每個圖表生成詳細的圖像標題和對象描述。其中30張作為語言模型的語境學習樣本,75張作為測試集。
相比原始AI2D只有簡單的標題,AI2D-Caption提供了更豐富的文本描述,包括完整的圖表標題和每個對象的詳情。
多個基準測試數據顯示,在VPEval上,DiagrammerGPT的對象、數量、關系和文本渲染準確性均明顯優于基準模型,從多個方面證明了其生成圖表的高質量。
在圖像字幕上,DiagrammerGPT生成的圖表能產生更相關的標題,標題與真值更加接近。在CLIPScore上,DiagrammerGPT的圖像-文本和圖像-圖像相似度更高,更接近真值圖表和標題。還進行了人類評估,多數人表示,更喜歡DiagrammerGPT生成的圖表。
本文素材來源北卡羅來納大學論文,如有侵權請聯系刪除
END
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > GPT-4充當“規劃師、審計師”,顛覆性雙層文生圖表模型
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國