<ul id="c8i2w"></ul><strike id="c8i2w"><input id="c8i2w"></input></strike>

<del id="c8i2w"></del>

<strike id="c8i2w"><rt id="c8i2w"></rt></strike>

<strike id="c8i2w"></strike>

當前位置：首頁 > RPA最新資訊 > AI視角 > GPT-4充當“規劃師、審計師”，顛覆性雙層文生圖表模型

GPT-4充當“規劃師、審計師”，顛覆性雙層文生圖表模型

suntingting 發布于 2023-11-20 13:24:09
分類：AI視角
來源：
閱讀()
評論()

DALL-E 3、Midjourney、Stable Diffusion等模型展現出了強大的創造能力，通過文本便能生成素描、朋克、3D、二次元等多種類型的高質量圖片，但在生成科學圖表（柱狀、直方、箱線、樹狀等）方面卻略顯不足。

這是因為模型在生成圖表時會遺漏重要的對象，生成錯誤的對象關系箭頭,以及產生不可讀的文本標簽，缺乏對對象的精細布局控制。尤其是當多個對象存在復雜的箭頭或線段關系時，無法渲染清晰可讀的文本，而這兩點對于圖表生成至關重要。

為了解決這兩大難題，北卡羅來納大學提出了DiagrammerGPT框架。首先，使用GPT-4充當“規劃師”，根據文本描述生成圖表的布局規劃信息。

規劃信息包含實體(對象和文本標簽)、實體之間的關系(箭頭、線段等)以及實體的布局信息(邊界框坐標)。然后再用GPT-4充當“審計師”來審核整個規劃計劃，進行圖表細節優化。

?

在圖表生成階段,通過DiagramGLIGEN擴散模型能夠根據圖表規劃生成精準圖表，并用Pillow庫對文本標簽進行渲染提升精準度。

根據測試數據顯示，在多個量化指標上,DiagrammerGPT 顯著優于Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的圖表。

在圖表與文本相關性和對象關系的準確性評估方面，DiagrammerGPT分別取得36%和48%的優于基準模型的評分。該研究對于文本生成高精準圖表模型來說，有著重大突破。

開源地址：https://github.com/aszala/DiagrammerGPT

論文地址：https://arxiv.org/abs/2310.12128

圖表規劃

DiagrammerGPT框架的最大創新在于，利用GPT-4的強大自然語言處理能力指導圖表布局生成。為了生成更準確的規劃,還設計了閉環反饋機制。

一個GPT-4 充當“規劃師”生成初始規劃,另一個 GPT-4 充當“審計師”，評估規劃的準確性并提供反饋。而規劃師可以根據反饋調整規劃布局。

1）初始圖表規劃生成

研究人員對GPT-4通過10個語境學習樣例進行了訓練,每個樣例都包含完整的圖表文本描述、實體、關系和布局信息。規劃包含3個要素:

實體:對象和文本標簽的列表。對象指圖表中的圖像元素,文本標簽指對象的文字說明。

關系:實體之間的關系,比如箭頭連接、線段連接、文本標簽標注對象等。

布局:所有實體的邊界框坐標信息,[x,y,w,h]格式。

2）規劃優化

為進一步提高規劃質量,提出了規劃師、審計師的閉環反饋機制進行迭代優化。其中GPT-4充當規劃師,另一個GPT-4充當審計師。審計師會檢查規劃與文本描述是否匹配,提供反饋意見;規劃師根據反饋更新規劃。

其中，審計師GPT-4也是通過特定語境學習進行訓練的,以提供有效的反饋意見。兩者訓練使用不同的語境學習樣本。

圖表生成

研究人員通過Diagram GLIGEN擴散模型用于圖表生成，并加入了門控自注意力層,可以利用圖表規劃的布局信息指導圖像生成。

與原始的GLIGEN模型只處理物體不同,DiagramGLIGEN可同時處理文本標簽和箭頭關系作為布局輸入。DiagramGLIGEN在AI2D-Caption數據集上進行了訓練,使其能生成特定領域的科學圖表。

但由于擴散模型本身文本渲染效果不佳,無法輸出清晰可讀的文本,研究人員使用Pillow庫顯式渲染文本標簽,提升文本的清晰度。

訓練、評估數據集

研究人員基于AI2D科學圖表數據集構建了AI2D-Caption數據集,用于文本到圖表生成的訓練和數據測試。AI2D包含約4900張科學圖表圖像,涵蓋天文、生物、工程等領域。

其中選取了105張圖表,使用大語言模型為每個圖表生成詳細的圖像標題和對象描述。其中30張作為語言模型的語境學習樣本,75張作為測試集。

相比原始AI2D只有簡單的標題,AI2D-Caption提供了更豐富的文本描述,包括完整的圖表標題和每個對象的詳情。

多個基準測試數據顯示，在VPEval上,DiagrammerGPT的對象、數量、關系和文本渲染準確性均明顯優于基準模型,從多個方面證明了其生成圖表的高質量。

在圖像字幕上,DiagrammerGPT生成的圖表能產生更相關的標題,標題與真值更加接近。在CLIPScore上,DiagrammerGPT的圖像-文本和圖像-圖像相似度更高,更接近真值圖表和標題。還進行了人類評估，多數人表示，更喜歡DiagrammerGPT生成的圖表。

本文素材來源北卡羅來納大學論文，如有侵權請聯系刪除

END

繼續閱讀：

未經允許不得轉載：RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > GPT-4充當“規劃師、審計師”，顛覆性雙層文生圖表模型

相關推薦

熱門信息

閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示
閱讀 (13753)
2 《Market Insight：中國RPA市場發展洞察（2022）》報告正式發布 | RPA中國
閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示
閱讀 (12964)
4 與科技共贏，與產業共進，第四屆ISIG中國產業智能大會成功召開
閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國

快速導航

主站蜘蛛池模板：六盘水市| 扶绥县| 敦化市| 西宁市| 高碑店市| 大城县| 富宁县| 辽宁省| 理塘县| 贵州省| 陕西省| 长兴县| 西峡县| 始兴县| 彝良县| 彭阳县| 彩票| 方正县| 巴楚县| 卓资县| 吐鲁番市| 平山县| 安岳县| 自贡市| 绍兴县| 科尔| 隆化县| 噶尔县| 常州市| 嵩明县| 和林格尔县| 乡宁县| 金堂县| 高清| 霞浦县| 沈丘县| 乡城县| 中宁县| 太仓市| 宿州市| 云和县|

<del id="i2cmi"></del>

<ul id="i2cmi"></ul>

<strike id="i2cmi"><menu id="i2cmi"></menu></strike>

<strike id="i2cmi"><input id="i2cmi"></input></strike>