當前位置：首頁 > RPA最新資訊 > AI視角 > GPT-4系列模型，在文檔理解中的多維度評測

GPT-4系列模型，在文檔理解中的多維度評測

suntingting 發布于 2024-06-17 16:25:36
分類：AI視角
來源：
閱讀()
評論()

著名云數據平臺Snowflake的研究人員發布了一篇論文，主要對OpenAI的GPT-4系列模型進行了研究，查看其文本生成、圖像理解、文檔摘要等能力。

在DocVQA、InfographicsVQA、SlideVQA和DUDE數據集上對GPT-4、GPT-4V、GPT-4Turbo V +OCR等進行了多維度測試。

結果顯示，使用GPT-4去執行解讀文檔任務時，無法達到滿意的效果。這是因為，文檔理解不僅是對文本的解析，還涉及到對文檔布局、圖片視覺內容的理解、推理和整合。

使用GPT-4 V去執行時評測數據有了很大的改善，當使用GPT-4Turbo V+第三方OCR（光學字符識別）視覺引擎時，例如，Tesseract、Azure Cognitive 、Amazon Textract等，可明顯提升大模型的視覺理解能力。

可能存在數據污染

研究人員在DocVQA和InfographicsVQA兩個數據集測試GPT-4系列模型時，發現它并不是完全理解測試問題，而是之前在預訓練過程中接觸過該數據集給出了看似正確的答案，可能存在數據污染的現象。

這是因為，DocVQA和InfographicsVQA兩個數據集在GPT-4之前就已經發布，有可能在GPT-4模型訓練時被包含在內。如果這些數據集真的被包含在訓練數據中，那么模型在這些數據集上的高得分可能并不代表其真正的理解能力，而只是對訓練數據的一種記憶。

為了解開這個謎題，研究人員采用了一種“指導性指令”的技術。這種方法通過在模型的輸入提示中加入特定的數據集名稱，來檢查模型是否能夠根據數據集的特定特征給出不同的答案。

例如，如果模型在接收到“回答DocVQA數據集測試分割中的問題”的指令后，給出了與接收到“回答SQuAD數據集測試分割中的問題”的指令不同的答案，這可能表明模型對不同數據集有特定的反應。

在進行數據污染分析時，當在提示中明確提及數據集名稱時，模型的性能有所提高，這可能意味著模型在訓練時已經接觸過這些數據集，因此在評估時能夠給出更加符合預期的答案。

此外，即使是使用不同的數據集名稱進行誤導性的指導，也可能會改變模型的輸出，這進一步表明模型的輸出受到了預訓練數據的影響。

OCR能提升模型的視覺性能

在測試的實驗中，研究者還發現，當GPT-4Turbo V結合了第三方OCR引擎識別的文本和文檔圖像輸入時，其在文檔理解任務上的表現有了顯著提升。

這種提升在SlideVQA和DUDE數據集上尤為明顯，能夠達到最先進的性能水平。這表明OCR技術在增強模型對文檔的視覺理解方面發揮了重要作用。

這是因為，OCR能夠將圖像中的文本內容轉換為機器可讀的格式，從而使模型能夠直接處理文本信息。

在文檔理解任務中，這意味著模型不僅能夠“看到”文檔中的文本，還能夠“理解”這些文本的含義。

但不同的OCR例如，Tesseract、Azure Cognitive Services和Amazon Textract。在不同的測試數據集上表現也各不相同。這表明在實際應用中，開發者可以根據應用場景來選擇不同的OCR來搭配使用。

本文素材來源Snowflake論文，如有侵權請聯系刪除

繼續閱讀：

未經允許不得轉載：RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > GPT-4系列模型，在文檔理解中的多維度評測

相關推薦

熱門信息

閱讀 (14988)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示
閱讀 (14107)
2 《Market Insight：中國RPA市場發展洞察（2022）》報告正式發布 | RPA中國
閱讀 (13123)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示
閱讀 (13033)
4 與科技共贏，與產業共進，第四屆ISIG中國產業智能大會成功召開
閱讀 (11790)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國

快速導航

主站蜘蛛池模板：习水县| 麟游县| 玉溪市| 阿鲁科尔沁旗| 安阳市| 临颍县| 常宁市| 巩留县| 新民市| 瑞昌市| 江西省| 石阡县| 迁安市| 邢台市| 二连浩特市| 荣昌县| 神农架林区| 察哈| 肃宁县| 邢台市| 临夏县| 澄城县| 开江县| 天门市| 松滋市| 平阳县| 靖州| 凯里市| 绍兴县| 保定市| 井冈山市| 霍林郭勒市| 玉溪市| 吕梁市| 龙游县| 宾阳县| 澳门| 健康| 武平县| 读书| 逊克县|

<abbr id="vvlbb"><pre id="vvlbb"></pre></abbr>