亞馬遜通過AI改善對彎曲文本的識別準確率

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      OCR(光學字符識別)將手寫或印刷的圖像轉換為信息文本的技術,可以追溯到上世紀70年代初。不過隨著科技的進步以及企業對OCR的需求越來越多樣化,亞馬遜的研究人員為了改善OCR算法和彎曲文本的識別準確率,開發了一款名為Text Tubes的智能工具。它可以快速識別自然圖像中彎曲文本的信息,并在OCR的基準上達到更理想的識別效果。

       

       

      通常識別場景文本時分為兩個連續的任務:文本檢測文本識別;第一個任務通過使用上下文關系來定位字符、單詞和行;而第二個任務主要用來轉錄其識別的內容。這兩項任務說起來非常容易,但是對于計算機來說卻非常的困難。因為這涉及到變形、視點變化和任意字體的影響。

       

      亞馬遜的解決方案是利用文本參考框架的“形狀”來捕獲大多數文本的可變性。同時利用目標文本的大小,來還原識別文本的“形體”。與易于重疊和容易產生噪聲的矩形和四邊形來捕獲文本信息的傳統方法相比,亞馬遜的方法將顯得更加高效和智能。

       

       

      研究人員在CTW-1500上評估了Text Tubes的性能,該數據集從自然場景和圖像庫中收集了1,500張圖像,超過10,000個文本實例(每個圖像至少一個彎曲實例)組成,并在Total-Text上進行了測試。Total-Text包含大約1,255次訓練圖像和300個測試圖像以及一個或多個彎曲文本實例。測試報告顯示,Text Tubes在CTW-1500上以83.65%的準確度取得了行業領先的水平,而傳統OCR準確度為75.6%。

       

      目前Text Tubes還處于測試階段,如果該技術正式投入使用,這對于那些高度依賴OCR開展業務的企業來說,將是一個好消息。有數據統計,紙張業務仍占80%以上的數字業務流程,大約97%的小企業仍使用紙質支票。

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 亞馬遜通過AI改善對彎曲文本的識別準確率

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 聊城市| 伊通| 游戏| 望江县| 习水县| 德安县| 延寿县| 赤峰市| 沈阳市| 昂仁县| 右玉县| 尤溪县| 澄江县| 普格县| 东源县| 安龙县| 治多县| 江津市| 顺义区| 西畴县| 商城县| 涟水县| 乡宁县| 静海县| 大关县| 滨州市| 武邑县| 拉萨市| 黔西县| 保定市| 株洲市| 台北县| 峡江县| 师宗县| 青河县| 伊春市| 平度市| 庆云县| 增城市| 凤山县| 泽普县|