OCR(光學字符識別)將手寫或印刷的圖像轉換為信息文本的技術,可以追溯到上世紀70年代初。不過隨著科技的進步以及企業對OCR的需求越來越多樣化,亞馬遜的研究人員為了改善OCR算法和彎曲文本的識別準確率,開發了一款名為Text Tubes的智能工具。它可以快速識別自然圖像中彎曲文本的信息,并在OCR的基準上達到更理想的識別效果。
通常識別場景文本時分為兩個連續的任務:文本檢測與文本識別;第一個任務通過使用上下文關系來定位字符、單詞和行;而第二個任務主要用來轉錄其識別的內容。這兩項任務說起來非常容易,但是對于計算機來說卻非常的困難。因為這涉及到變形、視點變化和任意字體的影響。
亞馬遜的解決方案是利用文本參考框架的“形狀”來捕獲大多數文本的可變性。同時利用目標文本的大小,來還原識別文本的“形體”。與易于重疊和容易產生噪聲的矩形和四邊形來捕獲文本信息的傳統方法相比,亞馬遜的方法將顯得更加高效和智能。
研究人員在CTW-1500上評估了Text Tubes的性能,該數據集從自然場景和圖像庫中收集了1,500張圖像,超過10,000個文本實例(每個圖像至少一個彎曲實例)組成,并在Total-Text上進行了測試。Total-Text包含大約1,255次訓練圖像和300個測試圖像以及一個或多個彎曲文本實例。測試報告顯示,Text Tubes在CTW-1500上以83.65%的準確度取得了行業領先的水平,而傳統OCR準確度為75.6%。
目前Text Tubes還處于測試階段,如果該技術正式投入使用,這對于那些高度依賴OCR開展業務的企業來說,將是一個好消息。有數據統計,紙張業務仍占80%以上的數字業務流程,大約97%的小企業仍使用紙質支票。
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 亞馬遜通過AI改善對彎曲文本的識別準確率
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國