近日,為了解決AI精準提取文章摘要這個難題,Google Brain團隊發布了一個名為SummAE的智能摘要系統。該系統只需要少量的訓練數據,便可以對文章進行精確的概括。盡管無法與人工水平相比,但研究人員聲稱它在基線上有了明顯的改進。
SummAE包含一個自動降噪編碼器,該編碼器在共享空間中對目標文本的句子和段落進行編碼(即生成其數字表示)。在其輸入之前,該編碼器可對每一個句子或段落進行解碼,然后系統通過對每一個解碼的內容自動生成摘要內容。
Google Brain研究人員發現,訓練自動編碼器的大多數傳統方法,會產生冗長多余的摘要句子。為了擺脫其原始表達方式,該團隊采用了兩種去噪方法,隨機掩蓋記號和排列段落中句子的順序。這種方法極大地增加了訓練示例的數量。同時還開發了一個對抗性審核組件,該組件可以區分句子和段落,此外還有兩個預訓練功能,可優化編碼器在提取句子后在段落中的敘述方式。
研究人員在ROCStories上訓練了SummAE的三種不同變體,這是一整套自成體系、多樣化、非技術性。他們將原始的98,159個培訓案例分為三個獨立的培訓集、驗證集和測試集,并收集了三個人工摘要,每個摘要分別包含500個驗證示例和500個測試示例。
在進行了100,000次預訓練后,研究小組報告顯示,最新神經模型明顯優于傳統的基線提取句生成器。此外,在一項涉及通過Amazon Mechanical Turk招聘的評估人員的定性研究中,志愿者對三種SummAE模型摘要進行了評估,超過80%的人員對SummAE的結果感到驚訝。
Google Brain表示,段落重建顯示出一定的連貫性,盡管在神經生成模型中經常會出現一些歧義和錯誤。由于摘要是從與重建相同的潛在向量中解碼的,因此對其進行改進會產生更精準的摘要。
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > Google發布智能摘要系統SummAE,可自動生成精準文章摘要
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國