近日,亞馬遜宣布在AWS Polly上推出神經文本轉語音自動生成新聞播音員風格,通過此功能轉換的神經文本,將增加自然性和表現力,可以顯著改善語音轉換質量。
亞馬遜在去年年底的一篇AI研究論文中,詳細描述了其關于神經文本轉換語音的原理(數據減少對序列到序列神經TTS的影響 )。其中研究人員描述了一個全新的AI語音學習系統。該系統只需經過短短幾十個小時的數據訓練,便可以模仿一位配音演員的閱讀風格。
亞馬遜的AI模型由兩部分組成。第一個是轉換音素的序列生成神經網絡:即與另一個區分開一個字,如聲音感知上的不同單元P,B,D到譜圖的一個序列,或視覺隨著時間的變化聲音頻譜的表示。第二個是聲碼器:將這些頻譜圖轉換為連續的音頻信號。
其中,音素到頻譜圖解釋器網絡是序列到序列,這意味著它不僅僅從相應的輸入計算輸出,而是考慮它在輸出序列中的位置。除了“風格編碼”之外,亞馬遜的科學家還使用音素序列和相應的光譜圖序列對其進行了訓練,使得該風格編碼確定了訓練示例中,使用的特定說話風格。模型的輸出被輸入到聲碼器中,可以從任何揚聲器中獲取頻譜圖,無論AI是否在訓練期間看到它們。
這種AI模型訓練方法,結合了大量中性風格的語音數據,只需幾個小時的風格數據補充,以及一個能夠區分語音元素的AI系統,可輸出像播音員和演員那樣的語音風格。
目前,新聞主播風格可用于兩種英語語音,而神經文本語音可用于11種語音。它們都是實時工作和批量處理模式,現在可以在美國東部(弗吉尼亞北部),美國西部(俄勒岡州)和歐洲(愛爾蘭)AWS區域訪問。
從第一次語音請求(標準或NTTS)開始,前12個月每月最多100萬個神經文本轉換語音都是免費使用的。像Globe and Mail、Gannett、BlueToad、TIM Media、EncyclopediaBritannica以及游戲開發商Volley等客戶已經通過AWSPolly使用新聞播音員風格。
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 亞馬遜在AWS上推出神經文本轉新聞播音員風格,前100萬條免費轉換
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國