亞馬遜在AWS上推出神經文本轉新聞播音員風格,前100萬條免費轉換

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      近日,亞馬遜宣布在AWS Polly上推出神經文本轉語音自動生成新聞播音員風格,通過此功能轉換的神經文本,將增加自然性和表現力,可以顯著改善語音轉換質量。

      亞馬遜在去年年底的一篇AI研究論文中,詳細描述了其關于神經文本轉換語音的原理(數據減少對序列到序列神經TTS的影響 )。其中研究人員描述了一個全新的AI語音學習系統。該系統只需經過短短幾十個小時的數據訓練,便可以模仿一位配音演員的閱讀風格。

       

      亞馬遜的AI模型由兩部分組成。第一個是轉換音素的序列生成神經網絡:即與另一個區分開一個字,如聲音感知上的不同單元P,B,D到譜圖的一個序列,或視覺隨著時間的變化聲音頻譜的表示。第二個是聲碼器:將這些頻譜圖轉換為連續的音頻信號。

       

       

      其中,音素到頻譜圖解釋器網絡是序列到序列,這意味著它不僅僅從相應的輸入計算輸出,而是考慮它在輸出序列中的位置。除了“風格編碼”之外,亞馬遜的科學家還使用音素序列和相應的光譜圖序列對其進行了訓練,使得該風格編碼確定了訓練示例中,使用的特定說話風格。模型的輸出被輸入到聲碼器中,可以從任何揚聲器中獲取頻譜圖,無論AI是否在訓練期間看到它們。

       

      這種AI模型訓練方法,結合了大量中性風格的語音數據,只需幾個小時的風格數據補充,以及一個能夠區分語音元素的AI系統,可輸出像播音員和演員那樣的語音風格。

       

      目前,新聞主播風格可用于兩種英語語音,而神經文本語音可用于11種語音。它們都是實時工作和批量處理模式,現在可以在美國東部(弗吉尼亞北部),美國西部(俄勒岡州)和歐洲(愛爾蘭)AWS區域訪問。

       

      從第一次語音請求(標準或NTTS)開始,前12個月每月最多100萬個神經文本轉換語音都是免費使用的。像Globe and Mail、Gannett、BlueToad、TIM Media、EncyclopediaBritannica以及游戲開發商Volley等客戶已經通過AWSPolly使用新聞播音員風格。


       

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 亞馬遜在AWS上推出神經文本轉新聞播音員風格,前100萬條免費轉換

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 陇西县| 海林市| 庆城县| 松桃| 宁化县| 法库县| 四川省| 包头市| 鞍山市| 德安县| 连江县| 齐河县| 郧西县| 渑池县| 灵台县| 英德市| 庆云县| 大宁县| 宜丰县| 黑河市| 花莲市| 丰都县| 漯河市| 和平区| 紫阳县| 南昌县| 贺兰县| 南汇区| 兴仁县| 张北县| 邓州市| 沾益县| 镇宁| 吴江市| 莒南县| 浦县| 南宁市| 田林县| 芦山县| 巴青县| 西城区|