上海AI實驗室、香港中文大學數(shù)據(jù)科學院、深圳大數(shù)據(jù)研究院聯(lián)合開源了一個名為Amphion的音頻、音樂和語音生成工具包。
Amphion可幫助開發(fā)人員研究文本生成音頻、音樂等與音頻相關(guān)的領(lǐng)域,可以在一個框架內(nèi)完成,以解決生成模型黑箱、代碼庫分散、缺少評估指標等難題。
Amphion包含了數(shù)據(jù)處理、通用模塊、優(yōu)化算法等基礎(chǔ)設(shè)施。同時針對文本到語音、歌聲轉(zhuǎn)換、文本到音頻生成等任務(wù),提供了特定的框架、模型和開發(fā)說明,還內(nèi)置了各類神經(jīng)語音編解碼器和評價指標。
尤其是對于那些剛接觸生成式AI開發(fā)的新手來說,Amphion非常容易上手。
開源地址:https://github.com/open-mmlab/Amphion
論文地址:https://arxiv.org/abs/2312.09911
以下是Amphion包含的各種模型
文本到語音合成
Amphion內(nèi)置的文本到語音合成模型,涵蓋從傳統(tǒng)到當前最先進的技術(shù)。例如,F(xiàn)astSpeech 2使用前饋式Transformer架構(gòu)實現(xiàn)快速語音合成;
VITS融合了條件變分自編碼器,可實現(xiàn)端到端的語音合成;Vall-E使用神經(jīng)編解碼器語言模型一鍵實現(xiàn)零資源的語音合成;NaturalSpeech 2利用潛在擴散模型合成高質(zhì)量語音。
開發(fā)者可根據(jù)業(yè)務(wù)需求,選擇使用不同的模型進行語音合成。
歌聲轉(zhuǎn)換
Amphion提供了提取說話人無關(guān)表示的各類基于內(nèi)容的特征,例如,來自WeNet、Whisper和ContentVec的預(yù)訓練語音特征。
同時實現(xiàn)了多種聲學解碼器架構(gòu),比如基于擴散模型、變壓器和變分自編碼器的方法。
此外,借助內(nèi)置的神經(jīng)語音編解碼器合成聲波輸出,開發(fā)者可以靈活配置不同模塊,進行不同歌聲風格轉(zhuǎn)換。
文本到音頻生成
Amphion使用了主流的潛在擴散生成模型。該模型包含一個將頻譜映射到潛空間的變分自動編碼器,一個接受文本并輸出條件的T5編碼器,以及一個擴散網(wǎng)絡(luò)生成最終音頻。
用戶只需給出音頻描述文本,就可以生成語義一致的背景音效。
神經(jīng)語音編解碼器
Amphion提供了豐富的編解碼器算法選項,涵蓋主流的自動回歸模型、流模型、對抗生成模型、擴散模型等。
例如,WaveNet使用膨脹卷積實現(xiàn)高質(zhì)量語音合成;HiFi-GAN應(yīng)用多尺度判別器實現(xiàn)高保真的語音重構(gòu)等,可滿足不同業(yè)務(wù)場景的需求。
性能評估模塊
為了幫助開發(fā)者全面評估生成語音的質(zhì)量和性能,Amphion提供了豐富的評估模塊。
評估基頻建模、能量建模、頻譜失真、可懂度等語音維度,可幫助開發(fā)者簡單直觀地比較不同模型的性能。
開發(fā)團隊表示,未來,會持續(xù)更新這個工具包,加入更多與語音相關(guān)的模型,打造成最好用的開源語音工具包之一。
本文素材來源Amphion論文,如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 上海AI實驗室等開源,音頻、音樂統(tǒng)一開發(fā)工具包Amphion
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進,第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報告》正式發(fā)布 | RPA中國