美東時間9月25日,OpenAI在官網宣布,對ChatGPT進行重磅升級實現看圖、聽聲音、輸出語音內容三大功能。
早在今年3月OpenAI發布GPT-4模型時,就展示過看圖的功能,但由于安全、功能不完善等原因一直沒有開放。現在不僅開放了看圖,連識別聲音也來了,這是OpenAI實現AGI(通用人工智能)戰略重要技術環節。
OpenAI表示,在接下來的兩周內,向Plus和企業版用戶提供看、聽、說功能。語音功能將在 iOS 和 Android上使用,圖片識別全平臺可以使用。
用語音與ChatGPT交流
ChatGPT新的語音功能由一個文本到語音模型提供支持,能夠僅通過文字和幾秒鐘的樣本語音生成類似人類的音頻。
OpenAI與專業的配音演員合作,創建了5種合成語音,同時使用了自研開源語音識別系統 Whisper,將用戶的語音轉錄成文本。
簡單來說,以后用戶想將文本直接生成語音,可以在ChatGPT中完成了。
例如,讓ChatGPT聽一段小貓咪的文本故事,然后選擇人類語音便可以一鍵完成轉錄。完成后,用戶可以下載這段語音。

本文素材來源OpenAI官網,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > ChatGPT重磅升級:可以看圖、聽聲音、說話啦!
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國