ChatGPT重磅升級:可以看圖、聽聲音、說話啦!

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      美東時間9月25日,OpenAI在官網宣布,對ChatGPT進行重磅升級實現看圖、聽聲音、輸出語音內容三大功能。

      早在今年3月OpenAI發布GPT-4模型時,就展示過看圖的功能,但由于安全、功能不完善等原因一直沒有開放。現在不僅開放了看圖,連識別聲音也來了,這是OpenAI實現AGI(通用人工智能)戰略重要技術環節。

      OpenAI表示,在接下來的兩周內,向Plus和企業版用戶提供看、聽、說功能。語音功能將在 iOS 和 Android上使用,圖片識別全平臺可以使用。

      用語音與ChatGPT交流

      ChatGPT新的語音功能由一個文本到語音模型提供支持,能夠僅通過文字和幾秒鐘的樣本語音生成類似人類的音頻。

      OpenAI與專業的配音演員合作,創建了5種合成語音,同時使用了自研開源語音識別系統 Whisper,將用戶的語音轉錄成文本。

      簡單來說,以后用戶想將文本直接生成語音,可以在ChatGPT中完成了。

      例如,讓ChatGPT聽一段小貓咪的文本故事,然后選擇人類語音便可以一鍵完成轉錄。完成后,用戶可以下載這段語音。

      story-juniper,AIGC開放社區00:30 進度條 10%
      可以向ChatGPT提問圖片
      用戶可以向ChatGPT展示一張或多張圖片,提問相關的問題。例如,發送一張壞掉的燒烤爐圖片,然后詢問無法啟動原因;拍攝一張冰箱中的食材,詢問多種菜品制作方案
      如果用戶只想詢問圖片中的部分內容,可以通過移動端的繪圖功能將其框起來進行發問。
      ChatGPT的圖片理解功能由 GPT-3.5 和GPT-4 提供技術支持,可理解的圖片類型包括照片、屏幕截圖或包含文本的圖片等。
       
      提供安全的AI服務
       
      OpenAI表示,其目標是構建既安全又有益的AGI(通用人工智能)。所以,ChatGPT的功能正在逐步推出。這樣做的好處是,可以讓OpenAI有時間進行改進,逐步完善安全漏洞、風險。
      特別是新的語音技術,可以在幾秒內就能生成真實的合成聲音,這可能會為詐騙者提供了便利條件,所以,這種安全的研發策略對于涉及語音和視覺的高級模型非常重要。
      目前,Spotify已經使用ChatGPT的語音功能,開發一款語音翻譯助手,可以將博主的聲音自動翻譯成其他語言,擴大用戶群體。而Be My Eyes將ChatGPT的看圖功能,植入在應用中,為盲人和弱視群體提供服務。

      本文素材來源OpenAI官網,如有侵權請聯系刪除

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > ChatGPT重磅升級:可以看圖、聽聲音、說話啦!

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 诏安县| 资讯 | 太白县| 明溪县| 尚义县| 中宁县| 泌阳县| 绥化市| 酒泉市| 太仆寺旗| 连平县| 德昌县| 行唐县| 区。| 永春县| 兰溪市| 密山市| 江城| 华阴市| 宝兴县| 来宾市| 宣城市| 洪泽县| 贺兰县| 阜宁县| 天水市| 稷山县| 会同县| 根河市| 秦安县| 海伦市| 武宣县| 乌苏市| 宝应县| 三门峡市| 仁寿县| 高邑县| 沽源县| 丹阳市| 辽中县| 宣城市|