5月14日凌晨,OpenAI在官網正式發布了新旗艦模型GPT-4o,可跨視頻、音頻、文本進行實時推理,全球生成式AI領域再次迎來歷史性時刻。
OpenAI通過GPT-4o打造的語音版ChatGPT助手,可以與用戶跨音頻、視頻進行交流,例如,讓GPT-4o進行實時翻譯、唱歌、做數學題、講笑話等。簡單點說吧,以后家教、翻譯、秘書的飯碗都不保了。
2013年曾獲得奧斯卡最佳原創劇本的電影《Her》,為我們呈現了一場人與AI的“戀情”,Her的無所不能展現出了AI強大和恐怖的一面 。
11年后,GPT-4o將這部電影變成了現實,人人都可以擁有一個Her。
GPT-4o功能展示
OpenAI對GPT-4o的功能進行了大量展示,這里「AIGC開放社區」就選幾個有代表性的吧。例如,通過手機與GPT-4o視頻,讓其解讀一下你的想法。
首先,OpenAI的員工拿著手機拍攝了周圍的場景,很快GPT-4o便給出周圍的環境描述。接著員工讓GPT-4o猜測他今天要做什么的時候,它說可能會與OpenAI有關,開一個發布會之類的。
當員工說出這個發布會與“你”有關時,它的回答有點讓人覺得恐怖,居然會像人一樣表現出驚訝和停頓,這是以往任何語音助手都不具備的技術特征。
OpenAI總裁兼聯合創始人Greg Brockman讓兩個GPT-4o語音助手互相對話并唱歌。
一位父親希望GPT-4o可以輔導他的兒子做一道很難得數學題。它沒有像以往的ChatGPT一下子把所有答案都給出來,而是像家教一樣,一句一句的用引導的方式告訴他應該如何解答這道題。
當「AIGC開放社區」看到這里時也為那些輔導老師捏了一把汗,估計在進化幾次連家教的飯碗也不保了。
和GPT-4o相處久了,應該向它介紹點朋友吧。這不OpenAI展示了GPT-4o社牛的一面,直接解讀了一條寵物狗。
當你想與法國人、塞爾維亞人、匈牙利人進行對話時怎么辦?只能用翻譯軟件吧,但是那種傳統的太慢了不太適合交流。通過GPT-4o可以做到實時翻譯了,當你說完一句話時,它已經幫你翻譯好了并且是語音輸出的。
怎么樣,看完這幾個案例對GPT-4o有何感受,是不是和電影中的Her幾乎差不多了?更驚喜的是OpenAI宣布免費開放使用,即便你不是付費用戶也沒問題。
GPT-4o測試數據
GPT-4o是一個多模態模型,可以在一個神經網絡中輸入和輸出文本、視頻、音頻3種數據格式。
根據OpenAI給出的官網評測顯示,GPT-4o的語音響應可以短至232毫秒,平均響應為320 毫秒。GPT-4o的英語文本和代碼能力和 GPT-4 Turbo 的性能差不多。
GPT-4o在MMLU的評測中創下了88.7% 的新高分,超過了Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0等目前市面上著名大模型。
GPT-4o的音頻ASR性能比 Whisper-v3 顯著提高了對所有語言的語音識別能力,特別是對于那些非常稀少的小語種,并且音頻的翻譯能力超過了谷歌的Gemini。
目前,GPT-4o的文本和圖像功能已經在ChatGPT中開放使用,免費注冊用戶也可以體驗該功能。
開發人員通過API可以訪問GPT-4o 的文本和視覺功能。與GPT-4 Turbo相比,GPT-4o 速度提高了2倍價格低了50%,并且極大降低了tokens限制。
未來幾周內,OpenAI會在ChatGPT Plus中推出新版語音模式GPT-4o的alpha版。讓我們期待一下更強的Her出現吧。
本文素材來源OpenAI官網,如有侵權請聯系刪除
END
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 重磅!OpenAI發布GPT-4o,非常驚艷語音版ChatGPT!
熱門信息
閱讀 (14870)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13907)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13094)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (13018)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11662)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國