7月4日凌晨,法國知名開源AI研究實驗室Kyutai在官網發布了,具備看、聽、說多模態大模型——Moshi。
Moshi功能與OpenAI在5月14日展示的最新模型GPT-4o差不多,可以聽取人的語音提問后進行實時推理回答內容。但GPT-4o的語音模式要在秋天才能全面開放使用,而Moshi已經提供使用了。
「AIGC開放社區」已經親自測試,Moshi不鎖區,填寫一個郵箱地址就能直接使用,無需任何等待。值得一提的是,Moshi是支持手機移動端使用的,只不過對普通話支持較差,最好使用英語提問。
此外,Kyutai可能很快就會開源Moshi,公布代碼、模型權重和論文。
免費體驗地址:https://moshi.chat/?queue_id=talktomoshi
Moshi的使用流程非常簡單,1)登錄https://moshi.chat/?queue_id=talktomoshi
2)填寫一個郵箱地址,然后點擊join。如果是手機登錄,系統會提示使用你的麥克風,因為這個產品對語音是一個硬性要求。如果你是PC端使用,也必須有麥克風,不然沒法使用。
「AIGC開放社區」的真實使用過程
3)開始語音輸入,你想提問的內容就行了。
下面這個是官方展示的案例,根據多輪語音連續對話,主要讓Moshi用法語來一首關于巴黎的詩;接著用竊竊私語的方式描述一個神秘故事。
Moshi完成的很出色,其擬人化語氣是一大特點機器味很少,這一點和GPT-4o有點像。
這個是模擬星際戰艦指揮官與航程的故事,主要詢問了一些到達目標航程,周圍環境等內容。(由于聽譯的可能理解的不太全~~)
「AIGC開放社區」也體驗了一下,主要問了Moshi幾個簡單問題:第一個,法國巴黎有哪些著名景點?Moshi:埃菲爾鐵塔。
接著問,盧浮宮博物館有哪些著名的展覽物品?Moshi:世界名畫蒙娜麗莎的微笑。
又問了,巴黎有哪些標志性建筑?Mosh:凱旋門,這是一個擁有悠久歷史的建筑。
由于Moshi的論文還沒有發布,「AIGC開放社區」就說一說自己的親身使用體驗吧。
1)響應速度超級快,本次測試使用的是國區線路,而Moshi的demo服務器在歐洲和美國,但當你用語音提問完問題后,幾乎0延遲就能馬上響應你的提問。Moshi官方給出的理論延遲是160毫秒。
2)不支持中文普通話,這一點還是能理解的,畢竟Moshi面向的國外用戶群體,主流語言還是英語,同時也支持法語。
3)回答內容有限,Moshi雖然是語音輸出內容,但詳細程度比ChatGPT那種純文本差好多,回答的內容只能是輪廓大概,相信以后產品會迭代更多。
4)使用方便快捷,幾乎沒有繁瑣的注冊流程,你只需要提交一個郵箱即可,馬上就能幫助你非常方便。
5)Moshi聽和說的能力有了,看的能力還沒展示出來,這個功能估計以后也會添加吧,這樣整個輸出模式將更加完善。
6)這類產品對家教、教育行業是起到顛覆性作用,例如,讓家教老師幫你反復講解一道高數題,估計兩遍人就比較惱了,而AI可以幫你循環講解無數次,這對于教育幫助是巨大的。
7)期待國產類似的GPT-4o、Moshi產品出現,最好再支持一些閩南話、粵語、四川話、東北話等有特色的地方語言,就像汽車導航那樣一定會非常有意思。
對于Moshi的發布,網友們還是相當興奮的,在我們苦等GPT-4o的語音模式時,Moshi橫空出現,期待他們更好的表現。
在推理延遲方面,Moshi似乎比GPT-4o更好。這一點從實際操作來看,確實是很快的。
剛試了一下Moshi的產品,其高效的推理響應以及低延遲,令人印象深刻,這就是我一直期待的產品。
繼續稱贊Moshi的低推理延遲。如果使用功能更高級的模型,即便推理時間長一些也沒問題。確實現在,Moshi的回答內容還是太寬泛了。
已經有人急的不行,開始要源代碼了,你們可是開放AI研究實驗室啊~
本文素材來源Moshi官網,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 對標GPT-4o!不鎖區、支持手機、免費使用,Moshi來啦!
熱門信息
閱讀 (15042)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (14183)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13135)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (13044)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11845)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國