免費使用!百度重磅發(fā)布文心4.5、X1,視頻解讀+深度思考

      后臺-系統(tǒng)設(shè)置-擴展變量-手機廣告位-內(nèi)容正文頂部

      昨天,百度發(fā)布了兩款大模型文心4.5和X1,已全部上線并且免費使用。

      文心4.5是一款多模態(tài)模型,能對文字、圖片、視頻、音頻等內(nèi)容進行綜合解讀。例如,給一個視頻,讓其對內(nèi)容識別然后再寫一份深度分析(非常不錯可以解讀英文)。能力大幅度超過OpenAI的GPT-4o。

      X1和DeepSeek-R1一樣具備深度思考能力,能對提出的問題進行理解、規(guī)劃、反思、進化能力,同樣支持多模態(tài)。

      此外,X1也是首個能自動調(diào)用高級搜索、文檔問答、AI繪圖、代碼解釋器、網(wǎng)頁鏈接讀取、TreeMind樹圖、百度學(xué)術(shù)檢索、商業(yè)信息查詢等眾多特色工具。所以,X1更像是一個推理能力超強的智能體。


       

      體驗地址:https://yiyan.baidu.com/X1

      文心4.5和X1案例展示

      其實多模態(tài)理解已經(jīng)成為國內(nèi)外大模型的標配,但能直接高效準確解讀視頻的模型并不多。而文心4.5就具備這種特殊能力。

      這里就用今天咱們二條發(fā)布的,美國陸軍收到首個AI模型驅(qū)動的軍事情報戰(zhàn)車TITAN宣傳視頻做解讀案例。

      因為這是剛出的視頻,大概率不在預(yù)訓(xùn)練模型的數(shù)據(jù)范圍內(nèi),能很好地考驗文心4.5基于多模態(tài)的理解能力,對全新未知內(nèi)容的分析水平。

      需要注意的是,上傳的視頻不能超過20M,支持Mp4、MOV、MKV等常規(guī)格式。

      上傳完視頻后,提問,這是一個什么視頻?大約用了不到1分鐘,解讀效率還是相當高的。


       

      文心4.5給出了完整TITAN答案,解讀基本上是正確的,可以比肩谷歌的NoteGPT。這個功能對于需要快速了解國外學(xué)術(shù)介紹、娛樂影視的人來說很有幫助。如果視頻太大,記得可以先壓縮之后再上傳。


       

      音頻解讀一樣準確高效,一次可以上傳10個音頻,單個最大別超過10M,支持mp3、m4a、wav等常規(guī)格式,有興趣的小伙伴可以體驗一下。

      再體驗一下X1,其特殊能力就是能自動調(diào)用多種其他工具。

      例如,讓X1自動解讀一下電影《肖申克救贖》的海報,直接提問“這是一張什么圖片?”


       


       

      X1開啟了深度思考模式,我們可以清楚看到它自動調(diào)用了圖片理解工具,幫它來解讀這張圖片。

      在得到結(jié)果后,總結(jié)出了圖片的主題秒速、背景與色調(diào)、風(fēng)格設(shè)計等主要框架,最后進行了完整的輸出。


       

      我們接著提問,根據(jù)這個電影寫一份200字的影評。文本風(fēng)格歡快一些,最好帶點網(wǎng)絡(luò)梗。

      這次X1沒有調(diào)用別的工具,因為只是簡單的文本生成,但也會梳理一下輸出邏輯,包括影評基調(diào)、加入網(wǎng)絡(luò)梗、內(nèi)容點評等。


       


       

      最后輸出的結(jié)果如下:

      《肖申克的救贖》yyds!這部片子簡直是"監(jiān)獄版《越獄》"的鼻祖,蒂姆·羅賓斯演的安迪簡直是個"神級挖坑王",用一把小鶴嘴鋤挖出自由之路,看得人熱血沸騰!

      摩根·弗里曼的旁白更是"金句制造機","希望是好事,也許是人間至善"這句話,我直接原地emo轉(zhuǎn)雞血!影片節(jié)奏就像"德芙巧克力,縱享絲滑",看完感覺心靈都被"越獄"了!姐妹們,答應(yīng)我,沒看過的一定要沖,這片子保熟!

      感覺寫的還行,有小紅書那味兒了吧??梢栽谶@個基礎(chǔ)之上改一改就能直接出文案了。

      至于價格方面,個人用戶是免費使用這兩款大模型;企業(yè)開發(fā)者在百度智能云千帆大模型平臺,現(xiàn)在能直接使用文心4.5 API,輸入價格低至0.004元/千tokens,輸出價格低至0.016元/千tokens;

      X1也即將在千帆平臺上線,輸入價格低至0.002元/千tokens,輸出價格低至0.008元/千tokens。


       

      文心4.5和X1架構(gòu)簡單介紹

      根據(jù)百度官方介紹,文心4.5主要使用了FlashMask動態(tài)注意力掩碼、多模態(tài)異構(gòu)專家擴展、時空維度表征壓縮技術(shù)等多種創(chuàng)新技術(shù),使其在多模態(tài)的理解和生成方面得到了質(zhì)的飛躍。

      傳統(tǒng)的注意力掩碼計算在處理長序列時往往面臨效率瓶頸,而FlashMask通過動態(tài)調(diào)整注意力掩碼的方式,能夠加速計算過程。使得模型在處理長文本或長序列數(shù)據(jù)時表現(xiàn)更加出色。還能優(yōu)化多輪交互場景下的性能,這對于需要連續(xù)對話或長文本生成的應(yīng)用場景具有重要意義。

      多模態(tài)異構(gòu)專家擴展技術(shù)主要解決不同模態(tài)之間的梯度不均衡難題。在多模態(tài)模型中,圖像、文本、音頻等不同模態(tài)的數(shù)據(jù)特性差異很大,導(dǎo)致它們在訓(xùn)練過程中梯度更新速度不一致,進而影響模型的整體性能。

      通過構(gòu)建模態(tài)異構(gòu)專家,為每種模態(tài)設(shè)計專門的處理模塊,并結(jié)合自適應(yīng)模態(tài)感知損失函數(shù),該技術(shù)能夠動態(tài)調(diào)整各模態(tài)的權(quán)重,從而平衡梯度更新,提升多模態(tài)融合的效果


       

      時空維度表征壓縮技術(shù)針對的是多模態(tài)數(shù)據(jù)中的圖片和視頻語義表征。在多模態(tài)訓(xùn)練中,圖片和視頻的語義信息往往需要大量的計算資源來處理,尤其是長視頻數(shù)據(jù)。

      通過在時空維度對這些語義表征進行高效壓縮,大幅減少了計算量,提升了多模態(tài)數(shù)據(jù)的訓(xùn)練效率。同時,還增強了模型從長視頻中提取世界知識的能力,這對于提升模型對復(fù)雜場景的理解和生成能力至關(guān)重要。

      根據(jù)測試數(shù)據(jù)顯示,文心4.5的原生多模態(tài)能力,在CCBench、OCRBench、MMMU、MathVista等主流基準測試中,大幅度超過了OpenAI發(fā)布的GPT-4o。


       

      X1的深度思考能力則應(yīng)用了基于思維鏈和行動鏈的端到端訓(xùn)練,將輸入直接映射到輸出的訓(xùn)練方式,避免了傳統(tǒng)多階段訓(xùn)練中可能出現(xiàn)的信息丟失和誤差累積問題

      在深度搜索場景中,模型不僅需要考慮搜索結(jié)果的相關(guān)性,還需要理解用戶的搜索意圖,通過思維鏈的構(gòu)建,將用戶的意圖分解為一系列的邏輯步驟,然后通過行動鏈將這些步驟轉(zhuǎn)化為具體的搜索行為。

      例如,當用戶輸入一個復(fù)雜的查詢請求時,模型首先通過思維鏈理解用戶可能需要的信息類型、范圍和優(yōu)先級,然后通過行動鏈調(diào)用不同的搜索工具或算法,逐步細化搜索結(jié)果,最終提供最符合用戶需求的答案。這種端到端的訓(xùn)練方式能夠根據(jù)最終的結(jié)果反饋,直接調(diào)整模型的參數(shù),從而顯著提升訓(xùn)練效果。

      百度表示,未來會開源文心4.5大模型。

      本文素材來源百度、文心一言,如有侵權(quán)請聯(lián)系刪除

      未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 免費使用!百度重磅發(fā)布文心4.5、X1,視頻解讀+深度思考

      后臺-系統(tǒng)設(shè)置-擴展變量-手機廣告位-內(nèi)容正文底部
      主站蜘蛛池模板: 长乐市| 乌拉特后旗| 商水县| 溧阳市| 宣城市| 抚顺市| 湖南省| 富裕县| 沁水县| 洪湖市| 南丹县| 宜川县| 皮山县| 伊金霍洛旗| 上饶市| 垦利县| 土默特右旗| 南昌县| 太原市| 竹北市| 那曲县| 孙吴县| 逊克县| 定边县| 安乡县| 宁河县| 库尔勒市| 文安县| 娄烦县| 仲巴县| 内乡县| 健康| 临海市| 巴塘县| 车险| 长乐市| 江永县| 湟中县| 新竹县| 繁峙县| 弋阳县|