日韩一区自拍,97色伦图片97色伦在线电影,免费在线观看成人

昨天，百度發(fā)布了兩款大模型文心4.5和X1，已全部上線并且免費使用。

文心4.5是一款多模態(tài)模型，能對文字、圖片、視頻、音頻等內(nèi)容進行綜合解讀。例如，給一個視頻，讓其對內(nèi)容識別然后再寫一份深度分析（非常不錯可以解讀英文）。能力大幅度超過OpenAI的GPT-4o。

X1和DeepSeek-R1一樣具備深度思考能力，能對提出的問題進行理解、規(guī)劃、反思、進化能力，同樣支持多模態(tài)。

此外，X1也是首個能自動調(diào)用高級搜索、文檔問答、AI繪圖、代碼解釋器、網(wǎng)頁鏈接讀取、TreeMind樹圖、百度學(xué)術(shù)檢索、商業(yè)信息查詢等眾多特色工具。所以，X1更像是一個推理能力超強的智能體。

體驗地址：https://yiyan.baidu.com/X1

文心4.5和X1案例展示

其實多模態(tài)理解已經(jīng)成為國內(nèi)外大模型的標配，但能直接高效準確解讀視頻的模型并不多。而文心4.5就具備這種特殊能力。

這里就用今天咱們二條發(fā)布的，美國陸軍收到首個AI模型驅(qū)動的軍事情報戰(zhàn)車TITAN宣傳視頻做解讀案例。

因為這是剛出的視頻，大概率不在預(yù)訓(xùn)練模型的數(shù)據(jù)范圍內(nèi)，能很好地考驗文心4.5基于多模態(tài)的理解能力，對全新未知內(nèi)容的分析水平。

需要注意的是，上傳的視頻不能超過20M，支持Mp4、MOV、MKV等常規(guī)格式。

上傳完視頻后，提問，這是一個什么視頻？大約用了不到1分鐘，解讀效率還是相當高的。

文心4.5給出了完整TITAN答案，解讀基本上是正確的，可以比肩谷歌的NoteGPT。這個功能對于需要快速了解國外學(xué)術(shù)介紹、娛樂影視的人來說很有幫助。如果視頻太大，記得可以先壓縮之后再上傳。

音頻解讀一樣準確高效，一次可以上傳10個音頻，單個最大別超過10M，支持mp3、m4a、wav等常規(guī)格式，有興趣的小伙伴可以體驗一下。

再體驗一下X1，其特殊能力就是能自動調(diào)用多種其他工具。

例如，讓X1自動解讀一下電影《肖申克救贖》的海報，直接提問“這是一張什么圖片？”

X1開啟了深度思考模式，我們可以清楚看到它自動調(diào)用了圖片理解工具，幫它來解讀這張圖片。

在得到結(jié)果后，總結(jié)出了圖片的主題秒速、背景與色調(diào)、風(fēng)格設(shè)計等主要框架，最后進行了完整的輸出。

我們接著提問，根據(jù)這個電影寫一份200字的影評。文本風(fēng)格歡快一些，最好帶點網(wǎng)絡(luò)梗。

這次X1沒有調(diào)用別的工具，因為只是簡單的文本生成，但也會梳理一下輸出邏輯，包括影評基調(diào)、加入網(wǎng)絡(luò)梗、內(nèi)容點評等。

最后輸出的結(jié)果如下：

《肖申克的救贖》yyds！這部片子簡直是"監(jiān)獄版《越獄》"的鼻祖，蒂姆·羅賓斯演的安迪簡直是個"神級挖坑王"，用一把小鶴嘴鋤挖出自由之路，看得人熱血沸騰！

摩根·弗里曼的旁白更是"金句制造機"，"希望是好事，也許是人間至善"這句話，我直接原地emo轉(zhuǎn)雞血！影片節(jié)奏就像"德芙巧克力，縱享絲滑"，看完感覺心靈都被"越獄"了！姐妹們，答應(yīng)我，沒看過的一定要沖，這片子保熟！

感覺寫的還行，有小紅書那味兒了吧?？梢栽谶@個基礎(chǔ)之上改一改就能直接出文案了。

至于價格方面，個人用戶是免費使用這兩款大模型；企業(yè)開發(fā)者在百度智能云千帆大模型平臺，現(xiàn)在能直接使用文心4.5 API，輸入價格低至0.004元/千tokens，輸出價格低至0.016元/千tokens；

X1也即將在千帆平臺上線，輸入價格低至0.002元/千tokens，輸出價格低至0.008元/千tokens。

文心4.5和X1架構(gòu)簡單介紹

根據(jù)百度官方介紹，文心4.5主要使用了FlashMask動態(tài)注意力掩碼、多模態(tài)異構(gòu)專家擴展、時空維度表征壓縮技術(shù)等多種創(chuàng)新技術(shù)，使其在多模態(tài)的理解和生成方面得到了質(zhì)的飛躍。

傳統(tǒng)的注意力掩碼計算在處理長序列時往往面臨效率瓶頸，而FlashMask通過動態(tài)調(diào)整注意力掩碼的方式，能夠加速計算過程。使得模型在處理長文本或長序列數(shù)據(jù)時表現(xiàn)更加出色。還能優(yōu)化多輪交互場景下的性能，這對于需要連續(xù)對話或長文本生成的應(yīng)用場景具有重要意義。

多模態(tài)異構(gòu)專家擴展技術(shù)主要解決不同模態(tài)之間的梯度不均衡難題。在多模態(tài)模型中，圖像、文本、音頻等不同模態(tài)的數(shù)據(jù)特性差異很大，導(dǎo)致它們在訓(xùn)練過程中梯度更新速度不一致，進而影響模型的整體性能。

通過構(gòu)建模態(tài)異構(gòu)專家，為每種模態(tài)設(shè)計專門的處理模塊，并結(jié)合自適應(yīng)模態(tài)感知損失函數(shù)，該技術(shù)能夠動態(tài)調(diào)整各模態(tài)的權(quán)重，從而平衡梯度更新，提升多模態(tài)融合的效果。

時空維度表征壓縮技術(shù)針對的是多模態(tài)數(shù)據(jù)中的圖片和視頻語義表征。在多模態(tài)訓(xùn)練中，圖片和視頻的語義信息往往需要大量的計算資源來處理，尤其是長視頻數(shù)據(jù)。

通過在時空維度對這些語義表征進行高效壓縮，大幅減少了計算量，提升了多模態(tài)數(shù)據(jù)的訓(xùn)練效率。同時，還增強了模型從長視頻中提取世界知識的能力，這對于提升模型對復(fù)雜場景的理解和生成能力至關(guān)重要。

根據(jù)測試數(shù)據(jù)顯示，文心4.5的原生多模態(tài)能力，在CCBench、OCRBench、MMMU、MathVista等主流基準測試中，大幅度超過了OpenAI發(fā)布的GPT-4o。

X1的深度思考能力則應(yīng)用了基于思維鏈和行動鏈的端到端訓(xùn)練，將輸入直接映射到輸出的訓(xùn)練方式，避免了傳統(tǒng)多階段訓(xùn)練中可能出現(xiàn)的信息丟失和誤差累積問題。

在深度搜索場景中，模型不僅需要考慮搜索結(jié)果的相關(guān)性，還需要理解用戶的搜索意圖，通過思維鏈的構(gòu)建，將用戶的意圖分解為一系列的邏輯步驟，然后通過行動鏈將這些步驟轉(zhuǎn)化為具體的搜索行為。

例如，當用戶輸入一個復(fù)雜的查詢請求時，模型首先通過思維鏈理解用戶可能需要的信息類型、范圍和優(yōu)先級，然后通過行動鏈調(diào)用不同的搜索工具或算法，逐步細化搜索結(jié)果，最終提供最符合用戶需求的答案。這種端到端的訓(xùn)練方式能夠根據(jù)最終的結(jié)果反饋，直接調(diào)整模型的參數(shù)，從而顯著提升訓(xùn)練效果。

百度表示，未來會開源文心4.5大模型。

本文素材來源百度、文心一言，如有侵權(quán)請聯(lián)系刪除

繼續(xù)閱讀：