3月29日,知名AI研究實(shí)驗(yàn)室AI21在官網(wǎng)開源了,首個(gè)基于SSM-Transformer混合架構(gòu)的商業(yè)大模型——Jamba。
目前,ChatGPT、Stable Difusion 、Lyria等產(chǎn)品使用的皆是Transformer架構(gòu),雖然在捕捉序列內(nèi)長距離依賴關(guān)系、泛化能力、特征提取等方面非常優(yōu)秀,但在處理長序列、訓(xùn)練大參數(shù)模型時(shí)存在AI算力消耗大、過擬合、內(nèi)存占用大等缺點(diǎn)。
Jamba則是在傳統(tǒng)的Transformer架構(gòu)之上,加入了結(jié)構(gòu)化狀態(tài)空間模型(SSM) 技術(shù),結(jié)合二者的優(yōu)點(diǎn)來極大提升其性能。例如,Jamba的吞吐量是同類知名開源模型Mixtral 8x7B的3倍;也是同類模型中極少數(shù)能在單個(gè)GPU上容納高達(dá)140K上下文的模型。
這也就是說,那些沒有龐大GPU集群的小企業(yè)和個(gè)人開發(fā)者,通過Jamba也能開發(fā)出高性能、低消耗的生成式AI產(chǎn)品。
huggingface地址:https://huggingface.co/ai21labs/Jamba-v0.1
也可通過英偉達(dá)平臺使用:https://developer.nvidia.com/blog/nvidia-nim-offers-optimized-inference-microservices-for-deploying-ai-models-at-scale/
Jamba架構(gòu)簡單介紹
Jamba加入的SSM技術(shù)是借鑒了2023年12月1日,由卡內(nèi)基梅隆大學(xué)Albert Gu和普林斯頓大學(xué)Tri Dao提出的論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》。
論文地址:https://arxiv.org/abs/2312.00752
Mamba的核心技術(shù)是使用“選擇性狀態(tài)空間”來進(jìn)行序列推理,我們可以把狀態(tài)空間看作是一個(gè)庫房。
在建模過程中,Mamba可以根據(jù)用戶輸入的具體情況,有選擇性地去庫房里拿東西或者忽略,這種靈活性使得它能夠更好地處理離散型數(shù)據(jù)。
例如,Mamba可以根據(jù)當(dāng)前的文本輸入數(shù)據(jù),有選擇地過濾掉不相關(guān)的信息,并且能夠長時(shí)間地記住與當(dāng)前任務(wù)相關(guān)的信息。
與傳統(tǒng)的序列模型不同的是,Mamba不需要使用復(fù)雜的自注意力機(jī)制或者M(jìn)LP塊(多層感知器)。主要通過選擇性狀態(tài)空間和MLP塊的協(xié)同工作,實(shí)現(xiàn)了高效的推理過程,并且在處理長序列數(shù)據(jù)時(shí)非常高效,可以輕松處理100萬tokens數(shù)據(jù)。
但引入選擇性機(jī)制后,狀態(tài)空間模型不再滿足時(shí)間不變性,所以,無法直接用高效的卷積來計(jì)算,Mamba設(shè)計(jì)了一種“硬件并行算法”。
該掃描算法使用了GPU并行加速,充分利用了GPU內(nèi)存層次結(jié)構(gòu),控制狀態(tài)張量的具體化過程,只在更高帶寬的內(nèi)存層(如SMX寄存器)上暫存狀態(tài),避免了低效的全局內(nèi)存訪問。這使得模型可以更好地利用GPU效率,不會出現(xiàn)浪費(fèi)的情況。
Jamba則在Mamba的基礎(chǔ)之上進(jìn)行了創(chuàng)新,采用了分塊分層的方法成功融合了SSM和Transformer架構(gòu):每個(gè)Jamba 模塊都包含一個(gè)注意力層或一個(gè) Mamba 層,然后是一個(gè)多層感知器,總體比例為每八個(gè)層中有一個(gè) Transformer 層。
這樣可以在保持模型推理性能的前提下,極大的降低了AI算力同時(shí)提升吞吐量。例如,與同類的開源模型Mixtral 8x7B相比,Jamba的吞吐量是其3倍。
此外,Jamba還是一個(gè)專家混合模型(MoE),520億參數(shù)中的120億參數(shù)長期處于激活狀態(tài),并對所有MoE層的專家進(jìn)行了大幅度優(yōu)化,減輕了推理時(shí)內(nèi)存占用大的問題。
AI21介紹
公開資料顯示,AI21 Labs創(chuàng)立于2017年,總部位于特拉維夫和紐約。由Yoav Shoham、Ori Goshen和Amnon Shashua三人聯(lián)合創(chuàng)立。其中Yoav是一位連續(xù)創(chuàng)業(yè)者,曾將兩家企業(yè)出售給谷歌并擔(dān)任斯坦福大學(xué)名譽(yù)教授;
Ori是希伯來大學(xué)的副教授,曾參與多個(gè)NLP項(xiàng)目并發(fā)表了幾十篇學(xué)術(shù)論文;Amnon是希伯來大學(xué)的教授,同時(shí)是知名自動駕駛公司Mobileye的聯(lián)合創(chuàng)始人兼CEO。
僅2023年,AI21一共融資了2.08億美元,目前總?cè)谫Y額度3.26億美元。
產(chǎn)品方面,AI21 Labs在2023年3月推出了大語言模型Jurassic-2,包含Large、Grande和Jumbo三種模型。
Jurassic-2除了在文本生成、API延遲、語言支持等全面增強(qiáng)之外,還開放了指令微調(diào)、數(shù)據(jù)微調(diào),幫助企業(yè)、個(gè)人開發(fā)者打造量身定制的ChatGPT助手。
Jurassic-2特定微調(diào)的類型共包括語義搜索,了解查詢的意圖和上下文含義,并從文檔中檢索相關(guān)的文本片段;上下文問答,僅根據(jù)特定上下文提供答案,也可以從文檔庫中自動檢索等。
目前,耐克、Zoom、沃爾瑪、三星、阿迪達(dá)斯、airbnb等知名企業(yè)在使用AI21的大模型產(chǎn)品。
本文素材來源Jamba官網(wǎng),如有侵權(quán)請聯(lián)系刪除
未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動力 | RPA新聞 | 推動中國RPA生態(tài)發(fā)展 | 流 > 首個(gè)基于SSM-Transformer混合架構(gòu),開源商業(yè)大模型Jamba
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發(fā)者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國產(chǎn)業(yè)智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國