麻省理工學院和香港中文大學聯合發布了LongLoRA,這是一種全新的微調方法,可以增強大語言模型的上下文能力,而無需消耗大量算力資源。
通常,想增加大語言模型的上下文處理能力,需要更多的算力支持。例如,將上下文長度從2048擴展至8192,需要多消耗16倍算力。
LongLoRA在開源模型LLaMA2 7B/13B/70B上進行了試驗,將上下文原始長度擴展至32K、64K、100K,所需要的算力資源卻很少。
開源地址:https://github.com/dvlab-research/LongLoRA
論文地址:https://arxiv.org/abs/2309.12307
LongLoRA的高效微調方法
根據LongLoRA的論文介紹,采用了兩大步驟完成了高效微調。第一,在訓練期間使用一種更簡單的注意力形式(聚焦于特定信息),開發者稱之為轉變短注意力(S2-Attn)。
這種新的注意力方法有助于節省大量的計算能力,而且幾乎與常規的注意力方法一樣有效,在訓練過程中發揮了重要作用。
第二,重新挖掘了一種有效擴大上下文(用于訓練的信息量)的方法。開發人員發現,一種名為LoRA的方法對此非常有效,尤其是當與可訓練的嵌入和規范化一起使用時。
LongLoRA在各種任務上都顯示出了優異的結果,可以與不同大小的LLMs一起使用。它可以將用于訓練的數據量從4k增加到100k,對于另一個模型,可以增加到32k,所有這些都在一臺強大的計算機機器上完成。此外,它與其他現有技術兼容性很強,并不會改變原始模型設計架構。
此外,為了讓 LongLoRA 更加實用、高效,開發者還整理了一個名為 LongQA 的數據集,其中包含 3000 多對用于訓練的問題和答案。這使得 LongLoRA 還能有效改進大語言模型的輸出能力。
研究發現
該研究評估了Proof-pile 和 PG19數據集上的不同模型。研究發現,在訓練過程中,隨著上下文大小的增加,模型的表現更好,顯示了其微調方法的有效性。
簡單來說,使用更多信息進行訓練,將會帶來更好的結果。例如,當上下文窗口大小從 8192 增加到 32768 時,一個模型的困惑度性能從 2.72 提高到 2.50。
該研究還探討了這些模型可以在一臺機器上處理多少上下文。開發人員擴展了模型以處理極長的上下文,并發現模型仍然表現良好,盡管上下文尺寸較小時性能有所下降。
除了語言建模之外,該研究還測試了其他任務,包括在很長的對話中找到特定的主題。開發人員的模型在這項任務中的表現與最先進的模型類似,甚至在某些情況下表現得更好。值得一提的是,與競爭對手相比,開發人員的模型能夠更有效地適應開源數據。
LongLoRA表明,大模型能夠處理的信息越多,理解語言的能力就越強。并且它不僅擅長處理長文本,而且LongLoRA也非常擅長在長對話中找到特定的主題。這表明它可以處理現實世界中復雜而混亂的任務。
但因為加大了上下文窗口,所以LongLoRA在處理較短的文本片段時會有一些問題,這個問題作者還沒有找到原因。
總體來說,LongLoRA 在大型語言模型領域提出了創新方法,在處理大量信息時,也可以更輕松、更高效地微調這些模型,而必須消耗更多的算力資源。
本文素材來源LongLoRA論文,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > LongLoRA:超長上下文,大語言模型高效微調方法
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國