隨著ChatGPT等生成式AI產品朝著多模態發展,基礎模型的參數越來越高,想進行權重調優需要耗費大量時間和AI算力。
為了提升模型的調優效率,華盛頓大學和艾倫AI實驗室的研究人員推出了全新方法——Proxy Tuning(代理調優)。
該調優方法無需接觸模型的內部權重,利用一個小型調整模型和一個未調整的對應模型,通過對比它們的預測結果來引導基礎模型的預測。
再通過解碼時的引導,基礎模型可以朝著調優方向進行微調,同時保留了更大規模預訓練的優勢。
為了驗證代理調優的性能,研究人員對LlAMA-2的13B、70B原始模型進行了微調。結果顯示,這兩個模型分別接近對應的Chat模型的91.1%和88.1%的性能。
此外,在知識量大的TruthfulQA數據集測試中,代理調優的真實性比直接調優的模型還高,說明在解碼時更好地保留了訓練知識。
論文地址:https://arxiv.org/abs/2401.08565
代理調優的核心技術思想是,先調優一個小的語言模型,然后用這個小型調優模型指導大型黑箱語言模型,使其具備像調優后的模型一樣行為、功能。
但不需要訪問其內部權重,只需要其在輸出詞表上的預測分布。有趣的是,該技術與大模型中的“蒸餾”技術恰恰相反。
代理調優的技術方法
首先,我們需要準備一個小型的預訓練語言模型M-,該模型與基礎模型M共享相同的詞匯表。M-可以是一個現成的模型,也可以是通過較小規模的預訓練得到的模型。
接下來,我們使用訓練數據對M-進行調優,得到一個調優后的模型M+。調優可以使用各種技術,例如,有監督的微調或領域自適應方法,具體取決于任務的需求。
詳細解碼流程
在解碼時,對于給定的輸入,我們通過對基礎模型M的輸出預測分布和調優模型M+的輸出預測分布之間的差異進行操作,來引導基礎模型的預測。
使用基礎模型M對輸入進行解碼,得到基礎模型的預測結果。這可以通過生成模型的輸出概率分布來實現,通常使用一種解碼算法,例如,貪婪搜索或束搜索來生成最優的輸出序列。
然后,使用調優模型M+對相同的輸入進行解碼,得到調優模型的預測結果。
接下來,計算基礎模型的預測結果與調優模型的預測結果之間的差異。可以使用KL散度或交叉熵方法,來度量兩個預測分布之間的差異。
最后,將預測差異應用于基礎模型的預測結果,以引導基礎模型的預測朝向調優模型的預測方向移動。同時可以將預測差異添加到基礎模型的預測分布中,以調整每個詞的概率值。
本文素材來源Proxy Tuning論文,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 更高效的大模型調優方法,華盛頓大學推出“代理調優”
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國