隨著用戶需求的增多,GPT-4、Claude等模型在文本生成、理解、總結等方面的能力越來越優秀。但推理的效率并不高,因為,多數主流模型采用的是“順序生成詞”方法,會導致GPU利用率很低并帶來高延遲。
為了解決這一難題,清華和微軟研究院開發了一種SoT(Skeleton-of-Thought,思維骨架)框架并開源了項目。SoT首先引導大語言模型生成答案的骨架,然后使用并行API調用或批量解碼來完成內容每個骨架點的填充,可極大提升模型的推理效率。
為了驗證SoT的效果,研究人員在Vicuna-80和WizardLM兩個對話數據集上測試了12個模型,包括GPT-4、LLaMA、Claude等。
數據顯示,在SoT的幫助下,大多數模型的推理延遲減少了1.5—2.4倍。例如,在Vicuna-80數據集上,使LLaMA的33B參數量模型的推理延遲從43秒降低到16秒。除了效率的提升,研究人員發現,SoT可以提高模型的回答質量。
開源地址:https://github.com/imagination-research/sot/
論文地址:https://arxiv.org/abs/2307.15337
SoT的最大創新點在于,采用了一種擬人化的思考方式。通常,人類在回答某個問題時,會先根據某些原則和策略擬定思路框架,然后再擴充每個要點的細節。
例如,我們在制定公司發展戰略時,會先制定一個大的框架然后分模塊具體去執行。
這種方法比一步一步的順序生成方法高效的多。所以,SoT的技術架構也并不復雜主要由骨架生成和內容填充兩大部分組成。
骨架生成
該模塊就是直接生成內容的整體架構。骨架生成模塊使用了特制的提示模板,指導語言模型直接輸出骨架。
提示模板明確要求語言模型用1.,2.,3.等序號的形式輸出3-10個要點,每個要點內容保持在3-5個詞的長度。
同時提供了完整的任務描述,確保語言模型理解所要完成的工作,以及部分回答“1.”來讓語言模型遵循正確的格式繼續書寫。
由于語言模型生成的骨架回復大多符合預期的編號要點格式,因此,可以用正則表達式提取出要點及其內容。
內容補充
當模型拿到骨架后,SoT會為每個編號要點并行地生成詳細內容。內容補充也使用特制的提示模板。
提示模板明確要求語言模型只關注擴展指定的要點,并用1-2句很短的話完成擴展。同時提供了原問題、已生成的完整骨架和要擴展的要點序號及內容,確保語言模型理解上下文。
為了實現推理效率加速,SoT采用了批量解碼或并行API請求,使語言模型并行地擴展多個要點,大大縮短獲取最終回答所需的時間。
研究人員表示,SoT這種從內容結構優化的方法,將比其他系統底層、架構的方法簡單、高效的多。尤其是隨著內容產出的高速增長,發揮的作用也會越發明顯。
但SoT也存在一些不足的地方,例如,當邏輯推理需要前后步驟之間的相互依賴時,SoT會自動切換至順序生成模式。
本文素材來源SoT論文,如有侵權請聯系刪除
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 極大提升GPT-4等模型推理效率,微軟、清華開源全新框架
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國