極大提升GPT-4等模型推理效率,微軟、清華開源全新框架

      后臺-系統設置-擴展變量-手機廣告位-內容正文頂部

      隨著用戶需求的增多,GPT-4、Claude等模型在文本生成、理解、總結等方面的能力越來越優秀。但推理的效率并不高,因為,多數主流模型采用的是“順序生成詞”方法,會導致GPU利用率很低并帶來高延遲。

      為了解決這一難題,清華和微軟研究院開發了一種SoT(Skeleton-of-Thought,思維骨架)框架并開源了項目。SoT首先引導大語言模型生成答案的骨架,然后使用并行API調用或批量解碼來完成內容每個骨架點的填充,可極大提升模型的推理效率

      為了驗證SoT的效果,研究人員在Vicuna-80和WizardLM兩個對話數據集上測試了12個模型,包括GPT-4、LLaMA、Claude等。

      數據顯示,在SoT的幫助下,大多數模型的推理延遲減少了1.5—2.4倍。例如,在Vicuna-80數據集上,使LLaMA的33B參數量模型的推理延遲從43秒降低到16秒。除了效率的提升,研究人員發現,SoT可以提高模型的回答質量。

      開源地址:https://github.com/imagination-research/sot/

      論文地址:https://arxiv.org/abs/2307.15337


       

      SoT的最大創新點在于,采用了一種擬人化的思考方式。通常,人類在回答某個問題時,會先根據某些原則和策略擬定思路框架,然后再擴充每個要點的細節。

      例如,我們在制定公司發展戰略時,會先制定一個大的框架然后分模塊具體去執行。

      這種方法比一步一步的順序生成方法高效的多。所以,SoT的技術架構也并不復雜主要由骨架生成和內容填充兩大部分組成。


       

      骨架生成

      該模塊就是直接生成內容的整體架構。骨架生成模塊使用了特制的提示模板,指導語言模型直接輸出骨架。

      提示模板明確要求語言模型用1.,2.,3.等序號的形式輸出3-10個要點,每個要點內容保持在3-5個詞的長度。


       

      同時提供了完整的任務描述,確保語言模型理解所要完成的工作,以及部分回答“1.”來讓語言模型遵循正確的格式繼續書寫。

      由于語言模型生成的骨架回復大多符合預期的編號要點格式,因此,可以用正則表達式提取出要點及其內容。

      內容補充

      當模型拿到骨架后,SoT會為每個編號要點并行地生成詳細內容。內容補充也使用特制的提示模板。


       

      提示模板明確要求語言模型只關注擴展指定的要點,并用1-2句很短的話完成擴展。同時提供了原問題、已生成的完整骨架和要擴展的要點序號及內容,確保語言模型理解上下文。

      為了實現推理效率加速,SoT采用了批量解碼或并行API請求,使語言模型并行地擴展多個要點,大大縮短獲取最終回答所需的時間。

      研究人員表示,SoT這種從內容結構優化的方法,將比其他系統底層、架構的方法簡單、高效的多。尤其是隨著內容產出的高速增長,發揮的作用也會越發明顯。

      但SoT也存在一些不足的地方,例如,當邏輯推理需要前后步驟之間的相互依賴時,SoT會自動切換至順序生成模式。

      本文素材來源SoT論文,如有侵權請聯系刪除

      未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 極大提升GPT-4等模型推理效率,微軟、清華開源全新框架

      后臺-系統設置-擴展變量-手機廣告位-內容正文底部
      主站蜘蛛池模板: 镇沅| 山西省| 威海市| 北海市| 稻城县| 任丘市| 泉州市| 连州市| 玉树县| 喀喇| 偏关县| 介休市| 三门县| 五河县| 锦州市| 突泉县| 乌海市| 门头沟区| 宕昌县| 云南省| 烟台市| 德清县| 丰宁| 丰顺县| 滨海县| 延川县| 张家港市| 城口县| 微博| 麻城市| 迭部县| 敦化市| 报价| 武义县| 光山县| 榆林市| 融水| 太原市| 永和县| 柳林县| 张家口市|