比DeepSeek、o1高3倍!首創(chuàng)無(wú)服務(wù)器強(qiáng)化微調(diào),只需十幾個(gè)數(shù)據(jù)點(diǎn),

      后臺(tái)-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文頂部

      今天凌晨,知名大模型訓(xùn)練、開(kāi)發(fā)平臺(tái)Predibase發(fā)布了,首個(gè)端到端強(qiáng)化微調(diào)平臺(tái)(RFT)。

      與傳統(tǒng)的監(jiān)督式微調(diào)相比,RFT不依賴(lài)大量的標(biāo)注數(shù)據(jù),而是通過(guò)獎(jiǎng)勵(lì)和自定義函數(shù)來(lái)完成持續(xù)的強(qiáng)化學(xué)習(xí),同時(shí)支持無(wú)服務(wù)器和端到端訓(xùn)練方法,從數(shù)據(jù)管理、訓(xùn)練模型到應(yīng)用部署可以在同一個(gè)平臺(tái)全部完成。

      也就是說(shuō),你只需要一個(gè)瀏覽器,設(shè)定微調(diào)目標(biāo)、上傳數(shù)據(jù)、就能完成以前非常復(fù)雜的大模型微調(diào)流程。


       

      在線體驗(yàn)地址:https://predibase.com/reinforcement-fine-tuning-playground

      為了展示RFT強(qiáng)大功能,Predibase根據(jù)阿里開(kāi)源的Qwen2.5-Coder-32B-instruct,微調(diào)了一個(gè)專(zhuān)門(mén)用于將PyTorch代碼翻譯為T(mén)riton的模型。

      這是一個(gè)大多數(shù)LLM都難以完成的任務(wù),需要對(duì)兩個(gè)框架都有深入的理解,并且需要復(fù)雜的推理能力來(lái)考慮計(jì)算效率,并且Qwen2.5-Coder-32B-instruct在微調(diào)之前準(zhǔn)確率比較低。

      通過(guò)RFT,Predibase在訓(xùn)練過(guò)程結(jié)合了冷啟動(dòng)監(jiān)督式微調(diào)、強(qiáng)化學(xué)習(xí)和課程學(xué)習(xí),并且只使用了十幾個(gè)標(biāo)記數(shù)據(jù)點(diǎn)。

      在Kernelbench數(shù)據(jù)集上進(jìn)行的基準(zhǔn)測(cè)試顯示,Qwen2.5-Coder-32B-instruct經(jīng)過(guò)強(qiáng)化后,其正確率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上,而模型的體量卻比這三個(gè)小很多。

      目前,Predibase已經(jīng)開(kāi)源了微調(diào)后的Qwen2.5-Coder-32B-instruct模型。


       

       

      開(kāi)源地址:https://huggingface.co/predibase/Predibase-T2T-32B-RFT

      技術(shù)優(yōu)勢(shì)方面,RFT不依賴(lài)大量標(biāo)注數(shù)據(jù),而傳統(tǒng)方法需要海量標(biāo)注數(shù)據(jù)來(lái)指導(dǎo)模型學(xué)習(xí),這些數(shù)據(jù)通常需要人工標(biāo)注,成本高昂且耗時(shí)。RFT則通過(guò)獎(jiǎng)勵(lì)函數(shù)來(lái)引導(dǎo)模型學(xué)習(xí),無(wú)需大量標(biāo)注數(shù)據(jù),獎(jiǎng)勵(lì)函數(shù)可根據(jù)任務(wù)的特定需求評(píng)估模型輸出,來(lái)引導(dǎo)模型的優(yōu)化目標(biāo)。

      RFT的適應(yīng)性與靈活性更強(qiáng)。傳統(tǒng)方法依賴(lài)于標(biāo)注數(shù)據(jù)的質(zhì)量和數(shù)量,若標(biāo)注數(shù)據(jù)有限或不準(zhǔn)確,模型性能會(huì)受限。而RFT允許用戶(hù)根據(jù)具體任務(wù)需求自定義獎(jiǎng)勵(lì)函數(shù),靈活定義模型優(yōu)化目標(biāo)。

      例如在代碼生成任務(wù)中,可定義獎(jiǎng)勵(lì)函數(shù)驗(yàn)證代碼正確性;在問(wèn)答任務(wù)中,可定義獎(jiǎng)勵(lì)函數(shù)評(píng)估答案相關(guān)性和準(zhǔn)確性。


       

      RFT具備持續(xù)改進(jìn)能力。傳統(tǒng)方法通常是一次性過(guò)程,模型訓(xùn)練完成后難以繼續(xù)改進(jìn)。RFT則支持持續(xù)改進(jìn),隨著獎(jiǎng)勵(lì)函數(shù)優(yōu)化和更多反饋數(shù)據(jù)積累,模型能不斷學(xué)習(xí)和改進(jìn),適應(yīng)任務(wù)需求變化。

      在訓(xùn)練與推理效率方面,傳統(tǒng)方法通常需在本地環(huán)境中進(jìn)行,對(duì)硬件資源要求高,且需手動(dòng)管理訓(xùn)練和部署過(guò)程。

      而Predibase提供的RFT平臺(tái)是完全托管的無(wú)服務(wù)器平臺(tái),用戶(hù)無(wú)需管理底層服務(wù)器或基礎(chǔ)設(shè)施,平臺(tái)自動(dòng)處理訓(xùn)練、部署和推理全過(guò)程,大大降低了開(kāi)發(fā)和運(yùn)維復(fù)雜性。此外,RFT利用多LoRA框架和流式微批處理技術(shù),實(shí)現(xiàn)了高效的訓(xùn)練和推理。


       

      RFT還支持復(fù)雜任務(wù)的課程學(xué)習(xí)。傳統(tǒng)方法在處理復(fù)雜任務(wù)時(shí),通常需大量標(biāo)注數(shù)據(jù)覆蓋各種情況,否則模型難以學(xué)習(xí)到有效策略。RFT則支持課程學(xué)習(xí),即從簡(jiǎn)單到復(fù)雜逐步訓(xùn)練模型,使其能處理更復(fù)雜任務(wù),這在需要深度推理的任務(wù)中特別有效。

      在模型部署方面,傳統(tǒng)方法部署模型通常需額外工具和配置,且難以保證高性能。Predibase的推理引擎原生支持RFT訓(xùn)練的模型,并提供高性能的無(wú)服務(wù)器部署解決方案,用戶(hù)可將訓(xùn)練好的模型快速部署到生產(chǎn)環(huán)境中,并獲得行業(yè)級(jí)服務(wù)水平支持。

      RFT還具備更好的泛化能力。傳統(tǒng)方法可能會(huì)導(dǎo)致模型過(guò)度擬合標(biāo)注數(shù)據(jù),從而在未見(jiàn)過(guò)的數(shù)據(jù)上表現(xiàn)不佳。RFT通過(guò)獎(jiǎng)勵(lì)函數(shù)引導(dǎo)模型學(xué)習(xí),使模型能更好地泛化到未見(jiàn)過(guò)的數(shù)據(jù)上,提升其在實(shí)際應(yīng)用中的魯棒性。


       

      Predibase表示,DeepSeek在開(kāi)源R1之后,在全球AI領(lǐng)域產(chǎn)生了巨大影響,讓很多人意識(shí)到強(qiáng)化學(xué)習(xí)微調(diào)對(duì)訓(xùn)練大模型的重要性。受此啟發(fā),他們開(kāi)發(fā)了這個(gè)端到端無(wú)服務(wù)器強(qiáng)化微調(diào)平臺(tái)。

      本文素材來(lái)源Predibase,如有侵權(quán)請(qǐng)聯(lián)系刪除

      未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 比DeepSeek、o1高3倍!首創(chuàng)無(wú)服務(wù)器強(qiáng)化微調(diào),只需十幾個(gè)數(shù)據(jù)點(diǎn),

      后臺(tái)-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文底部
      主站蜘蛛池模板: 浮山县| 吉木萨尔县| 鄱阳县| 临潭县| 余姚市| 阿拉尔市| 韶山市| 岗巴县| 聊城市| 江川县| 迁安市| 天等县| 察雅县| 江达县| 横山县| 弥勒县| 雅江县| 东明县| 武宁县| 福安市| 阿拉善左旗| 泌阳县| 昌平区| 巴塘县| 明溪县| 林芝县| 十堰市| 湟源县| 平原县| 梁河县| 长岛县| 禄丰县| 化德县| 和平县| 平邑县| 凤凰县| 凤翔县| 都兰县| 福安市| 揭西县| 普洱|