基于擴(kuò)散模型的,開源世界模型DIAMOND

      后臺-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文頂部

      日內(nèi)瓦大學(xué)、微軟研究院和愛丁堡大學(xué)的研究人員聯(lián)合開源了,基于擴(kuò)散模型的世界模型—DIAMOND。

      研究人員之所以選擇擴(kuò)散模型作為基礎(chǔ),是因?yàn)榭梢愿玫夭蹲揭曈X細(xì)節(jié),同時(shí)具有建模復(fù)雜多模態(tài)分布的能力,以便在不同的環(huán)境下進(jìn)行訓(xùn)練和細(xì)致的行為觀察。

      DIAMOND主要用于智能體訓(xùn)練、世界建模、多模態(tài)分布建模等多種強(qiáng)化學(xué)習(xí)應(yīng)用。為了評估其性能,研究人員在Atari 100k上進(jìn)行了綜合測試。

      結(jié)果顯示,DIAMOND不僅在視覺復(fù)雜度高的環(huán)境中能夠生成連貫且高質(zhì)量的軌跡,還取得了平均為1.46的測試分?jǐn)?shù),在訓(xùn)練智能體方面非常強(qiáng)。

      論文地址:https://arxiv.org/abs/2405.12399

      Github地址:https://github.com/eloialonso/diamond


       


       

      最近幾年,強(qiáng)化學(xué)習(xí)在游戲、機(jī)器人控制和自動(dòng)駕駛等領(lǐng)域得到了應(yīng)用,但其樣本、訓(xùn)練效率低的問題仍是擴(kuò)大應(yīng)用范圍的關(guān)鍵難點(diǎn)

      為了克服這一困難 “世界模型”作為一種輔助工具應(yīng)運(yùn)而生,使智能體能夠在模擬環(huán)境中學(xué)習(xí)規(guī)劃、決策等擬人化思維。

      但現(xiàn)有世界模型多依賴于序列化的離散潛變量,來模擬環(huán)境動(dòng)態(tài),這可能導(dǎo)致視覺細(xì)節(jié)的損失,而這些細(xì)節(jié)對于強(qiáng)化學(xué)習(xí)至關(guān)重要。所以,DIAMOND使用了一種基于擴(kuò)散模型的創(chuàng)新架構(gòu),可以捕捉更豐富的視覺信息。

      擴(kuò)散模型

      擴(kuò)散模型是DIAMOND的核心模塊,主要通過逆向?qū)W習(xí)噪聲過程來生成高質(zhì)量的視覺數(shù)據(jù)。這種模型與傳統(tǒng)的基于離散潛在變量的方法有顯著不同,因?yàn)樗軌蛏筛迂S富和細(xì)致的視覺信息。

      擴(kuò)散模型不僅能生成數(shù)據(jù),還構(gòu)成了世界模型的基礎(chǔ),負(fù)責(zé)模擬環(huán)境的動(dòng)態(tài)變化。這意味著,給定過去的觀察和動(dòng)作,DIAMOND能夠預(yù)測未來的觀察、獎(jiǎng)勵(lì)和終止?fàn)顟B(tài)。


       

      DIAMOND通過擴(kuò)散模型可以生成連續(xù)的潛在變量序列,這些序列捕捉了環(huán)境狀態(tài)的細(xì)微變化。對于強(qiáng)化學(xué)習(xí)智能體來說至關(guān)重要,因?yàn)樗鼈冃枰獪?zhǔn)確地理解環(huán)境的動(dòng)態(tài),才能制定有效的策略。

      獎(jiǎng)勵(lì)模型

      在強(qiáng)化學(xué)習(xí)中,智能體的行為是由環(huán)境提供的獎(jiǎng)勵(lì)信號來引導(dǎo)的,可預(yù)測智能體在執(zhí)行特定動(dòng)作后所獲得的獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)模型使得智能體能夠評估其行為,并據(jù)此調(diào)整其決策能力。


       

      在DIAMOND中,獎(jiǎng)勵(lì)模型可以采用多種不同的形式,如神經(jīng)網(wǎng)絡(luò)或其他機(jī)器學(xué)習(xí)模型。這些模型通過學(xué)習(xí)大量的交互數(shù)據(jù),能夠捕捉到觀察和動(dòng)作與獎(jiǎng)勵(lì)之間的復(fù)雜映射關(guān)系。

      終止模型

      終止模型的作用是可以幫助智能體,識別何時(shí)一個(gè)任務(wù)已經(jīng)完成或需要重新開始。例如,在自動(dòng)駕駛的場景中,智能體需要知道何時(shí)到達(dá)了目的地。

      終止模型的工作原理基于對智能體歷史行為和觀察的分析。它通過學(xué)習(xí)智能體與環(huán)境交互的數(shù)據(jù)來預(yù)測,何時(shí)結(jié)束當(dāng)前執(zhí)行的各種事件。


       

      終止模型通常采用機(jī)器學(xué)習(xí)算法來實(shí)現(xiàn),如決策樹、邏輯回歸或神經(jīng)網(wǎng)絡(luò)等。這些算法能夠從歷史數(shù)據(jù)中學(xué)習(xí)事件結(jié)束的模式,并據(jù)此進(jìn)行預(yù)測。

      例如,在一個(gè)游戲場景中,智能體需要再失去所有生命時(shí)來預(yù)測結(jié)束。而終止模型便能夠識別導(dǎo)致游戲結(jié)束的行為和狀態(tài),并預(yù)測未來可能出現(xiàn)的類似情況。

      本文素材來源DIAMOND論文,如有侵權(quán)請聯(lián)系刪除

      未經(jīng)允許不得轉(zhuǎn)載:RPA中國 | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國RPA生態(tài)發(fā)展 | 流 > 基于擴(kuò)散模型的,開源世界模型DIAMOND

      后臺-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文底部
      主站蜘蛛池模板: 遂昌县| 界首市| 连城县| 沽源县| 宜兰县| 北流市| 青龙| 淮滨县| 团风县| 黑水县| 太谷县| 突泉县| 玉林市| 扶沟县| 济南市| 公安县| 建湖县| 呼玛县| 文化| 富蕴县| 高要市| 宝清县| 图片| 常德市| 安泽县| 丁青县| 临清市| 绥中县| 五指山市| 白山市| 盈江县| 江都市| 雷州市| 舟曲县| 灵璧县| 浠水县| 巴塘县| 玉溪市| 商洛市| 巴楚县| 吉隆县|