国产日韩精品在线,欧美精品乱码久久久久久按摩,怡红院成人在线

日內(nèi)瓦大學(xué)、微軟研究院和愛丁堡大學(xué)的研究人員聯(lián)合開源了，基于擴(kuò)散模型的世界模型—DIAMOND。

研究人員之所以選擇擴(kuò)散模型作為基礎(chǔ)，是因?yàn)榭梢愿玫夭蹲揭曈X細(xì)節(jié)，同時(shí)具有建模復(fù)雜多模態(tài)分布的能力，以便在不同的環(huán)境下進(jìn)行訓(xùn)練和細(xì)致的行為觀察。

DIAMOND主要用于智能體訓(xùn)練、世界建模、多模態(tài)分布建模等多種強(qiáng)化學(xué)習(xí)應(yīng)用。為了評估其性能，研究人員在Atari 100k上進(jìn)行了綜合測試。

結(jié)果顯示，DIAMOND不僅在視覺復(fù)雜度高的環(huán)境中能夠生成連貫且高質(zhì)量的軌跡，還取得了平均為1.46的測試分?jǐn)?shù)，在訓(xùn)練智能體方面非常強(qiáng)。

論文地址：https://arxiv.org/abs/2405.12399

Github地址：https://github.com/eloialonso/diamond

最近幾年，強(qiáng)化學(xué)習(xí)在游戲、機(jī)器人控制和自動(dòng)駕駛等領(lǐng)域得到了應(yīng)用，但其樣本、訓(xùn)練效率低的問題仍是擴(kuò)大應(yīng)用范圍的關(guān)鍵難點(diǎn)。

為了克服這一困難 “世界模型”作為一種輔助工具應(yīng)運(yùn)而生，使智能體能夠在模擬環(huán)境中學(xué)習(xí)規(guī)劃、決策等擬人化思維。

但現(xiàn)有世界模型多依賴于序列化的離散潛變量，來模擬環(huán)境動(dòng)態(tài)，這可能導(dǎo)致視覺細(xì)節(jié)的損失，而這些細(xì)節(jié)對于強(qiáng)化學(xué)習(xí)至關(guān)重要。所以，DIAMOND使用了一種基于擴(kuò)散模型的創(chuàng)新架構(gòu)，可以捕捉更豐富的視覺信息。

擴(kuò)散模型

擴(kuò)散模型是DIAMOND的核心模塊，主要通過逆向?qū)W習(xí)噪聲過程來生成高質(zhì)量的視覺數(shù)據(jù)。這種模型與傳統(tǒng)的基于離散潛在變量的方法有顯著不同，因?yàn)樗軌蛏筛迂S富和細(xì)致的視覺信息。

擴(kuò)散模型不僅能生成數(shù)據(jù)，還構(gòu)成了世界模型的基礎(chǔ)，負(fù)責(zé)模擬環(huán)境的動(dòng)態(tài)變化。這意味著，給定過去的觀察和動(dòng)作，DIAMOND能夠預(yù)測未來的觀察、獎(jiǎng)勵(lì)和終止?fàn)顟B(tài)。

DIAMOND通過擴(kuò)散模型可以生成連續(xù)的潛在變量序列，這些序列捕捉了環(huán)境狀態(tài)的細(xì)微變化。對于強(qiáng)化學(xué)習(xí)智能體來說至關(guān)重要，因?yàn)樗鼈冃枰獪?zhǔn)確地理解環(huán)境的動(dòng)態(tài)，才能制定有效的策略。

獎(jiǎng)勵(lì)模型

在強(qiáng)化學(xué)習(xí)中，智能體的行為是由環(huán)境提供的獎(jiǎng)勵(lì)信號來引導(dǎo)的，可預(yù)測智能體在執(zhí)行特定動(dòng)作后所獲得的獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)模型使得智能體能夠評估其行為，并據(jù)此調(diào)整其決策能力。

在DIAMOND中，獎(jiǎng)勵(lì)模型可以采用多種不同的形式，如神經(jīng)網(wǎng)絡(luò)或其他機(jī)器學(xué)習(xí)模型。這些模型通過學(xué)習(xí)大量的交互數(shù)據(jù)，能夠捕捉到觀察和動(dòng)作與獎(jiǎng)勵(lì)之間的復(fù)雜映射關(guān)系。

終止模型

終止模型的作用是可以幫助智能體，識別何時(shí)一個(gè)任務(wù)已經(jīng)完成或需要重新開始。例如，在自動(dòng)駕駛的場景中，智能體需要知道何時(shí)到達(dá)了目的地。

終止模型的工作原理基于對智能體歷史行為和觀察的分析。它通過學(xué)習(xí)智能體與環(huán)境交互的數(shù)據(jù)來預(yù)測，何時(shí)結(jié)束當(dāng)前執(zhí)行的各種事件。