能做鬼臉、搖滾、自拍,聽(tīng)懂你說(shuō)的話!GPT-4驅(qū)動(dòng)的實(shí)體機(jī)器人

      后臺(tái)-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文頂部

      東京大學(xué)的研究人員將GPT-4模型,集成在實(shí)體機(jī)器人Alter3中,可將文本、語(yǔ)言直接轉(zhuǎn)化成機(jī)器人動(dòng)作,例如,做一個(gè)自拍動(dòng)作;裝一個(gè)“鬼樣”;做一個(gè)搖滾音樂(lè)動(dòng)作等,就連微笑、眨眼這樣的面部表情動(dòng)作也沒(méi)問(wèn)題

      在GPT-4的幫助下,Alter3建立了語(yǔ)言反饋系統(tǒng),可通過(guò)語(yǔ)言指令優(yōu)化機(jī)器人的運(yùn)動(dòng),而無(wú)需修改任何代碼,在傳統(tǒng)機(jī)器人領(lǐng)域是很難做不到。

      Alter3接到指令后,做了一個(gè)搖滾動(dòng)作

      也就是說(shuō),Alter3突破了傳統(tǒng)的硬件編碼限制,可以實(shí)現(xiàn)知識(shí)存儲(chǔ)、動(dòng)作優(yōu)化和0樣本學(xué)習(xí)等。在不需要為機(jī)器人的每個(gè)身體部位進(jìn)行編程的情況下,可自動(dòng)生成新的動(dòng)作序列,完成自我迭代。

      簡(jiǎn)單來(lái)說(shuō),可以把GPT-4看成是Alter3的“大腦”。大語(yǔ)言模型的海量知識(shí)的能力可以使Alter3,完成很多之前需要特定代碼才能完成的動(dòng)作。怎么感覺(jué)有點(diǎn)像施瓦辛格的“終結(jié)者”呢?

      論文地址:https://arxiv.org/abs/2312.06571


       

      Alter3在裝一個(gè)“鬼樣”

      Alter3簡(jiǎn)單介紹

      Alter3是Alter系列的第3代實(shí)體機(jī)器人,整體結(jié)構(gòu)采用前后分離式設(shè)計(jì)。主控制部分包含43個(gè)微調(diào)關(guān)節(jié)和馬達(dá),可實(shí)現(xiàn)細(xì)膩流暢的各部位動(dòng)作控制。

      Alter3采用了空氣驅(qū)動(dòng)技術(shù)來(lái)控制每個(gè)關(guān)節(jié)來(lái)執(zhí)行指定運(yùn)動(dòng),刷新率為100—150毫秒

      相比電動(dòng)馬達(dá),空氣驅(qū)動(dòng)能保證動(dòng)作流暢平穩(wěn),響應(yīng)更快速。同時(shí)也提高了可靠性和維修保養(yǎng)便利性。例如,當(dāng)馬達(dá)出問(wèn)題時(shí),只需更換單獨(dú)部件而不影響整體性能。


       

      表情部分對(duì)應(yīng)人臉部位,包括眼睛、眉毛、嘴巴等,也由馬達(dá)驅(qū)動(dòng)實(shí)現(xiàn)豐富的面部表情變化。面部組件可以單獨(dú)拆裝,實(shí)現(xiàn)靈活配置。


       

      Alter3視覺(jué)系統(tǒng)采用4個(gè)高清攝像頭,分別安裝在頭部?jī)蓚?cè)和眼部?jī)?nèi)部。頭部攝像頭主要用于人體姿態(tài)跟蹤和面部識(shí)別分析等任務(wù)。

      Alter3在自拍

      眼部?jī)?nèi)置攝像頭可以模擬眼神等動(dòng)作,為Alter3提供了與人類視覺(jué)系統(tǒng)等效的感知能力。

      GPT-4在Alter3的作用

      Alter3通過(guò)與GPT-4語(yǔ)言模型的結(jié)合,能夠根據(jù)給定的文本描述自主生成動(dòng)作,同時(shí)GPT-4承擔(dān)了動(dòng)作描述生成和代碼映射轉(zhuǎn)換兩大重要功能

      在第一階段, GPT-4能夠根據(jù)簡(jiǎn)短的語(yǔ)言提示,產(chǎn)生豐富生動(dòng)的動(dòng)作描述:

      1)GPT-4會(huì)描述出各種面部表情和身體語(yǔ)言;2)各動(dòng)作應(yīng)獨(dú)立成段,流暢連貫;3)根據(jù)人體關(guān)節(jié)可行性給出具體的執(zhí)行細(xì)節(jié)。

      GPT-4可以生成動(dòng)作細(xì)節(jié)和豐富的情感表達(dá),為下一步代碼轉(zhuǎn)化提供了重要基礎(chǔ)。


       

      在第二階段,GPT-4會(huì)將提示文本語(yǔ)言轉(zhuǎn)換為,控制Alter3機(jī)器人實(shí)際動(dòng)作的Python代碼

      GPT-4采用類似寫論文的結(jié)構(gòu)性表達(dá),首先導(dǎo)入Alter3模塊,然后針對(duì)每個(gè)動(dòng)作描述一步一步寫出設(shè)置各關(guān)節(jié)值的Python代碼。

      例如,軸1值設(shè)為255,表示憤怒表情等。Alter3接收到轉(zhuǎn)換后的代碼后,可以執(zhí)行具體的動(dòng)作。


       

      簡(jiǎn)單來(lái)說(shuō),Alter3借助了GPT-4強(qiáng)大的編程、轉(zhuǎn)換、理解、存儲(chǔ)等智能化能力,極大節(jié)省了開(kāi)發(fā)時(shí)間和成本,同時(shí)將這些能力注入到Alter3中。

      為了測(cè)試GPT-4在Alter3上發(fā)揮的能力,研究人員對(duì)9個(gè)不同機(jī)器人動(dòng)作的視頻進(jìn)行了評(píng)估,每個(gè)視頻由100多名參與者按5分制給出評(píng)分。


       

      結(jié)果顯示,GPT-4生成的動(dòng)作視頻評(píng)分,顯著高于原生動(dòng)作視頻,這說(shuō)明GPT-4生成的動(dòng)作能真實(shí)還原人體動(dòng)作細(xì)節(jié)。


       

      此外,研究人員通過(guò)反饋強(qiáng)化對(duì)Alter3生成的動(dòng)作進(jìn)行微調(diào),達(dá)到了更流暢的效果。

      同時(shí),研究人員采取了模擬社會(huì)大腦理論中的多個(gè)代理人模式,讓Alter3與6種不同人格進(jìn)行對(duì)話,以增強(qiáng)其與人交流能力。

      本文素材來(lái)源Alter3論文,如有侵權(quán)請(qǐng)聯(lián)系刪除

      未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 能做鬼臉、搖滾、自拍,聽(tīng)懂你說(shuō)的話!GPT-4驅(qū)動(dòng)的實(shí)體機(jī)器人

      后臺(tái)-系統(tǒng)設(shè)置-擴(kuò)展變量-手機(jī)廣告位-內(nèi)容正文底部
      主站蜘蛛池模板: 遂昌县| 靖江市| 南汇区| 绥阳县| 防城港市| 沂南县| 阿巴嘎旗| 股票| 厦门市| 越西县| 梁河县| 盐池县| 镇沅| 晋中市| 体育| 渝北区| 疏附县| 定西市| 潞西市| 灵宝市| 射阳县| 南开区| 兰考县| 乐平市| 汾西县| 自治县| 乐山市| 安徽省| 定日县| 巴彦淖尔市| 台中县| 内黄县| 惠来县| 娱乐| 河曲县| 辽阳县| 荆州市| 芦山县| 石门县| 綦江县| 资中县|