人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

耗時2年,Meta聯(lián)手CMU打造最強”通用機器人智能體“!

爆火的大模型,正在重塑「通用機器人智能體」的研究。


(資料圖片)

前段時間,谷歌DeepMind推出了耗時7個月打造的項目RT-2,能數(shù)學推理、辨認明星,在網(wǎng)上爆火了一把。

除了谷歌,來自Meta、CMU的研究人員用了2年的時間,打造出史上最強的通用機器人智能體「RoboAgent」。

不同的是,RoboAgent,僅在7500個軌跡上完成了訓練。

具體來說,RoboAgent在38個任務(wù)中,實現(xiàn)了12種不同的復雜技能,烘培、拾取物品、上茶、清潔廚房等等。

甚至,它的能力還能夠泛化到100種未知的場景中。

可以說,上得了廳堂,下得了廚房。

有趣的是,不論你怎么干擾它,RoboAgent依舊設(shè)法去完成任務(wù)。

RoboAgent究竟還能做什么?

烘焙、上茶、擦桌子全能手

首先,RoboAgent可以很流暢地拉開或關(guān)上抽屜。


雖然在打開時險些碰倒了酸奶,但動作的銜接上基本沒有卡頓,絲滑地完成了推拉的動作。

除了抽屜,RoboAgent還能輕松打開或關(guān)上微波爐的門。

但它沒有像人類一樣抓握把手,而是將自己卡進了把手與門之間的空隙中,再使力開合了微波爐的門。

同樣地,面對瓶瓶罐罐上的蓋子,RoboAgent也能精準拿捏,打開、蓋上——絕不拖泥帶水。

然而在廚房中,除了蓋著的調(diào)料罐,也有一些需要擰開的罐子,比如料酒和老干媽等等....

好在,對于各種拾取和放置類任務(wù),RoboAgent基本是不在話下的。

視頻中,RoboAgent從抽屜里拿出東西、又或是把茶包放進杯子里,打開微波爐將碗放進去等。展示的便是RoboAgent能夠理解泡茶、加熱食物等任務(wù)中包含的一系列動作。

對以上九個動作進行排列組合,基本就可以覆蓋在廚房中一系列任務(wù)。

例如為烘焙做準備、打掃廚房、上菜湯、泡茶、收納餐具等。

為烘焙做準備時,首先要拉開抽屜,然后找到放在里面的黃油。找到后把黃油放到案板上,最后關(guān)上抽屜。

看起來RoboAgent這一系列動作的前后邏輯順序已經(jīng)和真實的生活場景十分接近了。

但RoboAgent依舊不像人類一樣靈活,先不提人類有兩只手,可以一只手拿黃油,另一只手關(guān)抽屜。就算只用一只手,人類也可以拿著黃油的同時側(cè)手把抽屜推回去。而RoboAgent只能先把黃油放下,然后才去關(guān)抽屜。

看起來沒有那么靈活的樣子。

打掃廚房時,RoboAgent也是四步走:

先關(guān)上抽屜,再關(guān)上微波爐。然后從旁邊拿出一個毛巾,最后擦案板。

上菜湯時,RoboAgent先打開微波爐,然后從微波爐里拿出放在里面的碗。之后把碗放在桌子上,最后把微波爐關(guān)上。

但這里RoboAgent的表現(xiàn)就沒有那么讓人放心了。

只能說還好演示視頻中的碗是空的,如果真讓RoboAgent這樣在現(xiàn)實中拿裝了食物的碗盆,估計它剛拿起來食物就灑地到處都是了。

不過,RoboAgent對泡茶倒是得心應(yīng)手:

先取開茶罐上的蓋子,從里面拿出茶包,然后把茶包精準降落在杯子里,最后撿起蓋子放回到罐子上。

但這離完美的一杯茶還差了一步:倒水。還是說RoboAgent是在請我們喝有茶香的空氣嗎?

縱觀上述RoboAgent的表現(xiàn),雖然大部分任務(wù)都能順利完成,但只有一只手還是太不方便了。

希望Meta和CMU能多給RoboAgent安幾只手,這樣它就能同時干好幾件事,大大提高效率。

耗時2年,打造「通用機器人智能體」

Meta和CMU的研究人員希望,RoboAgent能夠成為一個真正的通用機器人智能體。

歷時2年,他們在不斷推進這一項目的前進。RoboAgent是多向研究的集合體,同時也是未來更多研究方向的起點。

在「通用機器人智能體」發(fā)展過程中,研究人員深受許多最近可泛化的機器人學習項目的啟發(fā)。

當前,在邁向通用機器人智能體路上,需要解決兩大難題。

一是,因果兩難。

幾十年來,擁有一個能夠在不同環(huán)境中操縱任意物體的機器人一直是一個遙不可及的宏偉目標。部分原因是缺乏數(shù)據(jù)集來訓練這種智能體,同時也缺乏能夠生成此類數(shù)據(jù)的通用智能體。

二是,擺脫惡性循環(huán)。

為了擺脫這種惡性循環(huán),研究重點是開發(fā)一種有效的范式。

它可以提供一個通用智能體,能夠在實際的數(shù)據(jù)預算下獲得多種技能,并將其推廣到各種未知的情況中。

論文地址:https://robopen.github.io/media/roboagent.pdf

根據(jù)介紹,RoboAgent建立在以下模塊化和可補償?shù)囊刂希?/p>

- RoboPen

利用商品硬件構(gòu)建的分布式機器人基礎(chǔ)設(shè)施,能夠長期不間斷運行。

- RoboHive

跨仿真和現(xiàn)實世界操作的機器人學習統(tǒng)一框架。

- RoboSet
一個高質(zhì)量的數(shù)據(jù)集,代表不同場景中日常對象的多種技能。

- MT-ACT

一種高效的語言條件多任務(wù)離線模仿學習框架。它通過在現(xiàn)有機器人經(jīng)驗的基礎(chǔ)上創(chuàng)建一個多樣化的語義增強集合來倍增離線數(shù)據(jù)集,并采用一種具有高效動作表示法的新型策略架構(gòu),以在數(shù)據(jù)預算范圍內(nèi)恢復高性能策略。

動作分塊,全新架構(gòu)MT-ACT

為了學習通用的操作策略,機器人必須接觸豐富多樣的經(jīng)驗,包括各種技能和環(huán)境變化。

然而,收集如此廣泛的數(shù)據(jù)集的操作成本和現(xiàn)實挑戰(zhàn),限制了數(shù)據(jù)集的總體規(guī)模。

研究人員的目標是通過開發(fā)一種范式來解決這些限制,該范式可以在有限的數(shù)據(jù)預算下學習有效的多任務(wù)智能體。

如下圖所示,Meta和CMU團隊提出了MT-ACT,即多任務(wù)動作分塊Transformer(Multi-Task Action Chunking Transformer)。

這一方法由2個階段組成:

第一階段:語義增強

RoboAgent通過創(chuàng)建RoboSet(MT-ACT)數(shù)據(jù)集的語義增強,從現(xiàn)有基礎(chǔ)模型中注入世界先驗。

由此產(chǎn)生的數(shù)據(jù)集,可在不增加人類/機器人成本的情況下,將機器人的經(jīng)驗與世界先驗相乘。

然后,研究人員使用SAM分割目標對象,并將其語義增強為具有形狀、顏色和紋理變化的不同對象。

第二階段:高效的策略表示

生成的數(shù)據(jù)集是多模態(tài)的,包含豐富多樣的技能、任務(wù)和場景。

研究人員將動作分塊適應(yīng)于多任務(wù)設(shè)置,開發(fā)出MT-ACT——一種新穎高效的策略表示,既能攝取高度多模態(tài)的數(shù)據(jù)集,又能在低數(shù)據(jù)預算設(shè)置中避免過度擬合。

如下,是MT-ACT策略的各個組成部分。

RoboSet數(shù)據(jù)集

研究的目標是建立一個數(shù)據(jù)高效的機器人學習范例,對此,研究人員將自己限制在一個凍結(jié)的、預先收集的小型但多樣化的數(shù)據(jù)集上。

為了捕捉行為多樣性,研究人員還在不同的廚房場景中,將不同的技能應(yīng)用到不同的任務(wù)中。

在這個項目中,數(shù)據(jù)集 RoboSet(MT-ACT)由人類遠程操作收集的7500 條軌跡組成。

該數(shù)據(jù)集包含 12 種技能,橫跨多個任務(wù)和場景。

下圖顯示了,數(shù)據(jù)集中技能的分布情況。

雖然常用的「拾取-放置」技能在數(shù)據(jù)集中占40% ,但也包括豐富的接觸技能,如擦拭、蓋帽,以及涉及鉸接物體的技能(翻轉(zhuǎn)-打開、翻轉(zhuǎn)-關(guān)閉)。

研究人員在4個不同的廚房場景實例中收集整個數(shù)據(jù)集,這些場景中包含各種日常物品。

此外,團隊還將每個場景實例與不同變化的物體進行交換,從而讓每個技能接觸到多個目標物體和場景實例。

數(shù)據(jù)增強

由于收集的數(shù)據(jù)集無法滿足對場景和物體多樣性的需求,因此研究人員通過離線添加不同變化的場景來增加數(shù)據(jù)集,同時保留每個軌跡中的操縱行為。

基于最近在分割和局部重繪(inpainting)模型取得的進展,研究人員從互聯(lián)網(wǎng)數(shù)據(jù)中提煉出真實世界的語義先驗,以結(jié)構(gòu)化的方式修改場景。

MT-ACT架構(gòu)

MT-ACT的策略架構(gòu)設(shè)計為一個有足夠容量的Transformer的模型,可以處理多模態(tài)多任務(wù)機器人數(shù)據(jù)集。

為了捕捉多模態(tài)數(shù)據(jù),研究人員沿用了之前的研究成果,加入了將動作序列編碼為潛在風格嵌入式z的CVAE。

為了建立多任務(wù)數(shù)據(jù)模型,研究采用了預訓練的語言編碼器,該編碼器可學習特定任務(wù)描述的嵌入。

為了減少復合誤差問題,在每個時間步預測未來H步的行動,并通過對特定時間步預測的重疊行動進行時間平滑來執(zhí)行。

另外,為了提高對場景變化的穩(wěn)健性,研究人員通過4個拍照角度為MT-ACT策略提供了工作空間的四個不同視圖。

Transformer編碼器以當前的時間步長、機器人的當前關(guān)節(jié)姿態(tài)、CVAE 的風格嵌入z,以及語言嵌入T作為輸入。

然后,再使用基于FiLM的調(diào)節(jié)方法,以確保圖像token能夠可靠地集中在語言指令上,從而在一個場景中可能存在多個任務(wù)時,MT-ACT策略不會對任務(wù)產(chǎn)生混淆。

編碼后的token將進入具有固定位置嵌入的Transformer策略解碼器,最終輸出下一個動作塊(H個動作)。

在執(zhí)行時,研究人員會對當前時間步預測的所有重疊操作,取平均值(當H > 1時,行動塊會重疊),并執(zhí)行產(chǎn)生平均后的行動。

少量數(shù)據(jù),趕超谷歌RT-1

MT-ACT策略在真實世界表現(xiàn)如何?

研究人員通過實驗評估了提出的框架樣本效率,以及智能體在不同場景中的通用性。

下圖,將MT-ACT策略與常用的模仿學習架構(gòu)進行了比較。

研究人員只繪制了L1泛化的結(jié)果,因為這是大多數(shù)其他模仿學習算法使用的標準設(shè)置。

從圖中可以看出,所有只模擬下一步行為(而不是子軌跡)的方法都表現(xiàn)不佳。

在這些方法中,研究人員發(fā)現(xiàn)基于動作聚類的方法(BeT)在多任務(wù)設(shè)置中的表現(xiàn)要差得多。

此外,由于研究采用的是低數(shù)據(jù)機制,需要大量數(shù)據(jù)的類似RT1的方法在這種情況下表現(xiàn)不佳。

相比之下,MT-ACT策略使用動作檢查對子軌跡進行建模,其表現(xiàn)明顯優(yōu)于所有基線方法。

圖7(右下)顯示了跨多個泛化級別(L1,l2和 L3)的所有方法的結(jié)果。

此外,研究人員還分別報告了每種活動的泛化結(jié)果。從圖8中可以看到,每種語義增強方法都對每種活動的性能產(chǎn)生了積極影響。

最后,研究人員還利用不同的設(shè)計來對架構(gòu)進行了研究,比如動作表示塊的大小、可塑性、穩(wěn)健性。

本文來源:新智元,原文標題:《耗時2年,Meta聯(lián)手CMU打造最強「通用機器人智能體」!上茶擦碗多面手,輕松泛化100多種未知任務(wù)》

風險提示及免責條款 市場有風險,投資需謹慎。本文不構(gòu)成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資,責任自負。

關(guān)鍵詞: