人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

【熱聞】“具身智能”是個(gè)啥?

先解釋概念


(資料圖片僅供參考)

Embodied AI = Embodied Intelligence = 具象AI = 具身智能:有身體并支持物理交互的智能體,如家用服務(wù)機(jī)器人、無人車等?!?“身體力行”

Internet AI = Disembodied AI = 非具身智能:沒有物理身體,只能被動(dòng)接受人類采集、制作好的數(shù)據(jù) ?!?“紙上談兵”或者說 “運(yùn)籌帷幄”

機(jī)器人,是人工智能的最終解決方案。

具身智能機(jī)器人:首先,要能夠聽懂人類語(yǔ)言,然后,分解任務(wù),規(guī)劃子任務(wù),移動(dòng)中識(shí)別物體,與環(huán)境交互,最終完成相應(yīng)任務(wù)。

具體點(diǎn)說,像人一樣能與環(huán)境交互感知,自主規(guī)劃、決策、行動(dòng)、執(zhí)行能力的機(jī)器人/仿真人(指虛擬環(huán)境中)是AI的終極形態(tài),我們暫且稱之為“具身智能機(jī)器人”。它的實(shí)現(xiàn)包含了人工智能領(lǐng)域內(nèi)諸多的技術(shù),例如計(jì)算機(jī)視覺、自然語(yǔ)言處理、機(jī)器人學(xué)等。要想全面理解認(rèn)識(shí)人工智能是很困難的。

(一)人工智能分支多 目前走向融合

全面認(rèn)識(shí)人工智能之所以困難,是有客觀原因的。

1、人工智能是一個(gè)非常廣泛的領(lǐng)域。當(dāng)前人工智能涵蓋很多大的學(xué)科,我把它們歸納為六個(gè):

(1)計(jì)算機(jī)視覺(暫且把模式識(shí)別,圖像處理等問題歸入其中)、

(2)自然語(yǔ)言理解與交流(暫且把語(yǔ)音識(shí)別、合成歸入其中,包括對(duì)話)、

(3)認(rèn)知與推理(包含各種物理和社會(huì)常識(shí))、

(4)機(jī)器人學(xué)(機(jī)械、控制、設(shè)計(jì)、運(yùn)動(dòng)規(guī)劃、任務(wù)規(guī)劃等)、

(5)博弈與倫理(多代理人agents的交互、對(duì)抗與合作,機(jī)器人與社會(huì)融合等議題)。

(6)機(jī)器學(xué)習(xí)(各種統(tǒng)計(jì)的建模、分析工具和計(jì)算的方法),

領(lǐng)域各有大模型,迭代很快,gpt 5甚至能摸到NLP天花板!CV剛剛開始,但目前它們正在交叉發(fā)展,走向統(tǒng)一的過程中。

算法層的進(jìn)步如日中天!

但具有物理實(shí)體、能夠與真實(shí)世界進(jìn)行多模態(tài)交互,像人類一樣感知和理解環(huán)境,并通過自主學(xué)習(xí)物理體沒有出現(xiàn)!

具身指的不僅僅是具有物理身體,而且是具有與人一樣的身體體驗(yàn)的能力。如圖中的貓一樣,主動(dòng)貓是具身的智能,它可以在環(huán)境中自由行動(dòng),從而學(xué)習(xí)行走的能力。被動(dòng)貓只能被動(dòng)的觀察世界,最終失去了行走能力。

前者有點(diǎn)像我們現(xiàn)在給機(jī)器喂很多數(shù)據(jù),屬于第三人稱的智能,比如我們給機(jī)器很多盒子,并且標(biāo)注這就是盒子,然后機(jī)器就會(huì)覺得這種 pattern 是盒子。但其實(shí),人類是怎么知道這是盒子的?是通過體驗(yàn)才知道的。

第一類就像我們給AI模型喂很多數(shù)據(jù),這些數(shù)據(jù)是人類整理,打過標(biāo)簽的。我們將其定義為Internet AI,與Embodied AI相對(duì)應(yīng)。

谷歌公司 Everyday Robot 的SayCan已經(jīng)將機(jī)器人和對(duì)話模型結(jié)合到一起[6],能夠讓機(jī)器人在大型語(yǔ)言模型的幫助下,完成一個(gè)包含 16 個(gè)步驟的長(zhǎng)任務(wù)。UC 伯克利的 LM Nav 用三個(gè)大模型(視覺導(dǎo)航模型 ViNG、大型語(yǔ)言模型 GPT-3、視覺語(yǔ)言模型 CLIP)教會(huì)了機(jī)器人在不看地圖的情況下按照語(yǔ)言指令到達(dá)目的地。

(二)具象AI和非具象 AI代際變遷

Internet AI(Disembodied AI)和Embodied AI的辨析

旁觀型標(biāo)簽學(xué)習(xí)方式 v.s. 實(shí)踐性概念學(xué)習(xí)方法

Internet AI從互聯(lián)網(wǎng)收集到的圖像、視頻或文本數(shù)據(jù)集中學(xué)習(xí),這些數(shù)據(jù)集往往制作精良,其與真實(shí)世界脫節(jié)、難以泛化和遷移。1)數(shù)據(jù)到標(biāo)簽的映射。2)無法在真實(shí)世界進(jìn)行體驗(yàn)學(xué)習(xí)。3)無法在真實(shí)世界做出影響。

Embodied AI通過與環(huán)境的互動(dòng),雖然以第一視角得到的數(shù)據(jù)不夠穩(wěn)定,但這種類似于人類的自我中心感知中學(xué)習(xí),從而從視覺、語(yǔ)言和推理到一個(gè)人工具象(Artificial Embodiment),可以幫助解決更多真實(shí)問題。

過去50年,非具身智能就占據(jù)了絕對(duì)的優(yōu)勢(shì)。不需要物理交互、不考慮具體形態(tài)、專注抽象算法的開發(fā)這一系列有利條件使得非具身智能得以迅速地發(fā)展。今天在算力和數(shù)據(jù)的支持下,深度學(xué)習(xí)這一強(qiáng)有力的工具大大推進(jìn)了人工智能研究,非具身智能已經(jīng)如圖靈所愿、近乎完美地解決了下棋、預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)等抽象的獨(dú)立任務(wù)。互聯(lián)網(wǎng)上充沛的圖片和語(yǔ)義標(biāo)注也使得一系列視覺問題取得了突出的成果。

然而這樣的智能顯然是有局限的。非具身智能沒有自己的眼睛,因此只能被動(dòng)地接受人類已經(jīng)采集好的數(shù)據(jù)。非具身智能沒有自己的四肢等執(zhí)行器官,無法執(zhí)行任何物理任務(wù),也缺乏相關(guān)的任務(wù)經(jīng)驗(yàn)。即使是可以辨識(shí)萬(wàn)物的視覺大模型也不知道如何倒一杯水,而缺乏身體力行的過程,使得非具身智能體永遠(yuǎn)也無法理解事物在物理交互中真實(shí)的意義。

具身智能具有支持感覺和運(yùn)動(dòng)的物理身體,可以進(jìn)行主動(dòng)式感知,也可以執(zhí)行物理任務(wù),沒有非具身智能的諸多局限性。更重要的是,具身智能強(qiáng)調(diào)“感知—行動(dòng)回路”(perception-action loop)的重要性,即感受世界、對(duì)世界進(jìn)行建模、進(jìn)而采取行動(dòng)、進(jìn)行驗(yàn)證并調(diào)整模型的過程。這一過程正是“紙上得來終覺淺,絕知此事要躬行”,與我們?nèi)祟惖膶W(xué)習(xí)和認(rèn)知過程一致。

麻省學(xué)者Rodney Brooks 認(rèn)為智能是在與環(huán)境的交互作用中表現(xiàn)出來的,因此是行為產(chǎn)生了智能。其基本觀點(diǎn)是讓機(jī)器人到環(huán)境中去,進(jìn)行物理交互,從而積累和發(fā)展初級(jí)的智能。他因此將研究的重心放在了具身智能,研究如何讓機(jī)器人移動(dòng)和適應(yīng)環(huán)境,于 1986年誕生了第一個(gè)基于感知行為模式的輪式機(jī)器人。

該機(jī)器人不需要中樞控制,實(shí)現(xiàn)了避讓、前進(jìn)和平衡等功能。Rodney Brooks 也成為了人工智能和機(jī)器人學(xué)中行為主義的代表性人物。今天對(duì)如何發(fā)展真正的智能仍然是一個(gè)開放的問題,而具身智能作為符合人類認(rèn)知規(guī)律的一種發(fā)展途徑也受到了廣泛的討論。

(三)具象AI技術(shù)條件成熟

時(shí)機(jī)成熟:各路大模型成熟

計(jì)算機(jī)視覺給具身智能提供了處理視覺信號(hào)的能力;

計(jì)算機(jī)圖形學(xué)開發(fā)的物理仿真環(huán)境給具身智能提供了真實(shí)物理世界的替代,大大加快了學(xué)習(xí)的速度并降低了成本;

自然語(yǔ)言給具身智能帶來了與人類交流、從自然文本中學(xué)習(xí)的可能;

認(rèn)知科學(xué)進(jìn)一步幫助具身智能體理解人類、構(gòu)建認(rèn)知和價(jià)值。

具象AI實(shí)施方案——PIE 方案

具身智能有哪些模塊是一定跑不掉的?我們認(rèn)為有 3 個(gè)模塊 —— 具身感知(Perception)、具身想象(Imagination)和具身執(zhí)行(Execution)。

1、全概念感知

首先,我們具身智能的感知應(yīng)該是什么樣的?跟之前計(jì)算機(jī)視覺的感知有什么不一樣?我們覺得它應(yīng)該是一個(gè)全感知。全感知的意思就是,我們能夠知道我們所操作的這個(gè)世界模型(world model)的各種各樣的知識(shí),跟操作相關(guān)的知識(shí),包括外形、結(jié)構(gòu)、語(yǔ)義,以及 48 個(gè)真實(shí)世界關(guān)節(jié)體類別等等。

2、具身交互感知

具身交互感知是什么呢?我們作交互的時(shí)候,其實(shí)除了視覺,還有觸覺,還有各種內(nèi)容交互的感覺。這些感覺其實(shí)也會(huì)帶來新的感知。就像我們剛才講的提一個(gè)桶或者打開微波爐,我們其實(shí)沒辦法從視覺上知道大概需要多少牛的力,所以其實(shí)很多時(shí)候我們對(duì)這個(gè)模型的估計(jì)是通過交互來獲得的。

3、具身想象

感知的東西都有了之后,你肯定會(huì)在腦子里想我該怎么去做,這是一個(gè)具身想象的過程。我們做了一個(gè)名為 RFUniverse 的仿真引擎,這個(gè)仿真引擎支持 7 種物體(比如關(guān)節(jié)可移動(dòng)的、柔性的、透明的、流體的……)、87 種原子操作的仿真。

這些操作相當(dāng)于我們把物體錄入之后,我們?cè)诜抡嬉胬锵胂笏蟾艖?yīng)該怎么做。跟以往不同的一點(diǎn)是,我們已經(jīng)有了這些物體的知識(shí)。它也支持強(qiáng)化學(xué)習(xí)、VR。這個(gè)項(xiàng)目也已經(jīng)開源。

4、具身執(zhí)行

接下來是一個(gè)更難的事情:我們想象完了之后怎么去做?大家覺得想完之后去做是不是挺簡(jiǎn)單的?其實(shí)不是,因?yàn)槟愕南胂蠛驼鎸?shí)操作是有差距的。而且我們又希望這個(gè)操作能自適應(yīng)于各種事件的變化,這個(gè)難度就很大。

我們希望建一個(gè)元操作庫(kù),這樣我們就能調(diào)用各種元操作來解決這個(gè)問題。在《Mother of all Manipulations:Grasping》這項(xiàng)工作中,我們從 Grasping 做起。給定一個(gè)點(diǎn)云,這個(gè)點(diǎn)云對(duì)應(yīng)的動(dòng)作會(huì)去抓取,你怎么去產(chǎn)生那些 grasp pose?

(四)大廠進(jìn)展

1、2023年3月谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大的視覺-語(yǔ)言模型——PaLM-E,參數(shù)量高達(dá)5620億(GPT-3的參數(shù)量為1750億)。具體來說, PaLM-E-562B 集成了參數(shù)量 540B 的 PaLM 和參數(shù)量 22B 的視覺 Transformer(ViT),作為一種多模態(tài)具身視覺語(yǔ)言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語(yǔ)言,可以執(zhí)行各種復(fù)雜的機(jī)器人指令而無需重新訓(xùn)練。谷歌研究人員計(jì)劃探索PaLM-E在現(xiàn)實(shí)世界場(chǎng)景中的更多應(yīng)用,例如家庭自動(dòng)化或工業(yè)機(jī)器人。他們希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)推理和具身AI的研究。

2、2023年4月?微軟團(tuán)隊(duì)在探索如何將 OpenAI研發(fā)的ChatGPT擴(kuò)展到機(jī)器人領(lǐng)域[8],從而讓我們用語(yǔ)言直觀控制如機(jī)械臂、無人機(jī)、家庭輔助機(jī)器人等多個(gè)平臺(tái)。研究人員展示了多個(gè) ChatGPT 解決機(jī)器人難題的示例,以及在操作、空中和導(dǎo)航領(lǐng)域的復(fù)雜機(jī)器人部署。

3、2023年5月英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛在ITF World 2023半導(dǎo)體大會(huì)上,認(rèn)為“芯片制造是英偉達(dá)加速和AI計(jì)算的理想應(yīng)用”;“人工智能下一個(gè)浪潮將是"具身智能",他也公布了Nvidia VIMA,這是一個(gè)多模態(tài)具身人工智能系統(tǒng),能夠在視覺文本提示的指導(dǎo)下執(zhí)行復(fù)雜的任務(wù)。

Huang 描述了一種新型人工智能——“具身人工智能”,即能夠理解、推理并與物理世界互動(dòng)的智能系統(tǒng)。

他說,例子包括機(jī)器人技術(shù)、自動(dòng)駕駛汽車,甚至是聊天機(jī)器人,它們更聰明,因?yàn)樗鼈兞私馕锢硎澜纭uang 介紹了 NVIDIA VIMA,一種多模態(tài)人工智能。VIMA 可以根據(jù)視覺文本提示執(zhí)行任務(wù),例如“重新排列對(duì)象以匹配此場(chǎng)景”。它可以學(xué)習(xí)概念并采取相應(yīng)的行動(dòng),例如“這是一個(gè)小部件”、“那是一個(gè)東西”然后“把這個(gè)小部件放在那個(gè)東西里”。VIMA 在 NVIDIA AI 上運(yùn)行,其數(shù)字雙胞胎在3D 開發(fā)和模擬平臺(tái)NVIDIA Omniverse中運(yùn)行。Huang 說,了解物理學(xué)的人工智能可以學(xué)習(xí)模仿物理學(xué)并做出符合物理定律的預(yù)測(cè)。? ?

部分?jǐn)?shù)據(jù)來源上海交通大學(xué)教授盧策吾在機(jī)器之心 AI 科技年會(huì)上,發(fā)表了主題演講 ——《具身智能》? 。

本文來源:?錦緞,原文標(biāo)題:《“具身智能”是個(gè)啥?

風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

關(guān)鍵詞: