人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

【熱聞】“具身智能”是個(gè)啥？

來源：華爾街見聞 ? 2023-05-19 14:51:46

先解釋概念

(資料圖片僅供參考)

Embodied AI = Embodied Intelligence = 具象AI = 具身智能：有身體并支持物理交互的智能體，如家用服務(wù)機(jī)器人、無人車等?！?“身體力行”

Internet AI = Disembodied AI = 非具身智能：沒有物理身體，只能被動(dòng)接受人類采集、制作好的數(shù)據(jù) ?！?“紙上談兵”或者說 “運(yùn)籌帷幄”

機(jī)器人，是人工智能的最終解決方案。

具身智能機(jī)器人：首先，要能夠聽懂人類語(yǔ)言，然后，分解任務(wù)，規(guī)劃子任務(wù)，移動(dòng)中識(shí)別物體，與環(huán)境交互，最終完成相應(yīng)任務(wù)。

具體點(diǎn)說，像人一樣能與環(huán)境交互感知，自主規(guī)劃、決策、行動(dòng)、執(zhí)行能力的機(jī)器人/仿真人（指虛擬環(huán)境中）是AI的終極形態(tài)，我們暫且稱之為“具身智能機(jī)器人”。它的實(shí)現(xiàn)包含了人工智能領(lǐng)域內(nèi)諸多的技術(shù)，例如計(jì)算機(jī)視覺、自然語(yǔ)言處理、機(jī)器人學(xué)等。要想全面理解認(rèn)識(shí)人工智能是很困難的。

（一）人工智能分支多目前走向融合

全面認(rèn)識(shí)人工智能之所以困難，是有客觀原因的。

1、人工智能是一個(gè)非常廣泛的領(lǐng)域。當(dāng)前人工智能涵蓋很多大的學(xué)科，我把它們歸納為六個(gè)：

（1）計(jì)算機(jī)視覺（暫且把模式識(shí)別，圖像處理等問題歸入其中）、

（2）自然語(yǔ)言理解與交流（暫且把語(yǔ)音識(shí)別、合成歸入其中，包括對(duì)話）、

（3）認(rèn)知與推理（包含各種物理和社會(huì)常識(shí)）、

（4）機(jī)器人學(xué)（機(jī)械、控制、設(shè)計(jì)、運(yùn)動(dòng)規(guī)劃、任務(wù)規(guī)劃等）、

（5）博弈與倫理（多代理人agents的交互、對(duì)抗與合作，機(jī)器人與社會(huì)融合等議題）。

（6）機(jī)器學(xué)習(xí)（各種統(tǒng)計(jì)的建模、分析工具和計(jì)算的方法），

領(lǐng)域各有大模型，迭代很快，gpt 5甚至能摸到NLP天花板！CV剛剛開始，但目前它們正在交叉發(fā)展，走向統(tǒng)一的過程中。

算法層的進(jìn)步如日中天！

但具有物理實(shí)體、能夠與真實(shí)世界進(jìn)行多模態(tài)交互，像人類一樣感知和理解環(huán)境，并通過自主學(xué)習(xí)物理體沒有出現(xiàn)！

具身指的不僅僅是具有物理身體，而且是具有與人一樣的身體體驗(yàn)的能力。如圖中的貓一樣，主動(dòng)貓是具身的智能，它可以在環(huán)境中自由行動(dòng)，從而學(xué)習(xí)行走的能力。被動(dòng)貓只能被動(dòng)的觀察世界，最終失去了行走能力。

前者有點(diǎn)像我們現(xiàn)在給機(jī)器喂很多數(shù)據(jù)，屬于第三人稱的智能，比如我們給機(jī)器很多盒子，并且標(biāo)注這就是盒子，然后機(jī)器就會(huì)覺得這種 pattern 是盒子。但其實(shí)，人類是怎么知道這是盒子的？是通過體驗(yàn)才知道的。

第一類就像我們給AI模型喂很多數(shù)據(jù)，這些數(shù)據(jù)是人類整理，打過標(biāo)簽的。我們將其定義為Internet AI，與Embodied AI相對(duì)應(yīng)。

谷歌公司 Everyday Robot 的SayCan已經(jīng)將機(jī)器人和對(duì)話模型結(jié)合到一起[6]，能夠讓機(jī)器人在大型語(yǔ)言模型的幫助下，完成一個(gè)包含 16 個(gè)步驟的長(zhǎng)任務(wù)。UC 伯克利的 LM Nav 用三個(gè)大模型（視覺導(dǎo)航模型 ViNG、大型語(yǔ)言模型 GPT-3、視覺語(yǔ)言模型 CLIP）教會(huì)了機(jī)器人在不看地圖的情況下按照語(yǔ)言指令到達(dá)目的地。

（二）具象AI和非具象 AI代際變遷

Internet AI（Disembodied AI）和Embodied AI的辨析

旁觀型標(biāo)簽學(xué)習(xí)方式 v.s. 實(shí)踐性概念學(xué)習(xí)方法

Internet AI從互聯(lián)網(wǎng)收集到的圖像、視頻或文本數(shù)據(jù)集中學(xué)習(xí)，這些數(shù)據(jù)集往往制作精良，其與真實(shí)世界脫節(jié)、難以泛化和遷移。1）數(shù)據(jù)到標(biāo)簽的映射。2）無法在真實(shí)世界進(jìn)行體驗(yàn)學(xué)習(xí)。3）無法在真實(shí)世界做出影響。

Embodied AI通過與環(huán)境的互動(dòng)，雖然以第一視角得到的數(shù)據(jù)不夠穩(wěn)定，但這種類似于人類的自我中心感知中學(xué)習(xí)，從而從視覺、語(yǔ)言和推理到一個(gè)人工具象（Artificial Embodiment），可以幫助解決更多真實(shí)問題。

過去50年，非具身智能就占據(jù)了絕對(duì)的優(yōu)勢(shì)。不需要物理交互、不考慮具體形態(tài)、專注抽象算法的開發(fā)這一系列有利條件使得非具身智能得以迅速地發(fā)展。今天在算力和數(shù)據(jù)的支持下，深度學(xué)習(xí)這一強(qiáng)有力的工具大大推進(jìn)了人工智能研究，非具身智能已經(jīng)如圖靈所愿、近乎完美地解決了下棋、預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)等抽象的獨(dú)立任務(wù)。互聯(lián)網(wǎng)上充沛的圖片和語(yǔ)義標(biāo)注也使得一系列視覺問題取得了突出的成果。

然而這樣的智能顯然是有局限的。非具身智能沒有自己的眼睛，因此只能被動(dòng)地接受人類已經(jīng)采集好的數(shù)據(jù)。非具身智能沒有自己的四肢等執(zhí)行器官，無法執(zhí)行任何物理任務(wù)，也缺乏相關(guān)的任務(wù)經(jīng)驗(yàn)。即使是可以辨識(shí)萬(wàn)物的視覺大模型也不知道如何倒一杯水，而缺乏身體力行的過程，使得非具身智能體永遠(yuǎn)也無法理解事物在物理交互中真實(shí)的意義。

具身智能具有支持感覺和運(yùn)動(dòng)的物理身體，可以進(jìn)行主動(dòng)式感知，也可以執(zhí)行物理任務(wù)，沒有非具身智能的諸多局限性。更重要的是，具身智能強(qiáng)調(diào)“感知—行動(dòng)回路”（perception-action loop）的重要性，即感受世界、對(duì)世界進(jìn)行建模、進(jìn)而采取行動(dòng)、進(jìn)行驗(yàn)證并調(diào)整模型的過程。這一過程正是“紙上得來終覺淺，絕知此事要躬行”，與我們?nèi)祟惖膶W(xué)習(xí)和認(rèn)知過程一致。

麻省學(xué)者Rodney Brooks 認(rèn)為智能是在與環(huán)境的交互作用中表現(xiàn)出來的，因此是行為產(chǎn)生了智能。其基本觀點(diǎn)是讓機(jī)器人到環(huán)境中去，進(jìn)行物理交互，從而積累和發(fā)展初級(jí)的智能。他因此將研究的重心放在了具身智能，研究如何讓機(jī)器人移動(dòng)和適應(yīng)環(huán)境，于 1986年誕生了第一個(gè)基于感知行為模式的輪式機(jī)器人。

該機(jī)器人不需要中樞控制，實(shí)現(xiàn)了避讓、前進(jìn)和平衡等功能。Rodney Brooks 也成為了人工智能和機(jī)器人學(xué)中行為主義的代表性人物。今天對(duì)如何發(fā)展真正的智能仍然是一個(gè)開放的問題，而具身智能作為符合人類認(rèn)知規(guī)律的一種發(fā)展途徑也受到了廣泛的討論。

（三）具象AI技術(shù)條件成熟

時(shí)機(jī)成熟：各路大模型成熟

計(jì)算機(jī)視覺給具身智能提供了處理視覺信號(hào)的能力；

計(jì)算機(jī)圖形學(xué)開發(fā)的物理仿真環(huán)境給具身智能提供了真實(shí)物理世界的替代，大大加快了學(xué)習(xí)的速度并降低了成本；

自然語(yǔ)言給具身智能帶來了與人類交流、從自然文本中學(xué)習(xí)的可能；

認(rèn)知科學(xué)進(jìn)一步幫助具身智能體理解人類、構(gòu)建認(rèn)知和價(jià)值。

具象AI實(shí)施方案——PIE 方案

具身智能有哪些模塊是一定跑不掉的？我們認(rèn)為有 3 個(gè)模塊 —— 具身感知（Perception）、具身想象（Imagination）和具身執(zhí)行（Execution）。

1、全概念感知

首先，我們具身智能的感知應(yīng)該是什么樣的？跟之前計(jì)算機(jī)視覺的感知有什么不一樣？我們覺得它應(yīng)該是一個(gè)全感知。全感知的意思就是，我們能夠知道我們所操作的這個(gè)世界模型（world model）的各種各樣的知識(shí)，跟操作相關(guān)的知識(shí)，包括外形、結(jié)構(gòu)、語(yǔ)義，以及 48 個(gè)真實(shí)世界關(guān)節(jié)體類別等等。

2、具身交互感知

具身交互感知是什么呢？我們作交互的時(shí)候，其實(shí)除了視覺，還有觸覺，還有各種內(nèi)容交互的感覺。這些感覺其實(shí)也會(huì)帶來新的感知。就像我們剛才講的提一個(gè)桶或者打開微波爐，我們其實(shí)沒辦法從視覺上知道大概需要多少牛的力，所以其實(shí)很多時(shí)候我們對(duì)這個(gè)模型的估計(jì)是通過交互來獲得的。

3、具身想象

感知的東西都有了之后，你肯定會(huì)在腦子里想我該怎么去做，這是一個(gè)具身想象的過程。我們做了一個(gè)名為 RFUniverse 的仿真引擎，這個(gè)仿真引擎支持 7 種物體（比如關(guān)節(jié)可移動(dòng)的、柔性的、透明的、流體的……）、87 種原子操作的仿真。

這些操作相當(dāng)于我們把物體錄入之后，我們?cè)诜抡嬉胬锵胂笏蟾艖?yīng)該怎么做。跟以往不同的一點(diǎn)是，我們已經(jīng)有了這些物體的知識(shí)。它也支持強(qiáng)化學(xué)習(xí)、VR。這個(gè)項(xiàng)目也已經(jīng)開源。

4、具身執(zhí)行

接下來是一個(gè)更難的事情：我們想象完了之后怎么去做？大家覺得想完之后去做是不是挺簡(jiǎn)單的？其實(shí)不是，因?yàn)槟愕南胂蠛驼鎸?shí)操作是有差距的。而且我們又希望這個(gè)操作能自適應(yīng)于各種事件的變化，這個(gè)難度就很大。

我們希望建一個(gè)元操作庫(kù)，這樣我們就能調(diào)用各種元操作來解決這個(gè)問題。在《Mother of all Manipulations：Grasping》這項(xiàng)工作中，我們從 Grasping 做起。給定一個(gè)點(diǎn)云，這個(gè)點(diǎn)云對(duì)應(yīng)的動(dòng)作會(huì)去抓取，你怎么去產(chǎn)生那些 grasp pose？

（四）大廠進(jìn)展

1、2023年3月谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大的視覺-語(yǔ)言模型——PaLM-E，參數(shù)量高達(dá)5620億（GPT-3的參數(shù)量為1750億）。具體來說， PaLM-E-562B 集成了參數(shù)量 540B 的 PaLM 和參數(shù)量 22B 的視覺 Transformer（ViT），作為一種多模態(tài)具身視覺語(yǔ)言模型（VLM），PaLM-E不僅可以理解圖像，還能理解、生成語(yǔ)言，可以執(zhí)行各種復(fù)雜的機(jī)器人指令而無需重新訓(xùn)練。谷歌研究人員計(jì)劃探索PaLM-E在現(xiàn)實(shí)世界場(chǎng)景中的更多應(yīng)用，例如家庭自動(dòng)化或工業(yè)機(jī)器人。他們希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)推理和具身AI的研究。

2、2023年4月?微軟團(tuán)隊(duì)在探索如何將 OpenAI研發(fā)的ChatGPT擴(kuò)展到機(jī)器人領(lǐng)域[8]，從而讓我們用語(yǔ)言直觀控制如機(jī)械臂、無人機(jī)、家庭輔助機(jī)器人等多個(gè)平臺(tái)。研究人員展示了多個(gè) ChatGPT 解決機(jī)器人難題的示例，以及在操作、空中和導(dǎo)航領(lǐng)域的復(fù)雜機(jī)器人部署。

3、2023年5月英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛在ITF World 2023半導(dǎo)體大會(huì)上，認(rèn)為“芯片制造是英偉達(dá)加速和AI計(jì)算的理想應(yīng)用”；“人工智能下一個(gè)浪潮將是"具身智能"，他也公布了Nvidia VIMA，這是一個(gè)多模態(tài)具身人工智能系統(tǒng)，能夠在視覺文本提示的指導(dǎo)下執(zhí)行復(fù)雜的任務(wù)。

Huang 描述了一種新型人工智能——“具身人工智能”，即能夠理解、推理并與物理世界互動(dòng)的智能系統(tǒng)。

他說，例子包括機(jī)器人技術(shù)、自動(dòng)駕駛汽車，甚至是聊天機(jī)器人，它們更聰明，因?yàn)樗鼈兞私馕锢硎澜纭uang 介紹了 NVIDIA VIMA，一種多模態(tài)人工智能。VIMA 可以根據(jù)視覺文本提示執(zhí)行任務(wù)，例如“重新排列對(duì)象以匹配此場(chǎng)景”。它可以學(xué)習(xí)概念并采取相應(yīng)的行動(dòng)，例如“這是一個(gè)小部件”、“那是一個(gè)東西”然后“把這個(gè)小部件放在那個(gè)東西里”。VIMA 在 NVIDIA AI 上運(yùn)行，其數(shù)字雙胞胎在3D 開發(fā)和模擬平臺(tái)NVIDIA Omniverse中運(yùn)行。Huang 說，了解物理學(xué)的人工智能可以學(xué)習(xí)模仿物理學(xué)并做出符合物理定律的預(yù)測(cè)。? ?

部分?jǐn)?shù)據(jù)來源上海交通大學(xué)教授盧策吾在機(jī)器之心 AI 科技年會(huì)上，發(fā)表了主題演講 ——《具身智能》? 。

本文來源：?錦緞，原文標(biāo)題：《“具身智能”是個(gè)啥？》

風(fēng)險(xiǎn)提示及免責(zé)條款市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：