中信建投：谷歌旗下兩大AI實(shí)驗(yàn)室合并機(jī)器人模型進(jìn)展有望進(jìn)一步加速

(資料圖)

中信建投發(fā)布研報(bào)稱，2023年4月20日，Google宣布將Google Brain和DeepMind兩大世界級(jí)AI實(shí)驗(yàn)室合并，成立Google DeepMind部門，以谷歌的計(jì)算資源作為后盾，加速人工智能研發(fā)和應(yīng)用的推進(jìn)。Google Deepmind在2023年6月和7月發(fā)布了其最新研究成果，具備“自我完善”能力的“RoboCat”和融合大語言模型能力的VLA模型“RT-2”，機(jī)器人智能化進(jìn)一步加速，有望掀起新一輪AI革命。

中信建投主要觀點(diǎn)如下

從Gato到RoboCat，更大規(guī)模的訓(xùn)練數(shù)據(jù)集和創(chuàng)新的自我完善方法助力打造更強(qiáng)的機(jī)器人智能體。在2022年5月提出的Gato模型將智能體擴(kuò)展到機(jī)器人控制領(lǐng)域中，但“通用性”和“智能性”仍有較大提升空間，其模型架構(gòu)和控制任務(wù)數(shù)據(jù)的序列化方式是后續(xù)模型發(fā)展的重要基礎(chǔ)。2023年7月提出的RoboCat則基于Gato的模型基礎(chǔ)，將訓(xùn)練數(shù)據(jù)集擴(kuò)充至400萬個(gè)機(jī)器人相關(guān)片段，并創(chuàng)新性的提出“自我完善”的方式來進(jìn)一步豐富訓(xùn)練數(shù)據(jù)，這兩點(diǎn)創(chuàng)新讓RoboCat在實(shí)現(xiàn)了訓(xùn)練任務(wù)的性能提升并具備了一定的泛化性能，并且能夠在少量數(shù)據(jù)微調(diào)的情況下處理未見過的任務(wù)。

從RT-1到RT-2，大語言模型帶來更強(qiáng)的泛化能力、邏輯推理能力、知識(shí)能力，深度賦能機(jī)器人智能化。2022年12月提出的RT-1模型構(gòu)建起了特定的指令、圖像和機(jī)器人指令之間的橋梁；2023年3月的PaLM-E模型則能夠處理輸入的文本和圖像信息，將復(fù)雜任務(wù)轉(zhuǎn)化為RT-1能夠接受的指令；2023年7月提出的RT-2是二者的融合，在大語言模型強(qiáng)大能力的賦能下，RT-2能夠完成分解復(fù)雜任務(wù)、簡單的計(jì)算、識(shí)別人臉等現(xiàn)實(shí)場景中常見但以往的模型無法完成的任務(wù)，智能化程度大幅提升。

差異路線引領(lǐng)發(fā)展，團(tuán)隊(duì)整合協(xié)同革新。Google Brain和DeepMind兩個(gè)團(tuán)隊(duì)從兩個(gè)不同的切入點(diǎn)出發(fā)逐步推進(jìn)AI機(jī)器人模型發(fā)展，DeepMind團(tuán)隊(duì)從智能體（Agent）的角度出發(fā)不斷提升機(jī)器人能力，因此RoboCat中的訓(xùn)練數(shù)據(jù)大多來自強(qiáng)化學(xué)習(xí)，模型參數(shù)量控制表現(xiàn)更為優(yōu)秀，能夠?qū)崿F(xiàn)更高頻率的機(jī)器人控制；而Google Brain則嘗試將大語言模型應(yīng)用到機(jī)器人的控制領(lǐng)域，因此RT-2的模型參數(shù)量更大，在泛化能力、知識(shí)和推理能力方面有更強(qiáng)的表現(xiàn)。隨著兩個(gè)團(tuán)隊(duì)進(jìn)一步合并，深化數(shù)據(jù)、模型等方面的協(xié)同合作，谷歌的機(jī)器人模型進(jìn)展有望進(jìn)一步加速。

關(guān)鍵詞：