人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

您的位置：首頁 > 產(chǎn)經(jīng) >

環(huán)球即時：LeCun世界模型出場！Meta震撼發(fā)布首個「類人」模型，AI向人類智能更進(jìn)了一步

來源：華爾街見聞 ? 2023-06-15 22:04:33

長久以來，LeCun理想中的AI，一直是通往人類水平的AI，為此他提出了「世界模型」的構(gòu)想。

而最近，LeCun在公開演講中，再次批評了GPT大模型：根據(jù)概率生成自回歸的大模型，根本無法破除幻覺難題。甚至直接發(fā)出斷言：GPT模型活不過5年。

6月14日，LeCun終于離自己的夢想又近了一步！

(資料圖片僅供參考)

Meta震撼發(fā)布了一個「類人」的人工智能模型 I-JEPA，它可以比現(xiàn)有模型更準(zhǔn)確地分析和完成缺失的圖像。

論文地址：https://arxiv.org/abs/2301.08243

劃重點：I-JEPA填充缺失片段時，用的就是有關(guān)世界的背景知識！而不是像其他模型那樣，僅僅通過查看附近的像素。

距離提出「世界模型」概念一年多，眼看著LeCun就要實現(xiàn)自己的星辰大海了。

6月14日，訓(xùn)練代碼和模型已經(jīng)開源。論文將于下周在CVPR 2023發(fā)表。

LeCun的世界模型來了

為了突破這層桎梏，Meta的首席AI科學(xué)家Yann LeCun提出了一種新的架構(gòu)。

他的愿景是，創(chuàng)造出一個機器，讓它能夠?qū)W習(xí)世界如何運作的內(nèi)部模型，這樣它就可以更快速地學(xué)習(xí)，為完成復(fù)雜任務(wù)做出計劃，并且隨時應(yīng)對不熟悉的新情況。

Meta推出的圖像聯(lián)合嵌入預(yù)測架構(gòu)I-JEPA模型，是史上第一個基于LeCun世界模型愿景關(guān)鍵部分的AI模型。

I-JEPA就是通過創(chuàng)建外部世界的內(nèi)部模型來學(xué)習(xí)。在補全圖像的過程中，它比較的是圖像的抽象表征，而不是比較像素本身。

在多個計算機視覺任務(wù)上，I-JEPA都表現(xiàn)出了強大的性能，并且比其他廣泛使用的CV模型計算效率高得多。

ImageNet線性評估：I-JEPA方法在預(yù)訓(xùn)練期間不使用任何視覺數(shù)據(jù)增強來學(xué)習(xí)語義圖像表征，使用的計算量比其他方法更少

I-JEPA學(xué)習(xí)的表示形式可以用于許多不同的應(yīng)用，而無需進(jìn)行大量的微調(diào)。

比如，研究者在72小時內(nèi)使用16個A100 GPU，就訓(xùn)練出了一個632M參數(shù)的視覺Transformer模型。

在ImageNet上的low-shot分類任務(wù)上，它達(dá)到了SOTA，每個類降低到12個標(biāo)記示例。

而其他方法通常需要2到10倍的GPU小時，并且使用相同數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練時，錯誤率也更高。

通過自監(jiān)督學(xué)習(xí)獲取常識

通常，人類只要通過被動觀察，就能學(xué)習(xí)到有關(guān)世界的大量背景知識。

根據(jù)推測，似乎這種常識信息正是實現(xiàn)智能行為的關(guān)鍵，比如獲取新概念、基礎(chǔ)和計劃的有效樣本。

將概念學(xué)習(xí)建模為學(xué)習(xí)一個線性讀數(shù)

Meta在I-JEPA（以及更普遍的聯(lián)合嵌入預(yù)測架構(gòu)JEPA模型）上的工作，正是基于這樣一個事實。

研究者嘗試的是，設(shè)計出一種學(xué)習(xí)算法，捕捉關(guān)于世界的常識背景知識，然后將其編碼為算法可以訪問的數(shù)字表征。

為了達(dá)到足夠的效率，系統(tǒng)必須以自監(jiān)督的方式學(xué)習(xí)這些表征——也就是說，直接從圖像或聲音等未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)，而不是從手動組合的標(biāo)記數(shù)據(jù)集中學(xué)習(xí)。

在更高的層級上，JEPA旨在根據(jù)同一輸入（圖像或文本）的其他部分的表征，來預(yù)測輸入的部分表征。

因為它不涉及將圖像的多個視圖/增強的表征折疊到一個點上，所以JEPA有很大希望能夠避免在廣泛使用的方法（即基于不變性的預(yù)訓(xùn)練）中出現(xiàn)的偏見和問題。

聯(lián)合嵌入方法可以避免表征崩潰

同時，通過在高度抽象的水平上預(yù)測表征，而不是直接預(yù)測像素值，JEPA有望能夠直接學(xué)習(xí)有用的表征，同時避免生成方法的局限性，正是基于這個原因，最近才產(chǎn)生了如此多令人興奮的大語言模型。

相比之下，一般的生成式模型是通過移除或扭曲輸入模型的部分內(nèi)容來學(xué)習(xí)的。

例如，抹去照片的一部分，或者隱藏文本段落中的某些字，然后試著預(yù)測被破壞或丟失的像素或單詞。

但這種方法的一個顯著缺點是，盡管世界本身是不可預(yù)測的，模型卻試圖填補每一塊缺失的信息。

因而，這種方法可能會犯人永遠(yuǎn)不會犯的錯誤，因為它們會過于關(guān)注不相干的細(xì)節(jié)，而不是捕捉更高級的可預(yù)測的概念。

一個眾所周知的例子就是，生成式模型很難生成正確的人手。

在自監(jiān)督學(xué)習(xí)的通用架構(gòu)中，系統(tǒng)會學(xué)習(xí)捕捉不同輸入之間的關(guān)系。

它的目標(biāo)是，將高能量分配給不兼容的輸入，將低能量分配給兼容的輸入。

自監(jiān)督學(xué)習(xí)的常見架構(gòu)

這三種架構(gòu)的區(qū)別是——

(a) 聯(lián)合嵌入（不變）架構(gòu)會學(xué)習(xí)為兼容的輸入x、y輸出相似的嵌入，為不兼容的輸入輸出不相似的嵌入。

(b) 生成式架構(gòu)會學(xué)習(xí)直接從兼容的信號x重建信號y，使用以附加變量z（可能是潛變量）為條件的解碼器網(wǎng)絡(luò)，以促進(jìn)重建。

(c) 聯(lián)合嵌入預(yù)測架構(gòu)學(xué)習(xí)從兼容信號x中預(yù)測信號y的嵌入，使用以附加變量z（可能是潛變量）為條件的預(yù)測網(wǎng)絡(luò)，來促進(jìn)預(yù)測。

聯(lián)合嵌入預(yù)測架構(gòu)

I-JEPA背后的原理是通過一種更類似于人類理解的抽象表征來預(yù)測缺失的信息。

為了引導(dǎo)I-JEPA產(chǎn)生語義表征，其中一個核心設(shè)計便是多塊掩碼策略。

具體而言，團(tuán)隊證明了預(yù)測包含語義信息的大塊的重要性。這些大塊具有足夠大的規(guī)模，可以涵蓋重要的語義特征。

這種策略的優(yōu)勢在于，它能夠減少不必要的細(xì)節(jié)，并提供更高層次的語義理解。

通過關(guān)注大塊的語義信息，模型可以更好地抓住圖像或文本中的重要概念，從而實現(xiàn)更強大的預(yù)測能力。

基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)（I-JEPA）使用單個上下文塊來預(yù)測來自同一圖像的表征

其中，上下文編碼器是一個視覺Transformer（ViT），它只處理可見的上下文patch。

預(yù)測器是一個窄的ViT，它接收上下文編碼器的輸出，并根據(jù)目標(biāo)的位置token，來預(yù)測目標(biāo)塊的表征。

目標(biāo)表征對應(yīng)于目標(biāo)編碼器的輸出，其權(quán)重在每次迭代時，通過對上下文編碼器權(quán)重的指數(shù)移動平均進(jìn)行更新。

在I-JEPA中，預(yù)測器可以被視為一個原始（且受限）的世界模型，它能夠利用已知的上下文信息來推斷未知區(qū)域的內(nèi)容。

這種能力使得模型能夠?qū)o態(tài)圖像進(jìn)行推理，從而建立一種對圖像中的空間不確定性的理解。

與僅關(guān)注像素級細(xì)節(jié)的方法不同，I-JEPA能夠預(yù)測未見區(qū)域的高層次語義信息，從而更好地捕捉圖像的語義內(nèi)容。

預(yù)測器學(xué)習(xí)建模世界語義的過程

對于每個圖像，藍(lán)色框之外的部分被編碼并作為上下文提供給預(yù)測器。而預(yù)測器則輸出了代表藍(lán)色框內(nèi)預(yù)期內(nèi)容的表征。

為了理解模型捕捉的內(nèi)容，團(tuán)隊訓(xùn)練了一個隨機解碼器，將I-JEPA預(yù)測的表征映射回像素空間，從而展示了在藍(lán)色框內(nèi)進(jìn)行預(yù)測時模型的輸出。

顯然，預(yù)測器能夠識別出應(yīng)該填充部分的語義信息（狗頭頂部、鳥的腿、狼的腿、建筑物的另一側(cè)）。

給定一幅圖像，隨機采樣4個目標(biāo)塊，隨機采樣一個范圍尺度的上下文塊，并刪除任何重疊的目標(biāo)塊。這種策略下，目標(biāo)塊相對語義化，上下文塊信息量大，但很稀疏，因而處理效率高

簡而言之，I-JEPA能夠?qū)W習(xí)對象部分的高級表征，而且也不會丟棄它們在圖像中的局部位置信息。

更高的效率，更強的性能

在預(yù)訓(xùn)練上，I-JEPA的計算更加高效。

首先，它不需要應(yīng)用更加計算密集的數(shù)據(jù)增強來生成多個視圖，因此不會帶來額外的開銷。

其次，其中的目標(biāo)編碼器只需對圖像的一個視圖進(jìn)行處理，而上下文編碼器也只需對上下文塊進(jìn)行處理。

實驗證明，I-JEPA能夠在不使用人工視圖增強的情況下，學(xué)習(xí)到強大的現(xiàn)成語義表征。

此外，在ImageNet-1K線性探測和半監(jiān)督評估中，I-JEPA的表現(xiàn)也優(yōu)于像素重建和token重建方法。

在預(yù)訓(xùn)練過程中，以GPU小時數(shù)為函數(shù)的基準(zhǔn)，在ImageNet-1k上進(jìn)行線性評估的性能

在語義任務(wù)上，I-JEPA與之前依賴于人工數(shù)據(jù)進(jìn)行增強的預(yù)訓(xùn)練方法相比，表現(xiàn)更加出色。

與這些方法相比，I-JEPA在低級視覺任務(wù)（如物體計數(shù)和深度預(yù)測）上實現(xiàn)了更好的性能。

通過使用更簡單、更靈活的歸納偏置模型，I-JEPA可以用在更廣泛的任務(wù)上。

低樣本分類準(zhǔn)確率：對ImageNet-1k進(jìn)行半監(jiān)督評估，使用1%的標(biāo)簽（每個類別大約有12張帶標(biāo)簽的圖像）

AI向人類智能更進(jìn)了一步

I-JEPA展示了架構(gòu)在學(xué)習(xí)現(xiàn)成圖像表征方面的潛力，而且還不需通過人工制作的知識作為額外的輔助。

推進(jìn)JEPA以從更豐富的模態(tài)中學(xué)習(xí)更通用的世界模型，將會是一樣特別有意義的工作。

例如，從短的上下文中，對視頻進(jìn)行長程的空間和時間預(yù)測，并將這些預(yù)測基于音頻或文本提示進(jìn)行條件化。

I-JEPA預(yù)測器表征的可視化：第一列包含原始圖像，第二列包含上下文圖像，綠色邊界框包含來自預(yù)測器輸出解碼的生成模型的樣本。預(yù)測器正確捕捉了位置的不確定性，以正確的姿態(tài)產(chǎn)生了高級對象的部分，丟棄精確的低級細(xì)節(jié)和背景信息

團(tuán)隊表示，期待著將JEPA方法擴展到其他領(lǐng)域，如圖像-文本配對數(shù)據(jù)和視頻數(shù)據(jù)。

未來，JEPA模型會在視頻理解等任務(wù)中可能具有令人興奮的應(yīng)用。而這也將是應(yīng)用和擴展自監(jiān)督方法來學(xué)習(xí)世界模型的重要一步。

預(yù)訓(xùn)練模型

在單GPU設(shè)置中，實現(xiàn)從main.py開始。

例如，要使用配置configs/in1k_vith14_ep300.yaml在本地計算機上的GPU 0、1和2上運行I-JEPA預(yù)訓(xùn)練，請輸入以下命令：

python main.py \--fname configs/in1k_vith14_ep300.yaml \--devices cuda:0 cuda:1 cuda:2

注意：ViT-H/14配置應(yīng)在16個A100 80G顯卡上運行，有效批大小為2048，才能復(fù)現(xiàn)結(jié)果。

多GPU訓(xùn)練

在多GPU設(shè)置中，實現(xiàn)從main_distributed.py開始，除了解析配置文件外，還允許指定有關(guān)分布式訓(xùn)練的詳細(xì)信息。

對于分布式訓(xùn)練，需要使用流行的開源submitit工具，并提供SLURM集群的示例。

例如，要使用configs/in1k_vith14_ep300.yaml中指定的預(yù)訓(xùn)練實驗配置在16個A100 80G顯卡上進(jìn)行預(yù)訓(xùn)練，請輸入以下命令：

pythonmain_distributed.py \--fname configs/in1k_vith14_ep300.yaml \--folder $path_to_save_submitit_logs \--partition $slurm_partition \--nodes 2 --tasks-per-node 8 \--time 1000

網(wǎng)友評論

真是開創(chuàng)性的工作，吹爆了。自回歸模型的繼任者就在這里！
我相信，聯(lián)合嵌入架構(gòu)是人工智能的未來，而不是生成式的。但我就是很好奇，為什么我們不進(jìn)一步研究多模態(tài)（如ImageBind，而不僅僅是文本-圖像對），并且用像編碼器這樣的感知器來代替VIT編碼器？
很簡潔的工作。在我的理解中，它類似于掩蔽自動編碼器，但在潛在空間中定義時會丟失功能，而不是輸入/像素空間。不過，如果要詳細(xì)看懂，我還需要更多細(xì)節(jié)。
我的大腦只能看懂論文的10%，但如果I-JEPA真的能創(chuàng)建圖3中的目標(biāo)圖像，那就太神奇了，最重要的是：它和AI生成的MMORPG是相關(guān)的！
這個項目即將開源，網(wǎng)友也對Meta對于開源社區(qū)的貢獻(xiàn)表示贊賞。

參考資料：

https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/

本文來源：新智元，原文標(biāo)題：《LeCun世界模型出場！Meta震撼發(fā)布首個「類人」模型，理解世界后補全半張圖，自監(jiān)督學(xué)習(xí)眾望所歸》

風(fēng)險提示及免責(zé)條款市場有風(fēng)險，投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：