人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

斯坦福最新研究警告:別太迷信大模型涌現(xiàn)能力,那是度量選擇的結(jié)果

大模型出現(xiàn)后,涌現(xiàn)這一術(shù)語(yǔ)開(kāi)始流行起來(lái),通常表述為在小規(guī)模模型中不存在,但在大規(guī)模模型中存在的能力。但斯坦福大學(xué)的研究者對(duì) LLM 擁有涌現(xiàn)能力的說(shuō)法提出了質(zhì)疑,他們認(rèn)為是人為選擇度量方式的結(jié)果。
別太迷信大模型的涌現(xiàn),世界上哪兒有那么多奇跡?
斯坦福大學(xué)的研究者發(fā)現(xiàn),大模型的涌現(xiàn)與任務(wù)的評(píng)價(jià)指標(biāo)強(qiáng)相關(guān),并非模型行為在特定任務(wù)和規(guī)模下的基本變化,換一些更連續(xù)、平滑的指標(biāo)后,涌現(xiàn)現(xiàn)象就不那么明顯了,更接近線性。
近期,由于研究者們觀察到大型語(yǔ)言模型(LLMs),如 GPT、PaLM、LaMDA 可以在不同的任務(wù)中表現(xiàn)出所謂的「涌現(xiàn)能力」,這一術(shù)語(yǔ)在機(jī)器學(xué)習(xí)領(lǐng)域得到了極大關(guān)注:

事實(shí)上,復(fù)雜系統(tǒng)的新興特性一直以來(lái)都是物理學(xué)、生物學(xué)、數(shù)學(xué)等學(xué)科在研究的重點(diǎn)。

值得注意的一個(gè)觀點(diǎn)是,諾貝爾物理學(xué)獎(jiǎng)獲得者 P.W.Anderson 提出了「More Is Different」。這一觀點(diǎn)認(rèn)為,隨著系統(tǒng)復(fù)雜性的增加,新的屬性可能會(huì)具象化,即使從對(duì)系統(tǒng)微觀細(xì)節(jié)的精確定量理解中并不能(容易或根本無(wú)法)預(yù)測(cè)到。


(資料圖)

大模型領(lǐng)域的「涌現(xiàn)」如何定義?一種通俗的說(shuō)法是「在小規(guī)模模型中不存在,但在大規(guī)模模型中存在的能力」,因此,它們不能通過(guò)簡(jiǎn)單地推斷小規(guī)模模型的性能改進(jìn)來(lái)預(yù)測(cè)。

這種涌現(xiàn)的能力可能首先在 GPT-3 家族中被發(fā)現(xiàn)。后續(xù)的一些工作強(qiáng)調(diào)了這一發(fā)現(xiàn):「雖然模型性能在一般水平上是可以預(yù)測(cè)的,但在特定任務(wù)上,其性能有時(shí)會(huì)在規(guī)模上出現(xiàn)相當(dāng)難以預(yù)測(cè)的涌現(xiàn)」。事實(shí)上,這些涌現(xiàn)能力非常令人驚訝,以至于「突然的、特定的能力擴(kuò)展」已經(jīng)被認(rèn)為是 LLM 的兩個(gè)最高定義特征之一。此外,「breakthrough capabilities」和「sharp left turns」等術(shù)語(yǔ)也被使用。

綜上所述,我們可以確定 LLM 涌現(xiàn)能力的兩個(gè)決定性屬性:

1. 敏銳性,從「不存在」到「存在」似乎只是瞬間的過(guò)渡;

2. 不可預(yù)測(cè)性,在看似不可預(yù)見(jiàn)的模型規(guī)模內(nèi)過(guò)渡。

與此同時(shí),還有一些問(wèn)題懸而未決:是什么控制了哪些能力會(huì)涌現(xiàn)?什么控制著能力的涌現(xiàn)?我們?cè)鯓硬拍苁估硐氲哪芰Ω斓赜楷F(xiàn),并確保不理想的能力永不涌現(xiàn)?

這些問(wèn)題與人工智能的安全和對(duì)齊息息相關(guān),因?yàn)橛楷F(xiàn)的能力預(yù)示著更大的模型可能有一天會(huì)在沒(méi)有警告的情況下獲得對(duì)危險(xiǎn)能力的掌握,這是人類不希望發(fā)生的。

在最新的一篇論文中,斯坦福大學(xué)的研究者對(duì) LLM 擁有涌現(xiàn)能力的說(shuō)法提出了質(zhì)疑。

具體而言,此處的質(zhì)疑針對(duì)的是在特定任務(wù)中模型輸出作為模型規(guī)模的函數(shù)而發(fā)生的涌現(xiàn)和不可預(yù)測(cè)的變化。

他們的懷疑基于以下觀察:似乎只有在非線性或不連續(xù)地?cái)U(kuò)展任何模型的 per-token 錯(cuò)誤率的度量下,模型才會(huì)出現(xiàn)涌現(xiàn)能力。例如,在 BIG-Bench 任務(wù)中,>92% 的涌現(xiàn)能力是這兩個(gè)度量下出現(xiàn)的:

這就為 LLMs 的涌現(xiàn)能力的起源提出了另一種解釋的可能性:盡管模型族的 per-token 錯(cuò)誤率會(huì)隨著模型規(guī)模的增加進(jìn)行平滑、持續(xù)且可預(yù)測(cè)地變化,但看似尖銳和不可預(yù)測(cè)的變化可能是由研究者選擇的測(cè)量方法引起的。

也就是說(shuō),涌現(xiàn)能力可能是一種海市蜃樓,主要是由于研究者選擇了一種非線性或不連續(xù)地改變 per-token 錯(cuò)誤率的度量,部分原因是由于擁有太少的測(cè)試數(shù)據(jù),不足以準(zhǔn)確估計(jì)較小模型的性能(從而導(dǎo)致較小的模型看起來(lái)完全不能執(zhí)行任務(wù)),另一部分原因是由于評(píng)估了太少的大規(guī)模模型。

為了闡述這種解釋方式,研究者將其作為一個(gè)簡(jiǎn)單的數(shù)學(xué)模型,并證明它是如何從數(shù)量上再現(xiàn)為支持 LLM 的涌現(xiàn)能力而提供的證據(jù)。然后,研究者以三種互補(bǔ)的方式檢驗(yàn)了這種解釋:

1. 使用 InstructGPT [24]/GPT-3 [3] 模型系列,根據(jù)替代假說(shuō)做出、測(cè)試并確認(rèn)三個(gè)預(yù)測(cè)。2. 對(duì)先前的一些結(jié)果進(jìn)行了元分析,并表明在任務(wù)指標(biāo) - 模型家族三聯(lián)體的空間中,出現(xiàn)的能力只出現(xiàn)在某些指標(biāo)上,而不是任務(wù)上的模型家族(列)。該研究進(jìn)一步表明,在固定的模型輸出上,改變度量會(huì)導(dǎo)致涌現(xiàn)現(xiàn)象的消失。3. 故意在不同架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)中誘導(dǎo)出多個(gè)視覺(jué)任務(wù)的涌現(xiàn)能力(這在以前從未被證明過(guò)),以顯示類似的度量選擇如何誘導(dǎo)出看似涌現(xiàn)的能力。

檢驗(yàn)一:InstructGPT/GPT-3 模型系列分析

研究者選擇了 GPT 系列模型進(jìn)行進(jìn)一步分析,原因在于它是可公開(kāi)查詢的,這一點(diǎn)和其他模型系列不同(例如 PaLM、LaMDA、Gopher、Chinchilla)。在此前的研究中,GPT 系列模型被認(rèn)為在整數(shù)算術(shù)任務(wù)中展示出涌現(xiàn)能力。此處,研究者也選擇了整數(shù)算術(shù)這一任務(wù)。

圖 2: 大型語(yǔ)言模型的涌現(xiàn)能力是研究者分析的創(chuàng)造物,而不是模型輸出隨規(guī)模變化的根本性變化。

正如第 2 節(jié)中用數(shù)學(xué)和圖表解釋的那樣,研究者提出的替代解釋可以預(yù)測(cè)出三個(gè)結(jié)果:

1. 隨著模型規(guī)模提升,如果將度量從非線性 / 不連續(xù)的度量(圖 2CD)換成線性 / 連續(xù)的度量(圖 2EF),那么應(yīng)該會(huì)有平滑的、連續(xù)的、可預(yù)測(cè)的性能提升。

2. 對(duì)于非線性的度量,如果通過(guò)增大測(cè)試數(shù)據(jù)集的大小而提升所測(cè)模型性能的分辨率,那么應(yīng)該能讓模型得到平滑的、連續(xù)的、可預(yù)測(cè)的提升,并且該提升的比例與所選度量的可預(yù)測(cè)的非線性效應(yīng)是相對(duì)應(yīng)的。

3. 無(wú)論使用什么度量指標(biāo),提升目標(biāo)字符串長(zhǎng)度都應(yīng)該會(huì)對(duì)模型性能產(chǎn)生影響,該影響是長(zhǎng)度為 1 的目標(biāo)性能的一個(gè)函數(shù):對(duì)于準(zhǔn)確度是近乎幾何的函數(shù),對(duì)于 token 編輯距離是近乎準(zhǔn)線性的函數(shù)。

為了測(cè)試這三個(gè)預(yù)測(cè)結(jié)論,研究者收集了 InstructGPT/GPT-3 系列模型在兩個(gè)算術(shù)任務(wù)上的字符串輸出結(jié)果:使用 OpenAI API 執(zhí)行 2 個(gè)兩位數(shù)整數(shù)之間的兩樣本乘法以及 2 個(gè)四位數(shù)整數(shù)之間的兩樣本加法。


圖 3:隨著模型規(guī)模提升,改變度量可以為性能帶來(lái)平滑、連續(xù)、可預(yù)測(cè)的改變。

從左至右:數(shù)學(xué)模型,2 個(gè)兩位數(shù)整數(shù)乘法任務(wù), 2 個(gè)四位數(shù)整數(shù)加法任務(wù)。上方的圖是使用一個(gè)非線性度量(如準(zhǔn)確度)而測(cè)得的模型性能,可看到 InstructGPT/GPT-3 系列模型的性能在目標(biāo)長(zhǎng)度更長(zhǎng)時(shí)顯得銳利和不可預(yù)測(cè)。而下方的圖是使用一個(gè)線性度量(如 token 編輯距離)而測(cè)得的模型性能,此系列模型表現(xiàn)出了平滑的、可預(yù)測(cè)的性能提升,這是研究者宣稱的涌現(xiàn)產(chǎn)生的能力。

預(yù)測(cè):涌現(xiàn)能力在線性度量下會(huì)消失

在這兩個(gè)整數(shù)乘法和加法任務(wù)上,如果目標(biāo)字符串的長(zhǎng)度是 4 或 5 位數(shù)字并且性能的度量方式是準(zhǔn)確度(圖 3 上一行圖),那么 GPT 系列模型會(huì)展現(xiàn)出涌現(xiàn)的算術(shù)能力。但是,如果將一個(gè)度量從非線性換成線性,同時(shí)保持模型的輸出固定,那么該系列模型的性能會(huì)得到平滑、連續(xù)和可預(yù)測(cè)的提升。這就確認(rèn)了研究者的預(yù)測(cè),由此表明銳利和不確定性的來(lái)源是研究者所選擇的度量,而非模型的輸出的變化。還可以看到,在使用 token 編輯距離時(shí),如果將目標(biāo)字符串的長(zhǎng)度從 1 增大至 5,那么可預(yù)見(jiàn)該系列模型的性能會(huì)下降,并且下降趨勢(shì)是近乎準(zhǔn)線性的,這符合第三個(gè)預(yù)測(cè)的前半部分。

預(yù)測(cè):涌現(xiàn)能力隨著更高的分辨率評(píng)估的出現(xiàn)而消失

接下來(lái)是第二個(gè)預(yù)測(cè):即使是用準(zhǔn)確度等非線性度量,更小模型的準(zhǔn)確度也不會(huì)為零,而是高于偶然性的非零值,其比例是與選擇使用準(zhǔn)確度為度量相對(duì)應(yīng)的。為了提升分辨率,以進(jìn)一步能準(zhǔn)確估計(jì)模型準(zhǔn)確度,研究者還生成了其它一些測(cè)試數(shù)據(jù),然后他們發(fā)現(xiàn):不管是在整數(shù)乘法任務(wù)上還是在整數(shù)加法任務(wù)上,InstructGPT/GPT-3 系列的所有模型都得到了超過(guò)偶然性的正值準(zhǔn)確度(圖 4)。這驗(yàn)證了第二個(gè)預(yù)測(cè)??梢钥吹?,隨著目標(biāo)字符串長(zhǎng)度增大,準(zhǔn)確度會(huì)隨目標(biāo)字符串的長(zhǎng)度而呈現(xiàn)近乎幾何式的下降,這符合第三個(gè)預(yù)測(cè)的后半部分。這些結(jié)果還表明研究者選擇的準(zhǔn)確度會(huì)產(chǎn)生一些我們應(yīng)該能預(yù)料到的(近似)效果,即隨目標(biāo)長(zhǎng)度而近乎幾何式地衰減。


圖 4:使用更多測(cè)試數(shù)據(jù)集得到了更好的準(zhǔn)確度估計(jì),這揭示出性能的變化是平滑的、連續(xù)的和可預(yù)測(cè)的。

從左至右:數(shù)學(xué)模型,2 個(gè)兩位數(shù)整數(shù)乘法任務(wù), 2 個(gè)四位數(shù)整數(shù)加法任務(wù)。通過(guò)生成更多測(cè)試數(shù)據(jù)來(lái)提升分辨率,揭示出即使是在準(zhǔn)確度度量上,InstructGPT/GPT-3 系列模型的性能也是超出偶然結(jié)果的,并且其在兩種涌現(xiàn)能力上的提升是平滑的、連續(xù)的和可預(yù)測(cè)的,這兩種涌現(xiàn)能力的結(jié)果在定性上是與數(shù)學(xué)模型相符的。

檢驗(yàn)二:模型涌現(xiàn)的元分析

由于 GPT 系列模型是可以公開(kāi)查詢使用的,因此可以對(duì)它們進(jìn)行分析。但是,其它一些也有人聲稱具備涌現(xiàn)能力的模型(比如 PaLM、Chinchilla、Gopher)卻并不是公開(kāi)可用的,它們生成的輸出也沒(méi)有公開(kāi),這意味著研究者在分析已發(fā)表結(jié)果時(shí)是受限的。研究者基于自己提出的替代假設(shè)給出了兩個(gè)預(yù)測(cè):

第一,在「任務(wù) - 度量 - 模型系列」三元組的「群體層面(population level)」上,當(dāng)選擇使用非線性和 / 或非連續(xù)度量來(lái)評(píng)估模型性能時(shí),模型應(yīng)當(dāng)會(huì)在任務(wù)上表現(xiàn)出涌現(xiàn)能力。第二,對(duì)于展現(xiàn)出了涌現(xiàn)能力的特定「任務(wù) - 度量 - 模型系列」三元組,如果將度量改變成線性和 / 或連續(xù)度量,那么涌現(xiàn)能力應(yīng)該會(huì)被消除。

為了測(cè)試這兩個(gè)假設(shè),研究者調(diào)查了聲稱在 BIG-Bench 評(píng)估套件上涌現(xiàn)出的能力,因?yàn)樵谠撎准系幕鶞?zhǔn)是公開(kāi)可用的,并且也有很好的文檔。

預(yù)測(cè):涌現(xiàn)能力應(yīng)該主要出現(xiàn)在非線性 / 非連續(xù)度量上

為了測(cè)試第一個(gè)預(yù)測(cè),研究者分析了在哪些指標(biāo)上,不同的「任務(wù) - 模型系列」配對(duì)是否會(huì)出現(xiàn)涌現(xiàn)能力。為了確定一個(gè)「任務(wù) - 度量 - 模型系列」三元組是否可能展現(xiàn)出涌現(xiàn)能力,他們借用了論文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定義。令 y_i ∈ R 表示模型大小為 x_i ∈ R 時(shí)的模型性能,并使得 x_i < x_i+1,則涌現(xiàn)分?jǐn)?shù)為:


結(jié)果研究者發(fā)現(xiàn),BIG-Bench 使用的大多數(shù)度量中沒(méi)有表現(xiàn)出涌現(xiàn)能力的「任務(wù) - 模型系列」配對(duì):在人們偏好的 39 個(gè) BIG-Bench 度量中,至多 5 個(gè)展現(xiàn)出了涌現(xiàn)能力(圖 5A)。這 5 個(gè)大都是非線性的 / 非連續(xù)的,如精確字符串匹配、多選擇分級(jí)、ROUGE-L-Sum。值得注意的是,由于 BIG-Bench 通常使用多項(xiàng)度量來(lái)評(píng)估模型的任務(wù)表現(xiàn),因此在其它度量下缺乏涌現(xiàn)能力這一現(xiàn)象說(shuō)明:當(dāng)使用其它度量來(lái)評(píng)價(jià)模型輸出時(shí),涌現(xiàn)能力并不會(huì)出現(xiàn)。

由于涌現(xiàn)分?jǐn)?shù)僅表明有涌現(xiàn)能力,因此研究者還進(jìn)一步分析了論文《137 emergent abilities of large language models》中人工標(biāo)注的「任務(wù) - 度量 - 模型系列」三元組。人工標(biāo)注的數(shù)據(jù)表明 39 個(gè)度量中僅有 4 個(gè)表現(xiàn)出了涌現(xiàn)能力(圖 5B),并且它們中的 2 個(gè)就占到了所宣稱的涌現(xiàn)能力的 92% 以上(圖 5C)。多選擇分級(jí)和精確字符串匹配。多選擇分級(jí)是非連續(xù)的,精確字符串匹配是非線性的(在目標(biāo)長(zhǎng)度度量上的變化是近乎幾何式的)??傮w而言,這些結(jié)果說(shuō)明涌現(xiàn)能力僅出現(xiàn)在非常少量的非線性和 / 或非連續(xù)度量上。

圖 5:僅有少數(shù)度量會(huì)出現(xiàn)涌現(xiàn)能力。(A) 在人們偏好的 39 個(gè) BIG-Bench 度量中,至多只有 5 個(gè)度量上可能出現(xiàn)了涌現(xiàn)能力。(B) 所引論文中人工標(biāo)注的數(shù)據(jù)表明僅有 4 個(gè)人們偏好的度量表現(xiàn)出了涌現(xiàn)能力。(C) 涌現(xiàn)能力中 > 92% 都出現(xiàn)在以下兩個(gè)度量之一上:多選擇分級(jí)和精確字符串匹配。

預(yù)測(cè):如果替代非線性 / 非連續(xù)度量,涌現(xiàn)能力應(yīng)該會(huì)被消除

對(duì)于第二個(gè)預(yù)測(cè),研究者分析了前文所引論文中人工標(biāo)注的涌現(xiàn)能力。他們關(guān)注的是 LaMDA 系列,因?yàn)槠漭敵隹赏ㄟ^(guò) BIG-Bench 獲取,而其它模型系列的輸出無(wú)法這樣獲取。在已經(jīng)發(fā)表的 LaMDA 模型中,最小的有 20 億個(gè)參數(shù),但 BIG-Bench 中的許多 LaMDA 模型都小很多,而且研究者表示由于無(wú)法確定這些更小模型的來(lái)源,因此沒(méi)有在分析中考慮它們。在分析中,研究者認(rèn)定了在多選擇分級(jí)度量上 LaMDA 在哪些任務(wù)上展現(xiàn)出了涌現(xiàn)能力,然后他們提出了問(wèn)題:當(dāng)使用另一個(gè) BIG-Bench 度量 Brier 分?jǐn)?shù)時(shí),LaMDA 能否在同樣的任務(wù)上展現(xiàn)出涌現(xiàn)能力。Brier 分?jǐn)?shù)是一套嚴(yán)格適當(dāng)(strictly proper)的評(píng)分規(guī)則,其度量的是互斥結(jié)果的預(yù)測(cè);對(duì)于一個(gè)二元結(jié)果的預(yù)測(cè),Brier 分?jǐn)?shù)簡(jiǎn)化成了結(jié)果及其預(yù)測(cè)概率質(zhì)量之間的均方誤差。

研究者發(fā)現(xiàn),當(dāng)非連續(xù)度量多選擇分級(jí)變成連續(xù)度量 Brier 分?jǐn)?shù)時(shí)(圖 6),LaMDA 的涌現(xiàn)能力消失了。這進(jìn)一步說(shuō)明涌現(xiàn)能力的成因并非是隨規(guī)模增長(zhǎng)而導(dǎo)致的模型行為的本質(zhì)變化,而是對(duì)非連續(xù)度量的使用。

圖 6:在任務(wù)和模型系列保持不變的前提下改變 BIG-Bench 度量會(huì)導(dǎo)致涌現(xiàn)能力消失。上一行:當(dāng)使用的是一個(gè)非連續(xù)度量(多選擇分級(jí))時(shí),LaMDA 模型系列展現(xiàn)出了涌現(xiàn)能力。下一行:當(dāng)使用的是一個(gè)連續(xù)的 BIG-Bench 度量(Brier 分?jǐn)?shù))時(shí),LaMDA 模型系列在同樣任務(wù)上不再有涌現(xiàn)能力。

檢驗(yàn)三:誘導(dǎo) DNN 出現(xiàn)涌現(xiàn)能力

研究者的觀點(diǎn)是可以通過(guò)度量的選擇來(lái)誘導(dǎo)模型產(chǎn)生涌現(xiàn)能力;為了證明這一點(diǎn),他們展示了如何讓不同架構(gòu)(全連接、卷積、自注意力)的深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生涌現(xiàn)能力。這里研究者重點(diǎn)關(guān)注的是視覺(jué)任務(wù),原因有二。第一,人們現(xiàn)在主要關(guān)注大型語(yǔ)言模型的涌現(xiàn)能力,因?yàn)閷?duì)于視覺(jué)模型而言,目前還沒(méi)有觀察到模型能力從無(wú)突然轉(zhuǎn)變到有的現(xiàn)象。第二,某些視覺(jué)任務(wù)用大小適中的網(wǎng)絡(luò)就足以解決,因此研究者可以完整構(gòu)建出跨多個(gè)數(shù)量級(jí)規(guī)模的模型系列。

卷積網(wǎng)絡(luò)涌現(xiàn)出對(duì) MNIST 手寫(xiě)數(shù)字的分類能力

研究者首先誘導(dǎo)實(shí)現(xiàn) LeNet 卷積神經(jīng)網(wǎng)絡(luò)系列涌現(xiàn)出分類能力,訓(xùn)練數(shù)據(jù)集是 MNIST 手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集。這個(gè)系列展現(xiàn)出了隨參數(shù)數(shù)量增長(zhǎng),測(cè)試準(zhǔn)確度平滑提升的現(xiàn)象(圖 7B)。為了模擬有關(guān)涌現(xiàn)的論文中使用的準(zhǔn)確度度量,這里使用的是子集準(zhǔn)確度(subset accuracy):如果該網(wǎng)絡(luò)從 K 個(gè)(獨(dú)立的)測(cè)試數(shù)據(jù)中正確分類出了 K 個(gè)數(shù)據(jù),那么該網(wǎng)絡(luò)的子集準(zhǔn)確度為 1,否則為 0?;谶@一準(zhǔn)確度定義,在 K 從 1 增長(zhǎng)到 5 的設(shè)定中,該模型系列展現(xiàn)出了「涌現(xiàn)」能力,從而能夠正確分類 MNIST 數(shù)字集,尤其是結(jié)合了模型大小的稀疏采樣時(shí)(圖 7C)。這個(gè)卷積系列的涌現(xiàn)分類能力在定性分析上符合已發(fā)表論文中的涌現(xiàn)能力,比如在 BIG-Bench 的地形測(cè)繪任務(wù)上的結(jié)果(圖 7A)。

圖 7:在卷積網(wǎng)絡(luò)中誘導(dǎo)出涌現(xiàn)的 MNIST 分類能力。(A) 一篇已發(fā)表論文中的基于 BIG-Bench 地形測(cè)繪任務(wù)的涌現(xiàn)能力。(B) 在 MNIST 上訓(xùn)練的 LeNet 表現(xiàn)出:隨模型參數(shù)數(shù)量增長(zhǎng),測(cè)試準(zhǔn)確度展現(xiàn)出預(yù)測(cè)的、普遍的、S 形的增長(zhǎng)。(C) 當(dāng)把準(zhǔn)確度重新定義成從 K 個(gè)獨(dú)立測(cè)試數(shù)據(jù)中正確分類出 K 個(gè)時(shí),這個(gè)新定義的度量會(huì)誘導(dǎo)出一種似乎在預(yù)料之外的變化。

非線性自動(dòng)編碼器在 CIFAR100 自然圖像集上涌現(xiàn)出重建能力

為了凸顯出研究者所選度量的銳利度是涌現(xiàn)能力的原因,并且為了表明這種銳利度不僅限于準(zhǔn)確度等度量,研究者又誘導(dǎo)在 CIFAR100 自然圖像集上訓(xùn)練的淺度(即單隱藏層)非線性自動(dòng)編碼器涌現(xiàn)出重建圖像輸入的能力。為此,他們刻意定義了一個(gè)新的用于衡量模型能力的不連續(xù)度量,該度量為平方重建誤差低于固定閾值 c 的測(cè)試數(shù)據(jù)的平均數(shù)量:

其中 I (?) 是一個(gè)隨機(jī)指示變量,x^n 是自動(dòng)編碼器對(duì) x_n 的重建。研究者檢視了自動(dòng)編碼器瓶頸單元的數(shù)量,然后發(fā)現(xiàn)隨模型規(guī)模增長(zhǎng),網(wǎng)絡(luò)的均方重建誤差會(huì)表現(xiàn)出平滑的下降趨勢(shì)(圖 8B),但如果使用新定義的重建度量,對(duì)于選定的 c,這個(gè)自動(dòng)編碼器系列在重建該數(shù)據(jù)集上展現(xiàn)出的能力是銳利的和幾乎不可預(yù)測(cè)的(圖 8C),這個(gè)結(jié)果在定性分析上符合已發(fā)表論文中的涌現(xiàn)能力,比如 BIG-Bench 中的 Periodic Elements(周期性元素)任務(wù)(圖 8A)。

圖 8:在淺度非線性自動(dòng)編碼器中誘導(dǎo)出涌現(xiàn)的重建能力。(A) 一篇已發(fā)表論文中的基于 BIG-Bench 周期性元素任務(wù)的涌現(xiàn)能力。(B) 在 CIFAR100 上訓(xùn)練的淺度非線性自動(dòng)編碼器展現(xiàn)出了平滑下降的均方重建誤差。(C) 使用新定義的重建度量(公式 2)誘導(dǎo)出了不可預(yù)測(cè)的變化。

自回歸 Transformer 在 Omniglot 字符集上涌現(xiàn)出了分類能力

接下來(lái)是 Transformer 的涌現(xiàn)能力,其使用的是自回歸方法來(lái)分類 Omniglot 手寫(xiě)字符。研究者使用的實(shí)驗(yàn)設(shè)置是類似的:Omniglot 圖像先由卷積層嵌入,然后以 [嵌入圖像,圖像類別標(biāo)簽] 配對(duì)組成序列的方式輸入僅解碼器的 Transformer,而該 Transformer 的訓(xùn)練目標(biāo)是預(yù)測(cè) Omniglot 類別標(biāo)簽。研究者是在長(zhǎng)度為 L ∈ [1, 5] 的序列上測(cè)量圖像分類性能,同樣是通過(guò)子集準(zhǔn)確度來(lái)度量:如果所有 L 圖像都分類正確(圖 9B)則子集準(zhǔn)確度為 1,否則為 0。Causal Transformer 在正確分類 Omniglot 手寫(xiě)字符任務(wù)上似乎展現(xiàn)出了涌現(xiàn)能力(圖 9C),該結(jié)果在定性分析上符合已發(fā)表論文中的涌現(xiàn)能力,比如大規(guī)模多任務(wù)語(yǔ)言理解(圖 9A)。

圖 9:在自回歸 Transformer 中誘導(dǎo)出涌現(xiàn)的分類能力。(A) 一篇已發(fā)表論文中基于 MMLU 基準(zhǔn)的涌現(xiàn)能力。(B) 隨模型參數(shù)增多,使用自回歸方法來(lái)分類 Omniglot 手寫(xiě)數(shù)字的 Transformer 的測(cè)試準(zhǔn)確度也表現(xiàn)為增長(zhǎng)。(C) 當(dāng)將準(zhǔn)確度重新定義為正確分類序列中的所有圖像時(shí),該指標(biāo)更難被預(yù)測(cè),這似乎說(shuō)明誘導(dǎo)出了涌現(xiàn)能力。

風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

關(guān)鍵詞: