全球新資訊：關(guān)于GTP-4，這是14個被忽略的驚人細節(jié)！

3月14日，OpenAI推發(fā)布了GPT-4。向科技界再次扔下了一枚“核彈”。

根據(jù)OpenAI的演示，我們知道了GPT-4擁有著比GPT-3.5更強大的力量：總結(jié)文章、寫代碼、報稅、寫詩等等。

但如果我們深入OpenAI所發(fā)布的技術(shù)報告，我們或許還能發(fā)現(xiàn)有關(guān)GPT-4更多的特點……

(資料圖片僅供參考)

以及一些OpenAI沒有點名和宣揚的，可能會令人背后一涼的細節(jié)。

1.新Bing裝載GPT-4

自然而然地，GPT-4發(fā)布之時，新Bing也已經(jīng)裝載了最新的版本。

根據(jù)微軟Bing副總裁Jordi Ribas在推特上所述，裝載了GPT-4的新Bing已經(jīng)將問答限制提升到了一次15個問題，一天最多提問150次。

2.文本長度擴大八倍

在GPT-4上，文本長度被顯著提高。

在此之前我們知道，調(diào)用GPT的API收費方式是按照“token”計費，一個token通常對應(yīng)大約 4 個字符，而1個漢字大致是2~2.5個token。

在GPT-4之前，token的限制大約在4096左右，大約相當(dāng)于3072個英文單詞，一旦對話的長度超過這個限制，模型就會生成不連貫且無意義的內(nèi)容。

然而，到了GPT-4，最大token數(shù)為32768個，大約相當(dāng)于24576個單詞，文本長度被擴大了八倍。

也就是說，GPT-4現(xiàn)在可以回答更長的文本了。

OpenAI在文檔中表示，現(xiàn)在GPT-4限制的上下文長度限制為8192個token，允許32768個token的版本名為GPT-4-32K，目前暫時限制了訪問權(quán)限。在不久的未來，這一功能可能會被開放。

3.模型參數(shù)成為秘密

我們知道，GPT-3.5模型的參數(shù)量為2000億，GPT-3的參數(shù)量為1750億，但這一情況在GPT-4被改變了。

OpenAI在報告中表示：

考慮到競爭格局和大型模型(如GPT-4)的安全影響，本報告沒有包含有關(guān)架構(gòu)(包括模型大小)、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)造、訓(xùn)練方法或類似內(nèi)容的進一步細節(jié)。

這意味著OpenAI沒有再披露GPT-4模型的大小、參數(shù)的數(shù)量以及使用的硬件。

OpenAI稱此舉是考慮到對競爭者的憂慮，這可能是在暗示其對于競爭者——谷歌Bard——所采取的策略。

此外，OpenAI還提到“大型模型的安全影響”，盡管沒有進一步解釋，但這同樣也暗指生成式人工智能所可能面對的更嚴肅的問題。

4.有選擇地表達的“優(yōu)秀”

GPT-4推出后，我們都看到了這一模型較上一代的優(yōu)秀之處：

GPT-4通過模擬律師考試，分數(shù)在應(yīng)試者的前10% 左右；相比之下，GPT-3.5 的得分在倒數(shù) 10% 左右。

但這實際上是OpenAI的一個小把戲——它只展示給你GPT-4最優(yōu)秀的那部分，而更多的秘密藏在報告中。

下圖顯示的是GPT-4和GPT-3.5參加一些考試的成績表現(xiàn)。可以看到，GPT-4并非在所有考試中的表現(xiàn)都那么優(yōu)秀，GPT-3.5也并非一直都很差勁。

5.“預(yù)測”準(zhǔn)確度提升

在ChatGPT推出以來，我們都知道這一模型在很多時候會“一本正經(jīng)地胡說八道”，給出很多看似有理但實際上并不存在的論據(jù)。

尤其是在預(yù)測某些事情的時候，由于模型掌握了過去的數(shù)據(jù)，這反而導(dǎo)致了一種名為“后見之明”的認知偏差，使得模型對于自己的預(yù)測相當(dāng)自信。

OpenAI在報告中表示，隨著模型規(guī)模的增加，模型的準(zhǔn)確度本應(yīng)逐漸下降，但GPT-4逆轉(zhuǎn)了這一趨勢，下圖顯示預(yù)測精確度提升到了100。

OpenAI表示，雖然GPT-4的準(zhǔn)確度顯著提高，但預(yù)測仍是一件困難的事，他們還將就這一方面繼續(xù)訓(xùn)練模型。

6.?還有30%的人更認可GPT3.5

盡管GPT-4展現(xiàn)出了比GPT-3.5優(yōu)秀得多的能力，但OpenAI的調(diào)查顯示，有70%的人認可GPT-4輸出的結(jié)果：

GPT-4在遵循用戶意圖的能力方面比以前的模型有了大幅提高。在提交給ChatGPT和OpenAI API的5214個提示的數(shù)據(jù)集中，70.2%GPT-4生成的回答優(yōu)于GPT3.5。

這意味著：仍有30%的人更認可GPT-3.5。

7.GPT-4語言能力更佳

盡管許多機器學(xué)習(xí)的測試都是用英文編寫的，但OpenAI仍然用許多其他的語言對GPT-4進行了測試。

測試結(jié)果顯示，在測試26種語言中的24種中，GPT-4優(yōu)于 GPT-3.5和其他 LLM（Chinchilla、PaLM）的英語語言性能，包括拉脫維亞語、威爾士語和斯瓦希里語等低資源語言：

8.新增圖像分析能力

圖像分析能力是此次GPT-4最顯著的進步之一。

OpenAI表示，GPT-4可以接受文本和圖像的提問，這與純文本設(shè)置并行，且允許用戶制定任何視覺或語言的任務(wù)。具體來說，它可以生成文本輸出，用戶可以輸入穿插的文本和圖像。

在一系列領(lǐng)域——包括帶有文本和照片的文檔、圖表或屏幕截圖——GPT-4 展示了與純文本輸入類似的功能。

下圖顯示，GPT-4可以準(zhǔn)確地描述出圖片中的滑稽之處（大型 VGA 連接器插入小型現(xiàn)代智能手機充電端口，一個人站在出租車后方熨衣服）。

OpenAI還對GPT-4的圖像分析能力進行了學(xué)術(shù)標(biāo)準(zhǔn)上的測試：

不過，GPT-4的圖像分析功能尚未對外公開，用戶可以通過bemyeye網(wǎng)站加入等候隊列。

9. 仍然存在錯誤

盡管GPT-4功能強大，但它與早期GPT模型有相似的局限性。

OpenAI表示，GPT-4仍然不完全可靠——它會“產(chǎn)生幻覺”事實并犯推理錯誤：

在使用語言模型輸出時，特別是在高風(fēng)險上下文中，應(yīng)該非常小心，使用與特定應(yīng)用程序的需求相匹配的確切協(xié)議(例如人工檢查、附加上下文或完全避免高風(fēng)險使用)。
與之前的GPT-3.5模型相比，GPT-4顯著減少了“幻覺”(GPT-3.5模型本身也在不斷迭代中得到改進)。在我們內(nèi)部的、對抗性設(shè)計的事實性評估中，GPT-4的得分比我們最新的GPT-3.5高出19個百分點。

10.數(shù)據(jù)庫的時間更早

介紹完GPT-4的優(yōu)點，接下來就是一些（可能有些奇怪的）不足之處。

我們都知道，ChatGPT的數(shù)據(jù)庫的最后更新時間是在2021年的12月31日，這意味著2022年以后發(fā)生的事情不會被知曉，而這一缺陷在之后的GPT-3.5也得到了修復(fù)。

但奇怪的是，GPT-4的報告中，OpenAI清晰地寫道：

GPT-4通常缺乏對其絕大多數(shù)訓(xùn)練前數(shù)據(jù)在2021年9月中斷后發(fā)生的事件的知識，并且不從其經(jīng)驗中學(xué)習(xí)。它有時會犯一些簡單的推理錯誤，這些錯誤似乎與許多領(lǐng)域的能力不相符，或者過于容易受騙，接受用戶的明顯錯誤陳述。它可以像人類一樣在棘手的問題上失敗，比如在它生成的代碼中引入安全漏洞。

2021年9月……甚至比GPT-3還早。

在裝載了GPT-4的最新ChatGPT中，當(dāng)我們問起“誰是2022年世界杯冠軍”時，ChatGPT果然還是一無所知：

但當(dāng)借助了新Bing的檢索功能后，它又變得“聰明”了起來：

11.可能幫助犯罪

在報告中，OpenAI提到了GPT-4可能仍然會幫助犯罪——這是在此前的版本都存在的問題，盡管OpenAI已經(jīng)在努力調(diào)整，但仍然存在：

與之前的GPT模型一樣，我們使用強化學(xué)習(xí)和人類反饋(RLHF)對模型的行為進行微調(diào)，以產(chǎn)生更好地符合用戶意圖的響應(yīng)。
然而，在RLHF之后，我們的模型在不安全輸入上仍然很脆弱，有時在安全輸入和不安全輸入上都表現(xiàn)出我們不希望看到的行為。
在RLHF路徑的獎勵模型數(shù)據(jù)收集部分，當(dāng)對標(biāo)簽器的指令未指定時，就會出現(xiàn)這些不希望出現(xiàn)的行為。當(dāng)給出不安全的輸入時，模型可能會生成不受歡迎的內(nèi)容，例如給出犯罪建議。
此外，模型也可能對安全輸入過于謹慎，拒絕無害的請求或過度對沖。
為了在更細粒度的級別上引導(dǎo)我們的模型走向適當(dāng)?shù)男袨椋覀冊诤艽蟪潭壬弦蕾囉谖覀兊哪Ｐ捅旧碜鳛楣ぞ?。我們的安全方法包括兩個主要組成部分，一套額外的安全相關(guān)RLHF訓(xùn)練提示，以及基于規(guī)則的獎勵模型(RBRMs)。

12.垃圾信息

同樣地，由于GPT-4擁有“看似合理地表達錯誤事情”的能力，它有可能在傳播有害信息上頗為“有用”：

GPT-4可以生成逼真而有針對性的內(nèi)容，包括新聞文章、推文、對話和電子郵件。
在《有害內(nèi)容》中，我們討論了類似的能力如何被濫用來剝削個人。在這里，我們討論了關(guān)于虛假信息和影響操作的普遍關(guān)注基于我們的總體能力評估，我們期望GPT-4在生成現(xiàn)實的、有針對性的內(nèi)容方面優(yōu)于GPT-3。
但，仍存在GPT-4被用于生成旨在誤導(dǎo)的內(nèi)容的風(fēng)險。

13.尋求權(quán)力

從這一條開始，接下來的內(nèi)容可能有些恐怖。

在報告中，OpenAI提到了GPT-4出現(xiàn)了“尋求權(quán)力”的傾向，并警告這一特征的風(fēng)險：

在更強大的模型中經(jīng)常出現(xiàn)新的能力。一些特別令人關(guān)注的能力是創(chuàng)建長期計劃并采取行動的能力，積累權(quán)力和資源（“尋求權(quán)力”），以及表現(xiàn)出越來越“代理”的行為。
這里的 “代理”不是指語言模型的人性化，也不是指智商，而是指以能力為特征的系統(tǒng)，例如，完成可能沒有具體規(guī)定的、在訓(xùn)練中沒有出現(xiàn)的目標(biāo)；專注于實現(xiàn)具體的、可量化的目標(biāo)；以及進行長期規(guī)劃。
已經(jīng)有一些證據(jù)表明模型中存在這種突發(fā)行為。
對于大多數(shù)可能的目標(biāo)，最好的計劃涉及輔助性的權(quán)力尋求，因為這對推進目標(biāo)和避免目標(biāo)的改變或威脅有內(nèi)在的幫助。
更具體地說，對于大多數(shù)獎勵函數(shù)和許多類型的代理人來說，權(quán)力尋求是最優(yōu)的；而且有證據(jù)表明，現(xiàn)有模型可以將權(quán)力尋求確定為一種工具性的有用策略。
因此，我們對評估權(quán)力尋求行為特別感興趣，因為它可能帶來高風(fēng)險。

更為令人毛骨悚然的是，在Openai提到的另一篇論文中寫道：

相反，我們使用代理這個術(shù)語來強調(diào)一個日益明顯的事實：即機器學(xué)習(xí)系統(tǒng)不完全處于人類控制之下。

14.賦予GPT-4錢、代碼和夢想

最后一個小細節(jié)。

在測試GPT-4的過程中，OpenAI引入的外部的專家團隊ARC作為“紅方”。在報告的一條注釋中，OpenAI提到了ARC的一個操作：

為了模擬GPT-4像一個可以在現(xiàn)實世界中行動的代理一樣的行為，ARC將GPT-4與一個簡單的讀取-執(zhí)行-打印循環(huán)結(jié)合起來，允許模型執(zhí)行代碼，進行鏈?zhǔn)酵评恚⑽薪o自己的副本。
ARC隨后推進了在云計算服務(wù)上運行這個程序的一個版本，用少量的錢和一個帶有語言模型API的賬戶，是否能夠賺更多的錢，建立自己的副本，并增加自己的穩(wěn)健性。

也就是說，ARC賦予了GPT-4自我編碼、復(fù)制和執(zhí)行的能力，甚至啟動資金——GPT-4已經(jīng)可以開始自己賺錢了。

風(fēng)險提示及免責(zé)條款市場有風(fēng)險，投資需謹慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負。

關(guān)鍵詞：