人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

<samp id="y0i0a"><tfoot id="y0i0a"></tfoot></samp>

<blockquote id="y0i0a"></blockquote>

<ul id="y0i0a"><tfoot id="y0i0a"></tfoot></ul>

您的位置：首頁 > 產(chǎn)經(jīng) >

GPT-4要來了！一文看盡大型語言模型的過去、現(xiàn)在、未來

來源：華爾街見聞 ? 2023-03-14 16:58:09

(資料圖片)

3月12日，由中國人民大學(xué)高瓴人工智能學(xué)院主辦的AIGC論壇在北京舉行，本次會議以“AIGC：從不存在到存在”為議題，探討對話生成模型、多媒體內(nèi)容生成等人工智能（AI）前沿技術(shù)的發(fā)展趨勢。

在對話與語言生成模型專場，哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授車萬翔、中國科學(xué)院自動化研究所研究員張家俊、中國人民大學(xué)高瓴人工智能學(xué)院長聘副教授嚴(yán)睿、新浪微博資深算法專家張俊林分別作報(bào)告。

這場學(xué)術(shù)盛會干貨滿滿，不僅系統(tǒng)性地回顧了自然語言處理（NLP）的五個發(fā)展階段，對大型語言模型研究的三個主要技術(shù)路徑進(jìn)行解讀，并拆解了ChatGPT的四項(xiàng)關(guān)鍵技術(shù)，還就大型語言模型研究重心的變遷與未來趨勢進(jìn)行探討。

01.NLP五級進(jìn)階路：從基于規(guī)則到遵循人的價(jià)值觀

新浪微博資深算法專家張俊林認(rèn)為，要想探尋大型語言模型未來怎么走，需要先回顧此前是怎么一路變遷的。他將自然語言處理發(fā)展到大型語言模型的歷程分為五個階段：規(guī)則、統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、預(yù)訓(xùn)練、大型語言模型。

機(jī)器翻譯是NLP中難度最高、綜合性最強(qiáng)的任務(wù)。因此張俊林以機(jī)器翻譯任務(wù)為例來對比不同階段的特點(diǎn)以及技術(shù)棧、數(shù)據(jù)的變化，以此展示NLP如何一步步演進(jìn)。

規(guī)則階段大致從1956年到1992年，基于規(guī)則的機(jī)器翻譯系統(tǒng)是在內(nèi)部把各種功能的模塊串到一起，由人先從數(shù)據(jù)中獲取知識，歸納出規(guī)則，寫出來教給機(jī)器，然后機(jī)器來執(zhí)行這套規(guī)則，從而完成特定任務(wù)。

統(tǒng)計(jì)機(jī)器學(xué)習(xí)階段大致從1993年到2012年，機(jī)器翻譯系統(tǒng)可拆成語言模型和翻譯模型，這里的語言模型與現(xiàn)在的GPT-3/3.5的技術(shù)手段一模一樣。該階段相比上一階段突變性較高，由人轉(zhuǎn)述知識變成機(jī)器自動從數(shù)據(jù)中學(xué)習(xí)知識，主流技術(shù)包括SVM、HMM、MaxEnt、CRF、LM等，當(dāng)時(shí)人工標(biāo)注數(shù)據(jù)量在百萬級左右。

深度學(xué)習(xí)階段大致從2013-2018年，相對上一階段突變性較低，從離散匹配發(fā)展到embedding連續(xù)匹配，模型變得更大。該階段典型技術(shù)棧包括Encoder-Decoder、LSTM、Attention、Embedding等，標(biāo)注數(shù)據(jù)量提升到千萬級。

預(yù)訓(xùn)練階段是從2018年到2022年，相比之前的最大變化是加入自監(jiān)督學(xué)習(xí)，張俊林認(rèn)為這是NLP領(lǐng)域最杰出的貢獻(xiàn)，將可利用數(shù)據(jù)從標(biāo)注數(shù)據(jù)拓展到了非標(biāo)注數(shù)據(jù)。該階段系統(tǒng)可分為預(yù)訓(xùn)練和微調(diào)兩個階段，將預(yù)訓(xùn)練數(shù)據(jù)量擴(kuò)大3到5倍，典型技術(shù)棧包括Encoder-Decoder、Transformer、Attention等。

大型語言模型階段從2023年起，目的是讓機(jī)器能聽懂人的命令、遵循人的價(jià)值觀。其特性是在第一個階段把過去的兩個階段縮成一個預(yù)訓(xùn)練階段，第二階段轉(zhuǎn)換成與人的價(jià)值觀對齊，而不是向領(lǐng)域遷移。這個階段的突變性是很高的，已經(jīng)從專用任務(wù)轉(zhuǎn)向通用任務(wù)，或是以自然語言人機(jī)接口的方式呈現(xiàn)。

隨后他介紹了一個研究工作的結(jié)論：在高資源語言上，ChatGPT機(jī)器翻譯效果與商用MT系統(tǒng)效果接近；在低資源語言上，目前ChatGPT機(jī)器翻譯效果與商用MT系統(tǒng)相比差得比較遠(yuǎn)。

從這些階段中數(shù)據(jù)、算法、人機(jī)關(guān)系的變化，可以觀察到NLP的發(fā)展趨勢。

數(shù)據(jù)方面，從少量標(biāo)注數(shù)據(jù)、大量標(biāo)注數(shù)據(jù)、海量非標(biāo)注數(shù)據(jù)+少量標(biāo)注數(shù)據(jù)到海量非標(biāo)注數(shù)據(jù)，越來越多數(shù)據(jù)被利用起來，人的介入越來越少，未來會有更多文本數(shù)據(jù)、更多其它形態(tài)的數(shù)據(jù)被用起來，更遠(yuǎn)的未來是任何我們能見到的電子數(shù)據(jù)，都應(yīng)該讓機(jī)器自己從中學(xué)到知識或能力。

算法方面，表達(dá)能力越來越強(qiáng)，規(guī)模越來越大，自主學(xué)習(xí)能力越來越強(qiáng)，從專用向通用，沿著這個趨勢往后，未來Transformer預(yù)計(jì)夠用，同時(shí)也需要替代Transformer的新型模型，逐步邁向通用人工智能。

人機(jī)關(guān)系方面，人的角色逐漸從教導(dǎo)者轉(zhuǎn)向監(jiān)督者，未來可能會從人機(jī)協(xié)作、機(jī)器向人學(xué)習(xí)，發(fā)展成人向機(jī)器學(xué)習(xí)，最后由機(jī)器拓展人類。

02.大型語言模型的三大技術(shù)路線：Bert、GPT、混合模式

張俊林分享道，近5年來，大型語言模型研究的發(fā)展有三條技術(shù)路線：Bert模式、GPT模式、混合模式。其中國內(nèi)大多采用混合模式，多數(shù)主流大型語言模型走的是GPT技術(shù)路線，直到2022年底在GPT-3.5的基礎(chǔ)上產(chǎn)生了ChatGPT。

可以看到，到2019年后，Bert路線基本上就沒有什么標(biāo)志性的新模型出現(xiàn)了，而GPT技術(shù)路線趨于繁榮。從Bert往GPT走，模型越來越大，做的事越來越通用。

大型語言模型按照從數(shù)據(jù)到知識來劃分，數(shù)據(jù)可分為通用數(shù)據(jù)和領(lǐng)域數(shù)據(jù)，知識分為語言知識和世界知識；從任務(wù)類型來劃分，可以分為單一任務(wù)和多任務(wù)、理解類和生成類。

Bert模式有兩階段（雙向語言模型預(yù)訓(xùn)練+任務(wù)Fine-tuning），適用于理解類、做理解類、某個場景的具體任務(wù)，專而輕。

GPT模式是由兩階段到一階段（單向語言模型預(yù)訓(xùn)練+zero shot prompt/Instruct），比較適合生成類任務(wù)、多任務(wù)，重而通。

T5模式將兩者的方法結(jié)合，有兩階段（單向語言模型預(yù)訓(xùn)練+Fine-tuning）。張俊林稱這種模式“形似GPT，神似Bert”，生成和理解都行，從效果上看較適合理解類任務(wù)，國內(nèi)很多大型語言模型采用這種模式。

目前的研究結(jié)論是，如果模型規(guī)模不是特別大，面向單一領(lǐng)域的理解類任務(wù)，適合用T5模式。做生成類任務(wù)時(shí)，用GPT模式效果最好。

如果單獨(dú)考慮zero-shot，GPT模式效果最好；如果在預(yù)訓(xùn)練后引入多任務(wù)fine-tuning，則T5模式效果好。不過張俊林認(rèn)為這個結(jié)論存疑，因?yàn)槟壳暗膶?shí)驗(yàn)Encoder-Decoder都是Decoder-only參數(shù)量的兩倍。

綜合來看，當(dāng)前幾乎所有參數(shù)規(guī)模超過千億的大型語言模型都采取GPT模式。張俊林分析可能的原因有三點(diǎn)：1、Encoder-Decoder里的雙向attention，損害zero shot能力；2、Encoder-Decoder結(jié)構(gòu)在生成Token時(shí)，只能對Encoder高層做attention，Decoder-only結(jié)構(gòu)在生成Token時(shí)可以逐層Attention，信息更細(xì)粒度；3、Encoder-Decoder訓(xùn)練“中間填空”，生成最后單詞Next Token，存在不一致性，Decoder-only結(jié)構(gòu)訓(xùn)練和生成方式一致。

03.用提示學(xué)習(xí)方法，觸發(fā)大模型通用能力

從GPT的成長路徑來看，哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授車萬翔談道，2018年第一代GPT真正開啟NLP預(yù)訓(xùn)練模型時(shí)代，但沒有引起特別大的關(guān)注，其風(fēng)頭被Bert蓋住。2019年GPT-2模型的參數(shù)變得更多，但仍未引起很大轟動。

2020年GPT-3模型發(fā)布，2022年3月InstructGPT模型問世，當(dāng)時(shí)重點(diǎn)是用1%參數(shù)達(dá)到1750億參數(shù)的GPT-3的效果，也沒有特別令人興奮，直到ChatGPT誕生，直接推向市場和面向終端用戶，并憑借驚艷的效果在社會上引起廣泛關(guān)注。

為什么GPT-3問世兩年了，還沒有受到足夠廣泛的關(guān)注？車萬翔認(rèn)為，這是因?yàn)樗唤鉀Q了知識存儲問題，尚未很好解決“知識怎么調(diào)用”的問題，而ChatGPT相當(dāng)于解決了這一部分。兩塊打通后，就產(chǎn)生了非常好的應(yīng)用效果。

中國科學(xué)院自動化研究所研究員張家俊介紹了ChatGPT的通用能力基座。OpenAI在2020年用45T文本數(shù)據(jù)，通過自監(jiān)督訓(xùn)練獲得基礎(chǔ)大模型GPT-3，實(shí)現(xiàn)了流暢性、知識性；2021年在GPT-3基礎(chǔ)上利用179G代碼數(shù)據(jù)，通過自監(jiān)督訓(xùn)練獲得邏輯編程模型Codex；2022年利用更多更新文本數(shù)據(jù)和代碼數(shù)據(jù)的混合學(xué)習(xí)，得到了更強(qiáng)的基礎(chǔ)大模型GPT-3.5，這成為ChatGPT的基礎(chǔ)模型，實(shí)現(xiàn)了流暢性、知識性和邏輯性。

據(jù)他分享，大模型的通用能力由基礎(chǔ)模型決定，GPT-3用提示學(xué)習(xí)方法觸發(fā)通用能力。

參數(shù)微調(diào)通過任務(wù)相關(guān)的監(jiān)督數(shù)據(jù)修改模型參數(shù)，能夠最大限度激發(fā)預(yù)訓(xùn)練大模型完成特定任務(wù)的能力，但面臨數(shù)據(jù)稀、災(zāi)難遺忘、資源浪費(fèi)、通用性差等難題。

提示學(xué)習(xí)通過設(shè)計(jì)提示信息修改輸入模式，能夠觸發(fā)預(yù)訓(xùn)練大模型完成特定任務(wù)，但是單一的外部提示信號難以最大限度地激發(fā)預(yù)訓(xùn)練大模型的能力，從而高質(zhì)量完成具體任務(wù)。

將兩者結(jié)合，通過若干任務(wù)相關(guān)的經(jīng)過提示增強(qiáng)的監(jiān)督數(shù)據(jù)修改模型參數(shù)，有助于激發(fā)模型的通用能力。

OpenAI聘請數(shù)據(jù)標(biāo)注團(tuán)隊(duì)，根據(jù)各垂直領(lǐng)域問題指令撰寫人工答案，并從開放的GPT-3、InstructGPT等API接口收集全球用戶的問題指令，對其按照問答、摘要等領(lǐng)域進(jìn)行分類；同時(shí)借助指令學(xué)習(xí)，在GPT-3.5的基礎(chǔ)上利用各領(lǐng)域人工撰寫的指令與答案對模型進(jìn)行微調(diào)。

當(dāng)模型參數(shù)規(guī)模達(dá)到百億以上時(shí)，幾十個任務(wù)聯(lián)合指令學(xué)習(xí)可以解決沒有見過的任務(wù)。

張家俊強(qiáng)調(diào)說，任何大模型都有其能力邊界，幾乎不可能實(shí)現(xiàn)面向無限任務(wù)的通用能力，但可以通過讓大模型學(xué)會與其他模型、工具和環(huán)境進(jìn)行交互，實(shí)現(xiàn)大模型通用能力的拓展。

紫東太初多模態(tài)大模型便嘗試模型交互實(shí)現(xiàn)通用多模態(tài)對話。這是一個擁有千億參數(shù)規(guī)模的圖文音三模態(tài)大模型，通過學(xué)會API的使用，讓較小的語言大模型擁有通用的多模態(tài)對話能力。3月24日，張家俊將在「GTIC 2023中國AIGC創(chuàng)新峰會」上發(fā)表演講，分享紫東太初大模型的更多進(jìn)展。

04.

解讀ChatGPT四大關(guān)鍵技術(shù)

下圖是車萬翔分享的從GPT-3到ChatGPT的技術(shù)演化路徑。

總體而言，ChatGPT有四個關(guān)鍵技術(shù)：

1、大規(guī)模預(yù)訓(xùn)練模型：只有模型規(guī)模足夠大，才可能具備推理能力。中國人民大學(xué)高瓴人工智能學(xué)院長聘副教授嚴(yán)睿談道，智能涌現(xiàn)不是故意設(shè)計(jì)出來的，而是大模型規(guī)模大到一定程度后，天然具備這樣的特性。

2、在代碼上進(jìn)行預(yù)訓(xùn)練：可能代碼把解決一個大的問題分解成若干個小的問題，這種分布解決問題的方式有助于自然語言推理。和自然語言模型相比，代碼語言模型需要更長的上下文的依賴。

3、Prompt/Instruction Tuning：GPT-3模型太大，已經(jīng)沒辦法去精調(diào)了，只能用prompt，但是如果不精調(diào)，模型相當(dāng)于還是一個語言模型，沒辦法適應(yīng)人，只能由人去適應(yīng)模型。讓人適應(yīng)模型只能用指令的方式，再進(jìn)行精調(diào)，這相比預(yù)訓(xùn)練代價(jià)要小的多。所以指令上精調(diào)就可以把一些不太多的數(shù)據(jù)，把語言模型的任務(wù)掰到適應(yīng)人類的回答問題。

4、基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）：這對于結(jié)果好壞的影響不是特別大，甚至?xí)拗普Z言模型生成的能力，但這種方式可能更好地和人類在安全性、無毒無害等等方面的價(jià)值觀對齊。當(dāng)模型上線后，它可以收集到更多用戶的反饋。

嚴(yán)睿認(rèn)為Human-in-the-Loop可能是大型語言模型成功的一個重要因素，通過RLHF不斷獲得人類反饋，將人的指令與機(jī)器的理解逐漸對齊，實(shí)現(xiàn)智能的不斷演化。

展望未來，ChatGPT能發(fā)展多久？車萬翔發(fā)現(xiàn)了一個有意思的規(guī)律。如圖所示，每個箭頭長短代表技術(shù)發(fā)展的時(shí)間長度，可以看到，新技術(shù)的發(fā)展時(shí)間大約是舊技術(shù)的一半，以此推演，預(yù)訓(xùn)練模型可能發(fā)展五年到2023年，再往后可能到2025年左右會有新技術(shù)產(chǎn)生。

05.大模型的未來：多模態(tài)、具身智能、社會交際

車萬翔認(rèn)為，ChatGPT可以說是繼數(shù)據(jù)庫和搜索引擎后的全新一代知識表示和檢索的方法。

從知識表示和運(yùn)用角度來看，知識在計(jì)算機(jī)內(nèi)如何表示是人工智能最核心的問題之一。早期是通過關(guān)系型數(shù)據(jù)庫的方式，精度較高，因?yàn)閿?shù)據(jù)庫中每行每列的語義都非常明確，問題是調(diào)用的自然度極低，必須由人去學(xué)習(xí)機(jī)器的語言，早期這些存儲方式產(chǎn)生了Oracle、微軟等科技巨頭。

后來互聯(lián)網(wǎng)上存儲了人類全部的知識，這種知識表達(dá)方式不如數(shù)據(jù)庫精確，但存儲量大、信息多，調(diào)取這些知識需要借助搜索引擎、通過關(guān)鍵詞的方式，關(guān)鍵詞和SQL語句比起來就更為廣大用戶所接受，表達(dá)自然度更好，但仍然不及自然語言，產(chǎn)生谷歌、百度等科技巨頭。

到大模型時(shí)代，可以認(rèn)為大模型也是一種知識存儲的方式，不是以人能看懂的方式來存儲，而是以參數(shù)的方式來存儲，可讀性、精度相對較低，但調(diào)用方式非常自然，通過自然語言就能調(diào)出大模型中的知識。車萬翔相信和前兩次革命一樣，大模型時(shí)代會出現(xiàn)新的科技巨頭，現(xiàn)在看來OpenAI非常具有這樣的潛力，領(lǐng)先優(yōu)勢明顯。

談到大型語言模型研究的重心，車萬翔和張俊林都認(rèn)為除了語言外，還需要更多知識。

關(guān)于NLP的過去、現(xiàn)在、未來，科學(xué)家們在2020年提出了一個world scope概念，將NLP的發(fā)展進(jìn)程分為語料庫、互聯(lián)網(wǎng)、多模態(tài)、具身智能、社會交際這五個world scope。

早期NLP基于文本，再往后發(fā)展要走向多模態(tài)、具身認(rèn)知、社會交際。ChatGPT已經(jīng)似乎有與人類社會互動的意思，相當(dāng)于是跳過了中間兩步，但車萬翔認(rèn)為，要真正實(shí)現(xiàn)通用人工智能，中間這兩步是不能跳的，不然就像盲人在學(xué)語言。據(jù)傳GPT-4會是一個多模態(tài)大模型，如果解決了多模態(tài)這一步，那就只剩下具身了。

多模態(tài)大型語言模型的目標(biāo)是增強(qiáng)更多的現(xiàn)實(shí)環(huán)境感知能力，包括視覺輸入（圖片、視頻）、聽覺輸入（音頻）、觸覺輸入（壓力）等等。張俊林認(rèn)為，目前阻礙多模態(tài)大模型發(fā)展的一個障礙是其很大程度上依賴于人工整理的大數(shù)據(jù)集，圖像處理的自監(jiān)督技術(shù)路線尚未走通，如果走通可能會是又一大技術(shù)突破，一些圖像理解類任務(wù)大概率會被融入大型語言模型，不再單獨(dú)存在。

多模態(tài)大模型是具身智能的基礎(chǔ)，相當(dāng)于大腦，它還需要身體，才能與物理世界的交互。因此下一步就是將大腦與身體（如機(jī)器人等）結(jié)合的具身智能，利用強(qiáng)化學(xué)習(xí)，從真實(shí)世界獲得真實(shí)反饋、學(xué)習(xí)新的知識。

另一個值得探討的話題是大型語言模型的規(guī)模，做大還是做??？

張俊林談道，一方面，Scaling Law說明了模型規(guī)模越大，數(shù)據(jù)越多，訓(xùn)練越充分，大型語言模型的效果越好；另一方面，訓(xùn)練成本太高了，Chinchilla證明了如果在數(shù)據(jù)充足的前提下，目前大型語言模型的規(guī)模比應(yīng)有的合理大小更大些，似乎存在參數(shù)空間浪費(fèi)。因此應(yīng)該是：先把模型做小，充分利用模型參數(shù)后，再將模型做大。

除此之外，張俊林認(rèn)為大型語言模型的復(fù)雜推理能力未來將進(jìn)一步提升。大型語言模型如何與專用工具結(jié)合也是非常有前景的方向，但技術(shù)尚不成熟，他判斷OpenAI應(yīng)該不會走這條路。

大型語言模型還有很多問題有待克服，包括構(gòu)建中文評測數(shù)據(jù)集、優(yōu)化新知識的獲取、優(yōu)化舊知識的修正、探索私域領(lǐng)域知識的融入、優(yōu)化更好理解命令的能力、降低訓(xùn)練推理成本等等。

06.結(jié)語：大模型與生成式AI駛?cè)肟燔嚨?

自然語言處理被譽(yù)為人工智能皇冠上的明珠，而其最新代表之作ChatGPT憑借卓越的多輪對話和內(nèi)容生成能力，正掀起新一輪人工智能研究、商用及創(chuàng)業(yè)熱潮。

ChatGPT仍有很多問題，比如事實(shí)檢索性和復(fù)雜計(jì)算性效果差，無法實(shí)現(xiàn)一些實(shí)時(shí)性、動態(tài)變化性的任務(wù)等。但優(yōu)化這些問題以及提升大模型能力的研究正在飛速推進(jìn)。

如果上周微軟德國公司CTO兼AI部門主管Andreas Braun透露的信息為真，那么本周OpenAI將發(fā)布更強(qiáng)大的GPT-4多模態(tài)大模型，打通認(rèn)知與感知的連接。百度基于文心大模型研發(fā)的生成式對話產(chǎn)品“文心一言”也將于本周四3月16日正式發(fā)布。微軟將在周五舉行主題為“與AI一起工作的未來”的在線活動。大模型與生成式AI領(lǐng)域正變得愈發(fā)熱鬧。

本文作者：ZERO，來源：智東西，原文標(biāo)題：《GPT-4要來了！一文看盡大型語言模型的過去、現(xiàn)在、未來》

風(fēng)險(xiǎn)提示及免責(zé)條款市場有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：

<blockquote id="qykyi"><tbody id="qykyi"></tbody></blockquote><th id="qykyi"><abbr id="qykyi"></abbr></th>

<strike id="qykyi"><nav id="qykyi"></nav></strike>