人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

<del id="ickca"><tfoot id="ickca"></tfoot></del>

<fieldset id="ickca"><table id="ickca"></table></fieldset>

<del id="ickca"><tfoot id="ickca"></tfoot></del>

<del id="ickca"><tfoot id="ickca"></tfoot></del>

您的位置：首頁 > 產(chǎn)經(jīng) >

天天動(dòng)態(tài):全球最知名大模型排行榜首次重磅更新！GPT-4穩(wěn)居榜首，全新330億參數(shù)「小羊駝」位列開源第一

來源：華爾街見聞 ? 2023-06-23 13:14:41

就在剛剛，UC伯克利主導(dǎo)的「LLM排位賽」迎來了首次重磅更新！這次，團(tuán)隊(duì)不僅在排行榜中加入了更多模型（目前已達(dá)到28個(gè)），而且還增加了2個(gè)全新的評(píng)價(jià)標(biāo)準(zhǔn)。

與此同時(shí)，團(tuán)隊(duì)還發(fā)布了更新的Vicuna-v1.3系列模型，參數(shù)量為70億、130億和330億，且權(quán)重已公開。

在全新的評(píng)價(jià)系統(tǒng)下，GPT-4依然穩(wěn)居第一，而GPT-3.5則成功奪回了第二的寶座。Anthropic的兩款Claude模型緊隨其后，排在了第三和第四的位置上。UC伯克利最新發(fā)布的330億參數(shù)Vicuna進(jìn)軍第五，小幅領(lǐng)先微軟華人團(tuán)隊(duì)開源的300億參數(shù)WizardLM模型。

(相關(guān)資料圖)

增強(qiáng)版LLM排行榜

不難看出，GPT-3.5、Claude-v1和Claude-instant-v1這三個(gè)模型之間實(shí)際難分伯仲。不僅在MT-bench得分上咬得很緊，而且在諸如Elo和MMLU得分上還有后者還有反超。和這些專有模型相比，開源模型們則有著明顯的差距，即便是作為開源第一的Vicuna-33B也是如此。當(dāng)然，事情總有例外。比如谷歌的PaLM2，就落后于一眾開源模型。

全新評(píng)價(jià)機(jī)制：MT-bench

雖然，現(xiàn)在已經(jīng)有了不少用來評(píng)估大語言模型（LLM）性能的基準(zhǔn)測試，比如MMLU、HellaSwag和HumanEval等。但是，在評(píng)估LLM的人類偏好時(shí)，這些基準(zhǔn)測試存在著明顯的不足。舉個(gè)例子，傳統(tǒng)的基準(zhǔn)測試通常是在封閉式問題（例如，多項(xiàng)選擇題）上對(duì)LLM進(jìn)行測試，并提供一些簡潔的輸出作為評(píng)價(jià)。

用戶與LLaMA-13B和Vicuna-13B之間的多輪對(duì)話，開始是MMLU基準(zhǔn)中的問題和后續(xù)指令，然后將GPT-4與上下文一起呈現(xiàn)，比較誰的答案更好

顯然，大部分人在實(shí)踐中并不是這么用聊天機(jī)器人的……為了填補(bǔ)這一空白，來自UC伯克利的團(tuán)隊(duì)在這次排行榜更新中，除了Chatbot Arena Elo系統(tǒng)之外，還增加了一個(gè)新的基準(zhǔn)測試：MT-bench。MT-Bench可以作為對(duì)聊天機(jī)器人競技場的質(zhì)量控制補(bǔ)充。

目前，競技場的具體評(píng)價(jià)機(jī)制如下：1. Chatbot Arena Elo，基于Chatbot Arena收到的42,000個(gè)匿名投票，并使用Elo評(píng)級(jí)系統(tǒng)進(jìn)行評(píng)分。2. MT-Bench得分，基于一個(gè)具有挑戰(zhàn)性的多輪基準(zhǔn)測試和GPT-4評(píng)分，其方法在「Judging LLM-as-a-judge」論文中提出，并已經(jīng)過驗(yàn)證。3. MMLU，一項(xiàng)廣泛采用的基準(zhǔn)測試。

為什么選擇MT-Bench？

具體來說，MT-Bench是一個(gè)經(jīng)過精心設(shè)計(jì)的基準(zhǔn)測試，包含80個(gè)高質(zhì)量的多輪問題。這些問題可以評(píng)估模型在多輪對(duì)話中的對(duì)話流程和指令遵循能力，其中包含了常見的使用情景，以及富有挑戰(zhàn)性的指令。通過對(duì)過去2個(gè)月運(yùn)營聊天機(jī)器人競技場以及對(duì)收集的一部分用戶數(shù)據(jù)的分析，團(tuán)隊(duì)確定了8個(gè)主要的類別：寫作、角色扮演、提取、推理、數(shù)學(xué)、編程、知識(shí)I（科學(xué)技術(shù)工程數(shù)學(xué)）和知識(shí)II（人文社科）。其中，每個(gè)類別有10個(gè)多輪問題，總共160個(gè)問題。

MT-Bench中的問題示例

用LLM評(píng)判LLM

那么問題來了，我們應(yīng)該如何對(duì)聊天機(jī)器人的答案進(jìn)行評(píng)分呢？盡管在針對(duì)LLM的評(píng)估中，人類的偏好可以說是「黃金標(biāo)準(zhǔn)」，但收集人類偏好的這一過程，卻非常耗時(shí)，而且成本極高。相比之下，UC伯克利主導(dǎo)的團(tuán)隊(duì)在一開始便探索出了一種基于GPT-4的自動(dòng)化評(píng)估管線。而這種方法也隨后在幾個(gè)工作中，得到了廣泛的采用。?

此外，團(tuán)隊(duì)還在最新的論文「Judging LLM-as-a-judge」中進(jìn)行了一項(xiàng)系統(tǒng)研究——揭示了LLM評(píng)判者的可靠性問題。結(jié)果顯示，像GPT-4這樣強(qiáng)大的LLM評(píng)判者，可以與專家組和眾包組的人類裁判的偏好非常好地對(duì)齊，一致性均超過了80%。這種一致性水平，已經(jīng)可以和兩個(gè)人類評(píng)判者之間的一致性相媲美。而基于GPT-4的單個(gè)答案評(píng)分，也可以有效地對(duì)模型進(jìn)行排名，并與人類偏好很好地匹配。因此，如果使用得當(dāng)，LLM評(píng)判者完全可以作為人類偏好的可擴(kuò)展、可解釋的近似值。

不過，當(dāng)LLM作為評(píng)判者時(shí)，依然會(huì)存在一些潛在限制：1. 位置偏差，即LLM評(píng)判者可能偏向于在成對(duì)比較中選擇第一個(gè)答案。2. 冗長偏差，即LLM評(píng)判者可能偏向于更長的回答，而不考慮其質(zhì)量。3. 自我增強(qiáng)偏差，即LLM評(píng)判者可能偏向于自己的回答。4. 推理能力有限，即LLM評(píng)判者在給數(shù)學(xué)和推理問題打分時(shí)，會(huì)存在一些缺陷。

不同LLM評(píng)判者的立場偏見

其中，所謂的「一致性」是指評(píng)判者在LLM順序交換時(shí)，給出一致性結(jié)果的案例百分比對(duì)于這些限制，團(tuán)隊(duì)探討了如何利用少樣本評(píng)判、思維鏈評(píng)判、基于參考的評(píng)判和微調(diào)評(píng)判來進(jìn)行緩解。

結(jié)果分析

MT-Bench有效地區(qū)分了LLM之間的性能差異

在這次的「排位賽」中，團(tuán)隊(duì)針對(duì)28個(gè)模型進(jìn)行了全面評(píng)估。結(jié)果顯示，不同能力的LLM之間存在明顯的區(qū)別，而它們的得分與Chatbot Arena Elo評(píng)分呈高度的相關(guān)性。特別是MT-Bench的引入，非常鮮明地顯示出：GPT-4與GPT-3.5/Claude之間，以及開源和專有模型之間，有著明顯的性能差距。為了更深入地了解LLM之間的差距，團(tuán)隊(duì)選擇了幾個(gè)有代表性的LLM，并分析了它們在每個(gè)類別下的表現(xiàn)。結(jié)果顯示，與GPT-3.5/Claude相比，GPT-4在編碼和推理方面表現(xiàn)出更高的性能，而Vicuna-13B在幾個(gè)特定的類別中（包括提取、編碼和數(shù)學(xué)）明顯落后。這表明，開源模型仍有很大的改進(jìn)空間。

比較6個(gè)模型的8種能力：寫作、角色扮演、推理、數(shù)學(xué)、編碼、信息提取、自然科學(xué)、人文科學(xué)

多輪對(duì)話能力的評(píng)估

團(tuán)隊(duì)接下來分析了所選模型在多輪對(duì)話中的得分。開源模型在第一輪和第二輪之間的性能顯著下降（如Vicuna-7B，WizardLM-13B），而強(qiáng)大的專有模型卻始終保持著一致性。另外，基于LLaMA的模型和更寬松的模型之間（如MPT-7B、Falcon-40B和調(diào)整后的Open-LLaMA），也存在明顯的性能差距。

模型在第一輪和第二輪對(duì)話中的MT-bench得分，滿分為10分

LLM評(píng)判者的可解釋性

用LLM進(jìn)行評(píng)判的另一個(gè)優(yōu)勢在于，它們能夠提供可解釋的評(píng)估結(jié)果。下圖展示了GPT-4對(duì)一個(gè)MT-bench問題的判斷，其中包括了來自alpaca-13b和gpt-3.5-turbo的回答?？梢钥吹?，對(duì)于自己給出的判斷，GPT-4提供了詳細(xì)全面、邏輯清晰的反饋。而UC伯克利的研究也認(rèn)為，這種評(píng)價(jià)有利于指導(dǎo)人類做出更明智的決策。

MT-bench在評(píng)估LLM的人類偏好方面提供了更多的可解釋性

總之，MT-Bench可以有效地區(qū)分不同的聊天機(jī)器人。不過在使用時(shí)，仍然應(yīng)該謹(jǐn)慎。因?yàn)樗€是有出錯(cuò)的可能，尤其是在數(shù)學(xué)/推理問題打分時(shí)。

下一步計(jì)劃

發(fā)布對(duì)話數(shù)據(jù)

團(tuán)隊(duì)計(jì)劃發(fā)布Chatbot Arena的對(duì)話數(shù)據(jù)，以供更廣泛的研究社區(qū)使用，敬請期待。

MT-bench-1K

目前，團(tuán)隊(duì)正在積極擴(kuò)展問題集，將Chatbot Arena的高質(zhì)量提示集成進(jìn)來，并利用LLM自動(dòng)生成新的問題，進(jìn)而建立更豐富的MT-Bench-1K數(shù)據(jù)集。

風(fēng)險(xiǎn)提示及免責(zé)條款市場有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：

<ul id="mayoa"><dfn id="mayoa"></dfn></ul>

<strike id="mayoa"></strike>

<ul id="mayoa"></ul>

<cite id="mayoa"><abbr id="mayoa"></abbr></cite>

<fieldset id="mayoa"><table id="mayoa"></table></fieldset>