人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

您的位置：首頁 > 產(chǎn)經(jīng) >

金融圈注意了！彭博研究人員剛推出BloombergGPT

來源：華爾街見聞 ? 2023-03-31 12:12:35

ChatGPT引爆的AI熱潮也“燒到了”金融圈，彭博社重磅發(fā)布為金融界打造的大型語言模型（LLM）——BloombergGPT。

3月30日，根據(jù)彭博社最新發(fā)布的報(bào)告顯示，其構(gòu)建迄今為止最大的特定領(lǐng)域數(shù)據(jù)集，并訓(xùn)練了專門用于金融領(lǐng)域的LLM，開發(fā)了擁有500億參數(shù)的語言模型——BloombergGPT。

(資料圖片僅供參考)

報(bào)告顯示，該模型依托彭博社的大量金融數(shù)據(jù)源，構(gòu)建了一個(gè)3630億個(gè)標(biāo)簽的數(shù)據(jù)集，支持金融行業(yè)內(nèi)的各類任務(wù)。該模型在金融任務(wù)上的表現(xiàn)遠(yuǎn)超過現(xiàn)有模型，且在通用場景上的表現(xiàn)與現(xiàn)有模型也能一較高下。

一般來說，在NLP領(lǐng)域，參數(shù)數(shù)量和復(fù)雜程度之間具有正相關(guān)性，GPT-3.5模型的參數(shù)量為2000億，GPT-3的參數(shù)量為1750億。

關(guān)于BloombergGPT

報(bào)告指出，研究人員利用彭博社現(xiàn)有的數(shù)據(jù)，對資源進(jìn)行創(chuàng)建、收集和整理，通過構(gòu)建迄今為止最大的特定領(lǐng)域數(shù)據(jù)集來完成BloomberGPT，并基于通用和金融業(yè)務(wù)的場景進(jìn)行混合模型訓(xùn)練：

彭博社主要是一家金融數(shù)據(jù)公司，數(shù)據(jù)分析師在公司成立的四十年的時(shí)間里收集了大量的金融文件，擁有廣泛的金融數(shù)據(jù)檔案，涵蓋了一系列的主題。
我們將這些數(shù)據(jù)添加到公共數(shù)據(jù)集中，以創(chuàng)建一個(gè)擁有超過7000億個(gè)標(biāo)簽的大型訓(xùn)練語料庫。
使用這個(gè)訓(xùn)練語料庫的一部分，我們訓(xùn)練了一個(gè)具有彭博風(fēng)格的，達(dá)500億參數(shù)的模型，該模型是根據(jù)Hoffmann和Le Scao等人的指導(dǎo)方針設(shè)計(jì)，基于通用和金融業(yè)務(wù)的場景進(jìn)行混合模型訓(xùn)練。
結(jié)果表明，我們的混合訓(xùn)練方法使我們的模型在金融任務(wù)上的表現(xiàn)大大超過了現(xiàn)有的模型，而在通用場景上的表現(xiàn)則與之相當(dāng)甚至優(yōu)于現(xiàn)有模型。

1.BloombergGPT優(yōu)勢：特定領(lǐng)域模型仍有其不可替代性且彭博數(shù)據(jù)來源可靠

在論文中，彭博社指出，現(xiàn)階段，通用的自然語言處理模型可以涵蓋許多領(lǐng)域，但針對特定領(lǐng)域模型仍有其不可替代性，因彭博社的大多數(shù)應(yīng)用均為金融領(lǐng)域，著手構(gòu)建了一個(gè)針對金融領(lǐng)域的模型尤其優(yōu)勢，同時(shí)可以在通用LLM基準(zhǔn)測試上保持競爭力：

除了構(gòu)建金融領(lǐng)域的LLM外，本文的經(jīng)驗(yàn)也為其他研究領(lǐng)域的專用模型提供了參考。我們的方法是在特定領(lǐng)域和一般數(shù)據(jù)源上訓(xùn)練LLM，以開發(fā)在特定領(lǐng)域和通用基準(zhǔn)上表現(xiàn)優(yōu)異的模型。
此外，我們的訓(xùn)練數(shù)據(jù)不同于傳統(tǒng)的網(wǎng)絡(luò)爬取數(shù)據(jù)，網(wǎng)絡(luò)上的數(shù)據(jù)總有重復(fù)和錯誤，但我們的數(shù)據(jù)來源可靠。

2.BloombergGPT的訓(xùn)練數(shù)據(jù)集：

BloombergGPT的訓(xùn)練數(shù)據(jù)庫名為FINPILE，由一系列英文金融信息組成，包括新聞、文件、新聞稿、網(wǎng)絡(luò)爬取的金融文件以及提取到的社交媒體消息。

為了提高數(shù)據(jù)質(zhì)量，F(xiàn)INPILE數(shù)據(jù)集也使用了公共數(shù)據(jù)集，例如The Pile、C4和Wikipedia。FINPILE的訓(xùn)練數(shù)據(jù)集中大約一半是特定領(lǐng)域的文本，一半是通用文本。為了提高數(shù)據(jù)質(zhì)量，每個(gè)數(shù)據(jù)集都進(jìn)行了去重處理。

對金融領(lǐng)域的理解更準(zhǔn)

報(bào)告指出，在金融領(lǐng)域中的自然語言處理在通用模型中也很常見，但是，針對金融領(lǐng)域，這些任務(wù)執(zhí)行時(shí)將面臨挑戰(zhàn)：

以情感分析為例，一個(gè)題為“某公司將裁員1萬人”，在一般意義上表達(dá)了負(fù)面情感，但在金融情感方面，它有時(shí)可能被認(rèn)為是積極的，因?yàn)樗赡軐?dǎo)致公司的股價(jià)或投資者信心增加。

報(bào)告指出，從測試來看，BloombergGPT在五項(xiàng)任務(wù)中的四項(xiàng)（ConvFinQA，F(xiàn)iQA SA，F(xiàn)PB和Headline）表現(xiàn)最佳，在NER（Named Entity Recognition）中排名第二。因此，BloombergGPT有其優(yōu)勢性。

測試一：ConvFinQA數(shù)據(jù)集是一個(gè)針對金融領(lǐng)域的問答數(shù)據(jù)集，包括從新聞文章中提取出的問題和答案，旨在測試模型對金融領(lǐng)域相關(guān)問題的理解和推理能力。
測試二：FiQA SA，第二個(gè)情感分析任務(wù)，測試英語金融新聞和社交媒體標(biāo)題中的情感走向。
測試三：標(biāo)題，數(shù)據(jù)集包括關(guān)于黃金商品領(lǐng)域的英文新聞標(biāo)題，標(biāo)注了不同的子集。任務(wù)是判斷新聞標(biāo)題是否包含特定信息，例如價(jià)格上漲或價(jià)格下跌等。
測試四： FPB，金融短語庫數(shù)據(jù)集包括來自金融新聞的句子情緒分類任務(wù)。
測試五：NER，命名實(shí)體識別任務(wù)，針對從提交給SEC的金融協(xié)議中收集金融數(shù)據(jù)，進(jìn)行信用風(fēng)險(xiǎn)評估。
對于ConvFinQA來說，這個(gè)差距尤為顯著，因?yàn)樗枰褂脤υ捠捷斎雭韺Ρ砀襁M(jìn)行推理并生成答案，具有一定挑戰(zhàn)性。

ChatGPT為彭博點(diǎn)贊

華爾街見聞就這個(gè)問題專門詢問了ChatGPT，ChatGPT認(rèn)為BloombergGPT是一項(xiàng)很有意義的技術(shù)進(jìn)步：

它是專門為金融領(lǐng)域開發(fā)的一種語言模型，可以更好地處理金融領(lǐng)域的數(shù)據(jù)和任務(wù)，并且在金融領(lǐng)域的基準(zhǔn)測試中表現(xiàn)出色。
這將有助于金融從業(yè)者更好地理解和應(yīng)用自然語言處理技術(shù)，促進(jìn)金融科技的發(fā)展。同時(shí)，BloombergGPT還可以為其他領(lǐng)域的語言模型的發(fā)展提供參考和借鑒?？偟膩碚f，BloombergGPT是一個(gè)有益的技術(shù)創(chuàng)新。

風(fēng)險(xiǎn)提示及免責(zé)條款市場有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：