人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

您的位置：首頁 > 產(chǎn)經(jīng) >

當大模型不再稀缺：得數(shù)據(jù)者得天下

來源：華爾街見聞 ? 2023-04-11 15:53:41

緊隨OpenAI、谷歌的步伐，國內(nèi)大模型軍備競賽正打得火熱。繼百度、三六零之后，本周阿里、華為、京東等大模型陸續(xù)浮出水面。

大模型不再稀缺之后，AI競賽的下一步將走向何處？民生證券分析師呂偉發(fā)表研報指出，盡管目前表面上大模型百花齊放，但是能夠擁有高質(zhì)量數(shù)據(jù)場景助力持續(xù)迭代，使得逐步性能逼近ChatGPT的大模型預(yù)計最終仍是“鳳毛麟角”。數(shù)據(jù)將成為差異化競爭的關(guān)鍵，最終是得數(shù)據(jù)者得天下。

分析師認為，未來的AI競爭中，三類企業(yè)將掌控主動權(quán)：

(資料圖片僅供參考)

1.同時擁有搜索引擎、瀏覽器、辦公插件等高質(zhì)量數(shù)據(jù)的公司；

2.掌握音箱、攝像頭等物聯(lián)網(wǎng)終端數(shù)據(jù)的公司；

3.垂直行業(yè)有絕佳數(shù)據(jù)卡位優(yōu)勢的企業(yè)。

具體來看：

搜索引擎公司

搜索引擎公司天然具備數(shù)十年網(wǎng)絡(luò)爬蟲積累的高質(zhì)量互聯(lián)網(wǎng)數(shù)據(jù)資源，而且憑借這一數(shù)據(jù)卡位戰(zhàn)略入口，其數(shù)據(jù)資源與質(zhì)量仍將不斷迭代提升：當搜索引擎爬蟲完成對某個網(wǎng)站或者某個主題下所有相關(guān)網(wǎng)站的抽取后，需要對其進行處理和分析。這通常包括以下幾個方面：1）數(shù)據(jù)清洗與去重；2）數(shù)據(jù)挖掘與分析；3）建立索引以便后續(xù)查詢。
繼微軟公司已經(jīng)在其必應(yīng)（Bing）搜索引擎中部署ChatGPT系統(tǒng)背后的技術(shù)后，據(jù)《華爾街日報》4月6日報道，谷歌CEOSundarPichai透露，谷歌計劃在其搜索引擎中添加AI對話功能，目前該公司正在對幾種搜索引擎版本進行測試。他表示，此舉是為了應(yīng)對ChatGPT等聊天機器人帶來的競爭和商業(yè)壓力，但聊天機器人不會對谷歌的搜索業(yè)務(wù)構(gòu)成威脅，AI的進步反而能進一步增強谷歌的信息檢索能力。
從GPT-1的1.17億參數(shù)到GPT-2的15億參數(shù)，再到GPT-3劃時代的1750億參數(shù)，OpenAI依托篩選過的優(yōu)質(zhì)數(shù)據(jù)形成參數(shù)量的階梯式上升，最終帶來GPT-3乃至ChatGPT具備理解上下文、連貫性等諸多先進特征。
在提出GPT-3的論文《LanguageModelsareFew-ShotLearners》中，OpenAI在收集近一萬億文字（參數(shù)）的數(shù)據(jù)庫后，放棄直接使用海量數(shù)據(jù)訓(xùn)練模型，而是轉(zhuǎn)向通過三種模式篩選優(yōu)質(zhì)數(shù)據(jù)進行訓(xùn)練，從而從萬億參數(shù)歸納出眾人所熟知的1750億參數(shù)，其核心原因在于“未經(jīng)過濾或輕度過濾的爬蟲數(shù)據(jù)往往比篩選后數(shù)據(jù)集質(zhì)量更低”。

物聯(lián)網(wǎng)終端

近期天貓精靈。通過音箱端接入阿里大模型，做出了一款阿里版ChatGPT個性化語音助手，標志這一趨勢已經(jīng)開啟。AIoT終端的“賣鏟人”以及視頻攝像頭數(shù)據(jù)入口企業(yè)都擁有巨大優(yōu)勢。

垂直行業(yè)有絕佳數(shù)據(jù)卡位優(yōu)勢的企業(yè)

彭博新聞社近期發(fā)布了專門為金融領(lǐng)域打造的大型語言模型(LLM)—BloombergGPT就是垂直數(shù)據(jù)優(yōu)勢“挑戰(zhàn)”巨頭通用大模型的案例。
在過去40年里，彭博收集了海量的金融市場數(shù)據(jù)，擁有廣泛的金融數(shù)據(jù)檔案，涵蓋一系列的主題。使用該公司數(shù)據(jù)終端的客戶遍布全球，包括交易員、投行、美聯(lián)儲、美國其他官方機構(gòu)以及全球各大央行等。這些特有數(shù)據(jù)，使得BloombergGPT比ChatGPT擁有更專業(yè)的訓(xùn)練語料。
據(jù)彭博社發(fā)布的報告中可以看出，研究人員利用彭博社現(xiàn)有的數(shù)據(jù)，對資源進行創(chuàng)建、收集和整理，構(gòu)建了一個3630億個標簽的數(shù)據(jù)集，并基于通用和金融業(yè)務(wù)的場景進行混合模型訓(xùn)練，以支持金融行業(yè)內(nèi)各種各樣的自然語言處理(NLP)任務(wù)。

映射至國內(nèi)，掌握垂直優(yōu)質(zhì)數(shù)據(jù)的公司，將有機會開發(fā)自己的BloombergGPT。

本文主要觀點來自民生證券呂偉（執(zhí)業(yè)：S0100521110003）發(fā)表的研報《當大模型不再稀缺：得數(shù)據(jù)者得天下》，有刪節(jié)

風(fēng)險提示及免責(zé)條款市場有風(fēng)險，投資需謹慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負。

關(guān)鍵詞：