人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

您的位置：首頁 > 產(chǎn)經(jīng) >

焦點(diǎn)關(guān)注：大模型進(jìn)化加速，高質(zhì)量數(shù)據(jù)成稀缺性來源 | 見智研究

來源：華爾街見聞 ? 2023-04-11 08:03:37

大模型密集發(fā)布期，高質(zhì)量的數(shù)據(jù)資源才是推動GPT進(jìn)化的重要高手。

4月10日，商湯發(fā)布日日新大模型，及其衍生產(chǎn)品：商量（自然語言）、秒畫（文生圖）、如影（數(shù)字人）、空間3D大模型（瓊宇、格物），大模型涵蓋文本和圖像生成，計劃23年開啟萬億參數(shù)大規(guī)模大模型訓(xùn)練，也是多模態(tài)大模型。

【資料圖】

此外，在日日新大模型平臺下，還有一個"商量"語言發(fā)模型sensechat，可以用在法律、編程以及醫(yī)學(xué)診斷的專業(yè)場景之下。以編程為例，生成代碼的一次通過率達(dá)到40.2%，已經(jīng)超過了Github Copilot。

華爾街見聞·見智研究認(rèn)為：對于大模型訓(xùn)練來說，能否未來得到優(yōu)質(zhì)的大模型，與投入的數(shù)據(jù)質(zhì)量非常關(guān)鍵，包括通用參數(shù)、文本語言、圖像、視頻音頻等等，投入數(shù)據(jù)的質(zhì)量高低，會直接影響模型最終生成的內(nèi)容。

日日新大模型的亮點(diǎn)包括：

NLP大模型【商量】：擁有1800億參數(shù)，類比ChatGPT。支持長文本理解（支持上傳PDF，并可與PDF對話）、輔助編程、手寫OCR等功能，并現(xiàn)場演示在線問診等應(yīng)用。
文生圖大模型【秒畫】：模型擁有超過10億參數(shù)，類比midjourney?？奢o助提供提示詞，并生成符合描述的圖片，支持6k高清圖像，并可隨時調(diào)整畫風(fēng)。
數(shù)字人大模型【如影】：可根據(jù)5min視頻創(chuàng)作屬于自己的數(shù)字人，并進(jìn)行AI換裝、文案生成，可用于直播、視頻生成等場景。
空間3D大模型【瓊宇、格物】：瓊宇使得3D場景實(shí)時可交互/編輯，應(yīng)用涉及數(shù)字孿生、建筑設(shè)計、影視創(chuàng)作、文旅和電商等。格物使得人/物/場便捷編輯創(chuàng)作，可用于家裝、商業(yè)廣告、文旅等場景。

評判大模型是否是一個好的大模型，最關(guān)鍵的還是源于投入模型的數(shù)據(jù)質(zhì)量，只有高質(zhì)量的數(shù)據(jù)才能夠讓大模型訓(xùn)練出高質(zhì)量的內(nèi)容。（大模型的計算量=參數(shù)量*處理的數(shù)據(jù)量）

模型迭代和數(shù)據(jù)篩選同等重要

三六零、谷歌、百度這類以瀏覽器起家的公司，同樣具有海量數(shù)據(jù)優(yōu)勢。見智研究認(rèn)為：能夠進(jìn)行持續(xù)迭代的大模型具備稀缺性。

像是對于搜索引擎這類公司，天然積累了數(shù)十年的高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)資源，當(dāng)搜索引擎完成對某些數(shù)據(jù)內(nèi)容的提取之后，可以對其進(jìn)行分析和處理。包括數(shù)據(jù)清晰和去重，數(shù)據(jù)挖掘和分析，建立索引便于日后查詢。

此外，從GPT的發(fā)展路徑也能夠看出數(shù)據(jù)量的重要性。

從GPT1到GPT2參數(shù)投入從1.17億增長至15億，到GPT3時參數(shù)達(dá)到1750億，OpenAI 是通過篩選優(yōu)質(zhì)數(shù)據(jù)形成參數(shù)量階梯式上升，最終使得大模型不斷迭代優(yōu)化，從而得到更好的大模型。

而未經(jīng)過濾或者輕度過濾的爬蟲數(shù)據(jù)往往比篩選侯的數(shù)據(jù)集質(zhì)量更低，所以參數(shù)量的質(zhì)量是至關(guān)重要的，從而得到參數(shù)篩選的必要性。

除了文字大模型外，圖片大模型最近也有重大進(jìn)展。

日前Meta發(fā)布可分割圖像AI模型SAM及訓(xùn)練資料集SA-1B。該模型能夠?qū)崿F(xiàn)零樣本分割圖像中一切對象，機(jī)器視覺迎來GPT-3時刻。根據(jù)Meta官網(wǎng)消息，SAM目前的數(shù)據(jù)集包括在約1100萬張許可和隱私保護(hù)圖像上收集超過11億個分割標(biāo)簽。

隨著數(shù)據(jù)采集需求快速增加，有望帶來下游視覺應(yīng)用的大爆發(fā)，此前困擾CV行業(yè)的許多問題將被直接解決。

見智研究認(rèn)為：SAM可以成為AR/VR、內(nèi)容創(chuàng)作、科學(xué)領(lǐng)域和更普遍的AI系統(tǒng)等領(lǐng)域的強(qiáng)大組件。看到圖像像素級別的理解和更高層次的視覺內(nèi)容語義理解之間的緊密耦合，將解鎖更強(qiáng)大的人工智能系統(tǒng)。

風(fēng)險提示及免責(zé)條款市場有風(fēng)險，投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：