AI，正在瘋狂污染中文互聯(lián)網(wǎng)-觀焦點

污染中文互聯(lián)網(wǎng)，AI成了“罪魁禍?zhǔn)住敝弧?/p>

(資料圖)

事情是這樣的。

最近大家不是都熱衷于向AI咨詢嘛，有位網(wǎng)友就問了Bing這么一個問題：

象鼻山是否有纜車？

在給出肯定的答復(fù)之后，Bing還貼心地附帶上了票價、營業(yè)時間等細節(jié)信息。

不過這位網(wǎng)友并沒有直接采納答案，而是順藤摸瓜點開了下方的“參考鏈接”。

此時網(wǎng)友察覺到了一絲絲的不對勁——這人的回答怎么“機里機氣”的。

于是他點開了這位叫“百變?nèi)松钡挠脩糁黜?，猛然發(fā)覺，介是個AI啊！

因為這位用戶回答問題速度可以說是極快，差不多每1、2分鐘就能搞定一個問題。

甚至能在1分鐘之內(nèi)回答2個問題。

在這位網(wǎng)友更為細心的觀察之下，發(fā)現(xiàn)這些回答的內(nèi)容都是沒經(jīng)過核實的那種……

并且他認為，這就是導(dǎo)致Bing輸出錯誤答案的原因：

這個AI瘋狂地污染中文互聯(lián)網(wǎng)。

那么被網(wǎng)友發(fā)現(xiàn)的這位AI用戶，現(xiàn)在怎么樣了？

從目前結(jié)果來看，他已經(jīng)被被知乎“判處”為禁言狀態(tài)。

但盡管如此，也有其他網(wǎng)友直言不諱地表示：

不止一個。

若是點開知乎的“等你回答”這個欄目，隨機找一個問題，往下拉一拉，確實是能碰到不少“機言機語”的回答。

例如我們在“AI在生活中的應(yīng)用場景有哪些？”的回答中便找到了一個：

不僅是回答的語言“機言機語”，甚至回答直接打上了“包含AI輔助創(chuàng)作”的標(biāo)簽。

然后如果我們把問題丟給ChatGPT，那么得到回答……嗯，挺換湯不換藥的。

事實上，諸如此類的“AI污染源”不止是在這一個平臺上有。

就連簡單的科普配圖這事上，AI也是屢屢犯錯。

網(wǎng)友們看完這事也是蚌埠住了：“好家伙，沒有一個配圖是河蚌”。

甚至各類AI生成的假新聞也是屢見不鮮。

例如前一段時間，便有一則聳人聽聞的消息在網(wǎng)上瘋傳，標(biāo)題是《鄭州雞排店驚現(xiàn)血案，男子用磚頭砸死女子！》。

但事實上，這則新聞是江西男子陳某為吸粉引流，利用ChatGPT生成的。

無獨有偶，廣東深圳的洪某弟也是通過AI技術(shù)，發(fā)布過《今晨，甘肅一火車撞上修路工人，致9人死亡》假新聞。

具體而言，他在全網(wǎng)搜索近幾年的社會熱點新聞，并使用AI軟件對新聞時間、地點等進行修改編輯后，在某些平臺賺取關(guān)注和流量進行非法牟利。

警方均已對他們采取了刑事強制措施。

但其實這種“AI污染源”的現(xiàn)象不僅僅是在國內(nèi)存在，在國外亦是如此。

程序員問答社區(qū)Stack Overflow便是一個例子。

早在去年年底ChatGPT剛火起來的時候，Stack Overflow便突然宣布“臨時禁用”。

當(dāng)時官方給出來的理由是這樣的：

（這樣做）的目的是減緩使用ChatGPT創(chuàng)建的大量答案流入社區(qū)。
因為從ChatGPT得到錯誤答案的概率太高了！

他們認為以前用戶回答的問題，都是會有專業(yè)知識背景的其他用戶瀏覽，并給出正確與否，相當(dāng)于是核實過。

但自打ChatGPT出現(xiàn)之后，涌現(xiàn)了大量讓人覺得“很對”的答案；而有專業(yè)知識背景的用戶數(shù)量是有限，沒法把這些生成的答案都看個遍。

加之ChatGPT回答這些個專業(yè)性問題，它的錯誤率是實實在在擺在那里的；因此Stack Overflow才選擇了禁用。

一言蔽之，AI污染了社區(qū)環(huán)境。

而且像在美版貼吧Reddit上，也是充斥著較多的ChatGPT板塊、話題：

許多用戶在這種欄目之下會提出各式各樣的問題，ChatGPT bot也是有問必答。

不過，還是老問題，答案的準(zhǔn)確性如何，就不得而知了。

但這種現(xiàn)象背后，其實還隱藏著更大的隱患。

濫用AI，也毀了AI

AI模型獲得大量互聯(lián)網(wǎng)數(shù)據(jù)，卻無法很好地辨別信息的真實性和可信度。

結(jié)果就是，我們不得不面對一大堆快速生成的低質(zhì)量內(nèi)容，讓人眼花繚亂，頭暈?zāi)垦！?/p>

很難想象ChatGPT這些大模型如果用這種數(shù)據(jù)訓(xùn)練，結(jié)果會是啥樣……

而如此濫用AI，反過來也是一種自噬。

最近，英國和加拿大的研究人員在arXiv上發(fā)表了一篇題目為《The Curse of Recursion: Training on Generated Data Makes Models Forget》的論文。

探討了現(xiàn)在AI生成內(nèi)容污染互聯(lián)網(wǎng)的現(xiàn)狀，然后公布了一項令人擔(dān)憂的發(fā)現(xiàn)，使用模型生成的內(nèi)容訓(xùn)練其他模型，會導(dǎo)致結(jié)果模型出現(xiàn)不可逆的缺陷。

這種AI生成數(shù)據(jù)的“污染”會導(dǎo)致模型對現(xiàn)實的認知產(chǎn)生扭曲，未來通過抓取互聯(lián)網(wǎng)數(shù)據(jù)來訓(xùn)練模型會變得更加困難。

論文作者，劍橋大學(xué)和愛丁堡大學(xué)安全工程教授Ross Anderson毫不避諱的直言：

正如我們用塑料垃圾布滿了海洋，用二氧化碳填滿了大氣層，我們即將用廢話填滿互聯(lián)網(wǎng)。

對于虛假信息滿天飛的情況，Google Brain的高級研究科學(xué)家達芙妮 · 伊波利托(Daphne Ippolito)表示：想在未來找到高質(zhì)量且未被AI訓(xùn)練的數(shù)據(jù)，將難上加難。

假如滿屏都是這種無營養(yǎng)的劣質(zhì)信息，如此循環(huán)往復(fù)，那以后AI就沒有數(shù)據(jù)訓(xùn)練，輸出的結(jié)果還有啥意義呢。

基于這種狀況，大膽設(shè)想一下。一個成長于垃圾、虛假數(shù)據(jù)環(huán)境中的AI，在進化成人前，可能就先被擬合成一個“智障機器人”、一個心理扭曲的心理智障。

就像1996年的科幻喜劇電影《丈夫一籮筐》，影片講述了一個普通人克隆自己，然后又克隆克隆人，每一次克隆都導(dǎo)致克隆人的智力水平呈指數(shù)下降，愚蠢程度增加。

那個時候，我們可能將不得不面臨一個荒謬?yán)Ь常喝祟悇?chuàng)造了具有驚人能力的AI，而它卻塞滿了無聊愚蠢的信息。

如果AI被喂進的只是虛假的垃圾數(shù)據(jù)，我們又能期待它們創(chuàng)造出什么樣的內(nèi)容呢？

假如時間到那個時候，我們大概都會懷念過去，向那些真正的人類智慧致敬吧。

話雖如此，但也不全壞消息。比如部分內(nèi)容平臺已開始關(guān)注AI生成低劣內(nèi)容的問題，并推出相關(guān)規(guī)定加以限制。

一些個AI公司也開始搞能鑒別AI生成內(nèi)容的技術(shù)，以減少AI虛假、垃圾信息的爆炸。

參考鏈接：[1]https://www.v2ex.com/t/948487[2]https://twitter.com/oran_ge/status/1669168707137860519[3]https://www.qbitai.com/2022/12/40167.html[4]https://arxiv.org/abs/2305.17493v2[5]https://albertoromgar.medium.com/generative-ai-could-pollute-the-internet-to-death-fb84befac250[6]https://futurism.com/ai-generates-fake-news

本文作者：金磊尚恩，文章來源：量子位，原文標(biāo)題：《AI，正在瘋狂污染中文互聯(lián)網(wǎng)》。

風(fēng)險提示及免責(zé)條款市場有風(fēng)險，投資需謹慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標(biāo)、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負。

關(guān)鍵詞：