人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

您的位置：首頁 > 產(chǎn)經(jīng) >

GPT-4考90分全假！30年資深律師用ChatGPT打官司，6個(gè)虛假案例成笑柄精選

來源：華爾街見聞 ? 2023-05-28 13:57:37

在美國近來的一起訴訟案件中，一位律師幫原告打官司，引用了ChatGPT捏造的6個(gè)不存在的案例。

法官當(dāng)庭指出，律師的辯護(hù)狀是一個(gè)徹頭徹尾的謊言，簡(jiǎn)直離了大譜。

然而，律師為自己辯護(hù)中，甚至提交了和ChatGPT聊天截圖的證據(jù)。

(資料圖片)

顯然，ChatGPT稱「這些案例都是真實(shí)存在的」。

本為原告打的官司，自己竟惹禍上身，將受到制裁，這波操作瞬間在網(wǎng)上引起軒然大波。

畢竟，GPT-4剛誕生時(shí)，OpenAI放出它在律師資格考試（UBE）的成績(jī)，還拿到了90分。

網(wǎng)友警告，千萬不要用ChatGPT進(jìn)行法律研究?。。?/p>

還有人戲稱，要怪就怪你的prompt不行。

律師承認(rèn)使用ChatGPT

這起訴訟的起始和其他許多案件一樣。

一位名叫Roberto Mata的男子在飛往紐約肯尼迪國際機(jī)場(chǎng)的航班上，不幸被一輛餐車撞到膝蓋，導(dǎo)致受傷。

由此，他便要起訴這架航班的「哥倫比亞航空公司」（Avianca）。

Mata聘請(qǐng)了Levidow，Levidow & Oberman律所的一位律師來替自己打這個(gè)官司。

接手案子后，律師Steven A. Schwartz向法院提交了一份10頁的辯護(hù)狀。其中，引用了6個(gè)相關(guān)的法院判決：

Varghese V. 中國南方航空公司

Shaboon V. 埃及航空公司

Petersen V. 伊朗航空公司

Martinez 達(dá)美航空公司

Estate of Durden V. 荷蘭皇家航空公司

Miller V. 美國聯(lián)合航空公司

原文件：

https://storage.courtlistener.com/recap/gov.uscourts.nysd.575368/gov.uscourts.nysd.575368.32.1.pdf

然而，讓所有人震驚的是，從案件本身，到司法判決，再到內(nèi)部引文，全是假的！

為什么假？因?yàn)槭荂hatGPT生成的。

這不，麻煩就來了。

目前，對(duì)方律師考慮舉行聽證會(huì)，對(duì)原告律師進(jìn)行制裁。

Schwartz律師，可以說已經(jīng)非常資深，在紐約從事法律工作已有30年。

從他的話中得知，自己吃了大虧，竟是從來沒用過ChatGPT，由此沒有意識(shí)到它生成的內(nèi)容是假的。說來，還是太離譜

原告律師Steven A. Schwartz在一份宣誓書中承認(rèn)，他確實(shí)用了ChatGPT進(jìn)行相關(guān)研究。

為了驗(yàn)證這些案件的真實(shí)性，他做了唯一一件合理的事：讓ChatGPT驗(yàn)證這些案件的真實(shí)性。

他告訴法官，「自己無意欺騙法庭或航空公司」。

當(dāng)他詢問ChatGPT這些案件的來源時(shí)，ChatGPT先是為之前的表述不清道歉，但還是堅(jiān)稱這些案件都是真實(shí)的，可以在Westlaw和LexisNexis上找到。

而對(duì)方律師也同樣堅(jiān)持，來自Levidow & Oberman律師事務(wù)所的原告律師是多么荒唐可笑，由此才引發(fā)了法庭對(duì)這個(gè)細(xì)節(jié)的重視。

在其中一個(gè)案例中，有個(gè)叫Varghese的人起訴中國南方航空有限公司。然而這件事壓根不存在。

ChatGPT好像引用了另一個(gè)案件——Zicherman起訴大韓航空有限公司。而ChatGPT把日期、案件細(xì)節(jié)什么的都搞錯(cuò)了。

Schwartz此時(shí)才悔恨地表示，他沒有意識(shí)到ChatGPT可能提供假案件，現(xiàn)在他非常后悔用生成式AI來進(jìn)行法律研究。

法官表示，這種情況前所未見，并將于6月8日舉行聽證會(huì)，討論可能的制裁措施。

這件事情再次體現(xiàn)了一個(gè)很重要的事實(shí)，那就是用完ChatGPT必須用其它來源進(jìn)行雙重，甚至三重查證。

而AI模型在信息輸入上出現(xiàn)重大事實(shí)錯(cuò)誤已經(jīng)不是第一次了，谷歌的Bard也遇到過這種問題。

90分？GPT-4成績(jī)被夸大

還記得GPT-4剛剛發(fā)布那天，「小鎮(zhèn)做題家」在各項(xiàng)考試指標(biāo)上接近滿分的水平。

尤其，在美國統(tǒng)一律師資格考試（UBE）中，GPT-4可以拿到90%水平，而ChatGPT（GPT-3.5）也僅拿到10%的分?jǐn)?shù)。

但是，沒過多久，來自MIT的研究人員Eric Martínez發(fā)了一篇論文，重新評(píng)估了GPT-4在Bar考試中的表現(xiàn)。

論文直言，GPT-4的律師考試成績(jī)被夸大了。

論文地址：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4441311

作者在文中提出了4組發(fā)現(xiàn)，表明OpenAI對(duì)GPT-4在UBE的表現(xiàn)，盡管明顯比GPT-3.5有令人印象深刻的飛躍，但似乎過于夸大。

特別是，如果被當(dāng)作代表「百分位數(shù)下限范圍」的保守估計(jì)。更不用說，意在反映一位執(zhí)業(yè)律師的實(shí)際能力了。

首先，GPT-4的律師考試成績(jī)，是與2月份伊利諾伊州律師考試的應(yīng)試者相比較的。

值得注意的是，這些考生都是復(fù)讀生，不難理解，他們的分?jǐn)?shù)可能會(huì)更差。

其次，最近一次七月份考試的數(shù)據(jù)表明，GPT-4的UBE成績(jī)?yōu)?8%。

第三，通過檢查官方NCBE數(shù)據(jù)，并使用若干保守的統(tǒng)計(jì)假設(shè)，估計(jì)GPT-4在所有首次考試中實(shí)現(xiàn)63%。

最后，當(dāng)只考慮那些通過考試的人（即已獲得許可或待許可的律師）時(shí)，預(yù)計(jì)GPT-4的表現(xiàn)將下降到48%。

網(wǎng)友稱，更準(zhǔn)確來說，GPT-4應(yīng)該只有63分，或者68分。

文中，作者還提供了深刻的見解，探討了將法律任務(wù)外包給AI模型的可取性和可行性。

甚至，人工智能開發(fā)人員實(shí)施嚴(yán)格和透明的能力評(píng)估，以幫助確保安全和可靠的人工智能的重要性。

要是，原告的那位律師看過這項(xiàng)研究后，說不定就不會(huì)吃大虧了。

ChatGPT胡說八道

歸根結(jié)底，ChatGPT能夠編造出6個(gè)不在的案例，還是因?yàn)樗逃械摹富糜X」問題。

直白來講，就是張口胡說八道的天性所致。

就連馬斯克都想拯救這個(gè)致命的問題，官宣推出了名為TruthGPT的AI平臺(tái)。

馬斯克曾表示，TruthGPT將是一個(gè)「最大的求真人工智能」，它將試圖理解宇宙的本質(zhì)。

然而，別管什么GPT，幻覺很難搞定。

前段時(shí)間，OpenAI聯(lián)合創(chuàng)始人兼研究員John Schulman在演講「RL and Truthfulness – Towards TruthGPT」中，討論了幻覺產(chǎn)生的原因以及解決方案。

根據(jù)Schulman的說法，幻覺大致可以分為兩種類型：

1 模式完成行為，即語言模型無法表達(dá)自己的不確定性，無法質(zhì)疑提示中的前提，或者繼續(xù)之前犯的錯(cuò)誤

2 模型猜測(cè)錯(cuò)誤

語言模型代表一種知識(shí)圖譜，該圖譜將訓(xùn)練數(shù)據(jù)中的事實(shí)存儲(chǔ)在自己的網(wǎng)絡(luò)中。而微調(diào)可以理解為「學(xué)習(xí)一個(gè)函數(shù)」，能夠在知識(shí)圖譜上操作并輸出token預(yù)測(cè)。

比如，微調(diào)數(shù)據(jù)集中，如果有包含「星球大戰(zhàn)是什么片？」這個(gè)問題，以及「科幻」這個(gè)答案。

要是這一信息在原始訓(xùn)練數(shù)據(jù)中存在，那么模型就不會(huì)學(xué)習(xí)新信息，而是學(xué)習(xí)一種行為——輸出答案。而這種微調(diào)也被稱為「行為克隆」。

如果「星球大戰(zhàn)是什么片？」這一問題的答案不是原始訓(xùn)練數(shù)據(jù)的一部分。即便不知道，模型也會(huì)學(xué)習(xí)正確答案。

但問題是，使用這些不在知識(shí)圖譜中的答案進(jìn)行微調(diào)，就會(huì)讓模型學(xué)會(huì)編造答案，即產(chǎn)生所謂的「幻覺」。

相反，要是用不正確的答案去訓(xùn)練模型，就會(huì)導(dǎo)致模型知識(shí)網(wǎng)絡(luò)隱瞞信息。

網(wǎng)友熱評(píng)

此事一出，各位網(wǎng)友也是各抒己見。

Kim表示，不光是ChatGPT，其實(shí)人類也愛用想象來彌補(bǔ)知識(shí)盲區(qū)。只不過ChatGPT能裝的更逼真。關(guān)鍵在于，要搞清楚ChatGPT知道什么、不知道什么。

Zero提出了一個(gè)很有建設(shè)性的提議，那就是：以后ChatGPT再舉事例，后面得附上來源鏈接。

Francis表示，早說過了，ChatGPT是一種生成式人工智能。意味著它會(huì)根據(jù)輸入的問題生成回答。無論它有多能模仿人類在理解問題后的精彩回答，也改變不了ChatGPT本身并不理解這個(gè)問題的事實(shí)。

Tricorn認(rèn)為，這位原告律師不應(yīng)該把鍋扔給ChatGPT，是他自己用錯(cuò)了。應(yīng)該是把事例當(dāng)作prompt的一部分輸入進(jìn)去，然后讓ChatGPT填補(bǔ)中間缺環(huán)的論證部分。

還有網(wǎng)友稱，用ChatGPT要上點(diǎn)心，要不下一個(gè)超級(jí)碗就是你了。

這就是活靈活現(xiàn)的證據(jù)。ChatGPT等人工智能工具做人類的工作，真的是可能直接導(dǎo)致我們的大災(zāi)難。

對(duì)于ChatGPT這個(gè)表現(xiàn)，你怎么看？

參考資料：

https://www.theverge.com/2023/5/27/23739913/chatgpt-ai-lawsuit-avianca-airlines-chatbot-research

https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.htm

本文來源：新智元，作者：桃子拉燕，原標(biāo)題：《GPT-4考90分全假！30年資深律師用ChatGPT打官司，6個(gè)虛假案例成笑柄》

風(fēng)險(xiǎn)提示及免責(zé)條款市場(chǎng)有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：