比特派app|最新GPT-4在律考中擊敗90%人類，它到底強(qiáng)在哪？

作者: 比特派app|最新GPT-4在律考中擊敗90%人類，它到底強(qiáng)在哪？
2024-04-11 00:17:33

來(lái)源：鈦媒體

作者：林志佳

圖片來(lái)源：由無(wú)界版圖AI工具生成

“碼農(nóng)真的快失業(yè)了，編程不存在了?！痹诮裨?GPT-4發(fā)布之后，朋友圈刷屏，很多人表達(dá)該技術(shù)對(duì)目前人類生產(chǎn)生活的影響。

GPT-4有多強(qiáng)，GRE考試接近滿分，律考比肩頂級(jí)律師，隨手畫個(gè)草圖就能做出同款網(wǎng)頁(yè)。當(dāng)國(guó)內(nèi)還在熱議人工智能對(duì)話大模型產(chǎn)品ChatGPT時(shí)，背后核心預(yù)訓(xùn)練模型技術(shù)GPT卻突然重磅升級(jí)。

鈦媒體App獲悉，北京時(shí)間3月15日凌晨，創(chuàng)造出ChatGPT的美國(guó) AI 公司OpenAI 正式對(duì)外發(fā)布GPT-4。

據(jù)悉，GPT-4是新一代多模態(tài)大模型，支持圖像和文本輸入以及正確的文本輸出，擁有強(qiáng)大的識(shí)圖能力，文字輸入限制提升至2.5萬(wàn)字，支持多個(gè)語(yǔ)言，回答準(zhǔn)確性顯著提高，從而讓新的ChatGPT更聰明。此外，GPT-4還開放了角色扮演和性格定制能力。另外，GPT-4版本還會(huì)隨著時(shí)間進(jìn)行自動(dòng)更新。

鈦媒體App了解到，OpenAI發(fā)布的GPT-4在各種專業(yè)學(xué)術(shù)基準(zhǔn)上有著人類水平表現(xiàn)。例如在模擬律師考試中，GPT-4得分約為前10%——擊敗了90%人類，而ChatGPT背后的GPT-3.5得分約為倒數(shù)10%。

“GPT-4 是世界第一款高體驗(yàn)，強(qiáng)能力的先進(jìn)AI系統(tǒng)，我們希望很快把它推向所有人?！監(jiān)penAI工程師在開發(fā)者Demo視頻中表示，GPT-4 是OpenAI努力擴(kuò)展深度學(xué)習(xí)的最新里程碑。OpenAI稱，GPT-4雖然在許多現(xiàn)實(shí)世界場(chǎng)景中的能力不如人類，但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類水平的表現(xiàn)。

微軟在GPT-4發(fā)布后第一時(shí)間表示，新的必應(yīng)（Bing）已經(jīng)基于GPT-4 技術(shù)運(yùn)行，這是為搜索產(chǎn)品量身定制的模型產(chǎn)品?！叭绻阍谶^(guò)去五周內(nèi)的任何時(shí)候使用過(guò)新的Bing預(yù)覽版，你就已經(jīng)提前了解過(guò)這個(gè)強(qiáng)大模型的早期版本。隨著OpenAl對(duì)GPT-4及以后的版本進(jìn)行更新，Bing 從這些改進(jìn)中受益匪淺。”

鈦媒體App獲悉，即日起，ChatGPT Plus付費(fèi)訂閱用戶現(xiàn)可直接使用GPT-4版本的ChatGPT，未來(lái)則將對(duì)免費(fèi)用戶開放一定數(shù)量的GPT-4體驗(yàn)。同時(shí)，GPT-4 API 需要申請(qǐng)候選名單，今天將開始邀請(qǐng)一些開發(fā)人員，并不斷擴(kuò)大邀請(qǐng)規(guī)模，每1000字符的價(jià)格為0.03美元；圖像輸入則處在研究預(yù)覽階段，僅對(duì)少部分用戶開放。

不過(guò)，GPT-4仍存在改進(jìn)空間。雖然這次模型大升級(jí)，但之前ChatGPT會(huì)出現(xiàn)幻覺、“胡說(shuō)八道”的毛病還是沒能在GPT-4中完全改掉。

誰(shuí)能革得了 ChatGPT 的命？現(xiàn)在看來(lái)還是 OpenAI 自己。

花了6個(gè)月打造，GPT-4到底強(qiáng)在哪里？

聊GPT-4之前，先要了解GPT到底是什么。

隨著1956年“達(dá)特茅斯會(huì)議”上創(chuàng)造“人工智能”這個(gè)術(shù)語(yǔ)，全球迎來(lái)了 AI 技術(shù)發(fā)展階段。在2016年谷歌DeepMind的“阿爾法狗”（AlphaGo）擊敗了韓國(guó)圍棋冠軍李世乭，以及機(jī)器學(xué)習(xí)的誕生，AI 算法、算力、數(shù)據(jù)“三駕馬車”獲得了突破性技術(shù)進(jìn)展。

但問(wèn)題在于，機(jī)器學(xué)習(xí)利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) ——序列數(shù)據(jù)或時(shí)序數(shù)據(jù)的人工神經(jīng)網(wǎng)絡(luò)來(lái)處理文字，使得文字按順序一個(gè)個(gè)處理，沒辦法同時(shí)進(jìn)行大量學(xué)習(xí)。

因此2017年，谷歌團(tuán)隊(duì)發(fā)布論文“Attention Is All You Need”，提出了一個(gè)新的學(xué)習(xí)框架Transformer，以解決此問(wèn)題。它拋棄了傳統(tǒng)的CNN（卷積神經(jīng)網(wǎng)絡(luò)）和RNN，使整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全由Attention機(jī)制組成，從而讓機(jī)器同時(shí)學(xué)習(xí)大量的文字，訓(xùn)練速度效率大大提升。

簡(jiǎn)單來(lái)說(shuō)，只需要LLM（大型語(yǔ)言模型）、大型參數(shù)量和算力算法訓(xùn)練，以Attention機(jī)制就可實(shí)現(xiàn)快速的機(jī)器學(xué)習(xí)能力。因此，無(wú)論是ChatGPT的T，還是谷歌預(yù)訓(xùn)練語(yǔ)言模型BERT的T，均是Transformer的意思。

基于Transformer框架，OpenAI進(jìn)行了新的研究學(xué)習(xí)GPT，全稱為Generative Pre-trained Transformer（生成式預(yù)訓(xùn)練框架），其利用無(wú)監(jiān)督學(xué)習(xí)技術(shù)，通過(guò)大量數(shù)據(jù)來(lái)形成快速反饋。2018年6月，OpenAI發(fā)布第一代GPT，2019年11月發(fā)布GPT-2，2021年發(fā)布了1750億參數(shù)量的GPT-3，不僅可以更好地答題、翻譯、寫文章，還帶有一些數(shù)學(xué)計(jì)算的能力等，而ChatGPT是微調(diào)之后的GPT-3.5消費(fèi)級(jí)應(yīng)用。

今天發(fā)布的GPT-4，是一個(gè)大型多模態(tài)模型，能接受圖像和文本輸入，再輸出正確的文本回復(fù)。OpenAI表示，團(tuán)隊(duì)花了6個(gè)月的時(shí)間使用對(duì)抗性測(cè)試程序和ChatGPT的經(jīng)驗(yàn)教訓(xùn)，對(duì)GPT-4進(jìn)行迭代調(diào)整，從而在真實(shí)性、可控性等方面取得了有史以來(lái)最好的結(jié)果。

“GPT-3.5 和 GPT-4 之間的區(qū)別可能很微妙。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí)，差異就會(huì)出現(xiàn)——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意，并且能夠處理更細(xì)微的指令。”O(jiān)penAI 表示，在過(guò)去的兩年里，團(tuán)隊(duì)重建了整個(gè)深度學(xué)習(xí)堆棧，并與微軟Azure一起，為GPT工作負(fù)載從頭開始共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)。經(jīng)過(guò)訓(xùn)練和修復(fù)更新之后，GPT-4前所未有地穩(wěn)定，成為 OpenAI 能夠提前準(zhǔn)確預(yù)測(cè)其訓(xùn)練性能的第一個(gè)大型模型。

那么，GPT-4技術(shù)到底怎么樣？為了了解這模型差異，根據(jù)官方實(shí)驗(yàn)表明，GPT-4在各種專業(yè)測(cè)試和學(xué)術(shù)基準(zhǔn)上的表現(xiàn)與人類水平相當(dāng)。

首先，在美國(guó)BAR律師執(zhí)照統(tǒng)考模擬中，GPT-4得分約為前10%——擊敗了90%人類，而ChatGPT背后的GPT-3.5得分約為倒數(shù)10%；生物奧林匹克競(jìng)賽，GPT-3.5能達(dá)到后31%水平分位，GPT-4可達(dá)到前1%水平分位；研究生入學(xué)考試 (GRE) 、SAT數(shù)學(xué)考試成績(jī)中，也有大幅提升，擊敗了80%以上的人類答題水平，而醫(yī)學(xué)知識(shí)自測(cè)考試準(zhǔn)確率達(dá)75%。

第二個(gè)測(cè)試是與其他英文機(jī)器學(xué)習(xí)模型的技術(shù)能力。研究團(tuán)隊(duì)使用微軟Azure Translate，將MMLU?基準(zhǔn)——一套涵蓋57個(gè)主題、14000個(gè)多項(xiàng)選擇題翻譯成多種語(yǔ)言。在測(cè)試的英語(yǔ)、拉脫維亞語(yǔ)、威爾士語(yǔ)和斯瓦希里語(yǔ)等26種語(yǔ)言中，有24種語(yǔ)言下，GPT-4優(yōu)于GPT-3.5 和其他大語(yǔ)言模型（Chinchilla、PaLM）的英語(yǔ)語(yǔ)言性能。

而在TruthfulQA等外部基準(zhǔn)測(cè)試方面，GPT-4也取得了進(jìn)展。OpenAI測(cè)試了GPT-4模型將事實(shí)與錯(cuò)誤陳述的對(duì)抗性選擇區(qū)分開的能力。實(shí)驗(yàn)結(jié)果顯示，GPT-4基本模型在此任務(wù)上僅比GPT-3.5略好。但在經(jīng)過(guò)RLHF訓(xùn)練之后，二者的差距就很大了，例如GPT-4在測(cè)試中并不是所有時(shí)候它都能做出正確的選擇。

此外，GPT-4還支持做編程、玩梗圖、回答關(guān)鍵問(wèn)題、理解圖片、看懂法語(yǔ)題目并解答等其他更多擴(kuò)展技術(shù)能力，研究人員發(fā)現(xiàn)，GPT-4能隨著時(shí)間不斷處理令人興奮地新任務(wù)——現(xiàn)在的矛盾是 AI 的能力和人類想象力之間的矛盾。不過(guò)OpenAI表示，圖像輸入是研究預(yù)覽，目前不公開。

對(duì)于一個(gè)長(zhǎng)相奇怪的充電器的圖片問(wèn)為什么這很可笑？GPT-4 回答：VGA 線充 iPhone。

GPT-4回答數(shù)學(xué)問(wèn)題

總的來(lái)說(shuō)，GPT-4 相對(duì)于以前的模型（經(jīng)過(guò)多次迭代和改進(jìn)）已經(jīng)顯著減輕了判斷失誤問(wèn)題。在OpenAI的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中，GPT-4的得分比ChatGPT使用的GPT-3.5模型能力高40%。

很顯然，雖然 GPT-4 對(duì)于許多現(xiàn)實(shí)場(chǎng)景的處理比人類差，但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上已表現(xiàn)出和人類相當(dāng)?shù)乃健?/p>

不過(guò)，GPT-4模型也有很多不足，有著與以前的模型類似的風(fēng)險(xiǎn)，如產(chǎn)生有害的建議、錯(cuò)誤的代碼或不準(zhǔn)確的信息，以及對(duì)實(shí)時(shí)事件的不了解等。

1、該模型在其輸出中可能會(huì)有各種偏見，但OpenAI在這些方面已經(jīng)取得了進(jìn)展，目標(biāo)是使建立的人工智能系統(tǒng)具有合理的默認(rèn)行為，以反映廣泛的用戶價(jià)值觀。2、GPT-4 通常缺乏對(duì)其絕大部分?jǐn)?shù)據(jù)截止后（2021 年 9 月）發(fā)生的事件的了解，也不會(huì)從其經(jīng)驗(yàn)中學(xué)習(xí)。它有時(shí)會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤，這似乎與這么多領(lǐng)域的能力不相符，或者過(guò)于輕信用戶的明顯虛假陳述。有時(shí)它也會(huì)像人類一樣在困難的問(wèn)題上失敗，比如在它生成的代碼中引入安全漏洞。3、GPT-4 預(yù)測(cè)時(shí)也可能出錯(cuò)但很自信，意識(shí)到可能出錯(cuò)時(shí)也不會(huì)再檢查一遍（double-check）。有趣的是，基礎(chǔ)預(yù)訓(xùn)練模型經(jīng)過(guò)高度校準(zhǔn)（其對(duì)答案的預(yù)測(cè)置信度通常與正確概率相匹配）。然而，通過(guò)OpenAI目前訓(xùn)練后的過(guò)程，校準(zhǔn)減少了。

OpenAI表示，研究團(tuán)隊(duì)一直在對(duì)GPT-4進(jìn)行迭代，使其從訓(xùn)練開始就更加安全和一致，所做的努力包括預(yù)訓(xùn)練數(shù)據(jù)的選擇和過(guò)濾、評(píng)估和專家參與、模型安全改進(jìn)以及監(jiān)測(cè)和執(zhí)行。數(shù)據(jù)顯示，與GPT-3.5相比，模型對(duì)不允許內(nèi)容的請(qǐng)求的響應(yīng)傾向降低了82%，而GPT-4對(duì)敏感請(qǐng)求（如醫(yī)療建議和自我傷害）的響應(yīng)符合政策的頻率提高了29%。

另外，OpenAI團(tuán)隊(duì)還聘請(qǐng)了 50 多位來(lái)自人工智能對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任和安全以及國(guó)際安全等領(lǐng)域的專家，對(duì)該模型在高風(fēng)險(xiǎn)領(lǐng)域的行為進(jìn)行對(duì)抗性測(cè)試，從而為改進(jìn)GPT模型提供了依據(jù)。

“隨著我們繼續(xù)專注于可靠的擴(kuò)展，我們的目標(biāo)是完善我們的方法，以幫助我們?cè)絹?lái)越多地提前預(yù)測(cè)和準(zhǔn)備未來(lái)的能力——我們認(rèn)為這對(duì)安全至關(guān)重要?！監(jiān)penAI 表示。

目前GPT-4版本默認(rèn)速率限制為每分鐘40k個(gè)Token和每分鐘200個(gè)請(qǐng)求，而GPT-4的上下文長(zhǎng)度為8192個(gè)Token，最多提供32768個(gè)Token上下文（約 50 頁(yè)文本）版本的有限訪問(wèn)，但版本也會(huì)隨著時(shí)間自動(dòng)更新。

不過(guò)，目前OpenAI公開的技術(shù)報(bào)告中，不包含任何關(guān)于模型架構(gòu)、硬件、算力等方面的更多信息，也不包括期待已久的 AI 視頻功能，也并沒有開放 GPT-4的任何核心技術(shù)論文信息。

但OpenAI正在開源其軟件框架OpenAI Evals，用于創(chuàng)建和運(yùn)行基準(zhǔn)測(cè)試以評(píng)估GPT-4等模型，同時(shí)逐個(gè)樣本地檢查它們的性能。

復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師黃萱菁此前表示，OpenAI迄今為止沒有開放過(guò)它的模型，只開放過(guò)API接口，你可以調(diào)用它，但拿不到GPT-3.5內(nèi)部細(xì)節(jié)，而且今年連論文都沒有，需要大家去猜測(cè)。

全球進(jìn)入 AI 大模型軍備競(jìng)賽，與GPT差距拉大

實(shí)際上，隨著基于GPT技術(shù)的ChatGPT風(fēng)靡全球，全球已經(jīng)進(jìn)入了 AI 大模型軍備競(jìng)賽。

首先是影響到搜索引擎巨頭地位的谷歌。手握 LaMDA、PaLM, Imagen 等 AI 技術(shù)的谷歌，不會(huì)讓微軟這么輕易就搶占了 AI 應(yīng)用的先機(jī)。

就在GPT-4發(fā)布前幾個(gè)小時(shí)，谷歌為了迎戰(zhàn)微軟，宣布將一系列即將推出的生成式人工智能（AIGC）功能與模型應(yīng)用到自家產(chǎn)品中。包括Google Docs（文檔）、Gmail、Sheets（表格）和 Slides（幻燈片）等。但不同于微軟和OpenAI的“發(fā)布即可用”，谷歌只會(huì)先將Docs和Gmail中的AI工具在月底提供給一些“值得信賴的開發(fā)人員”，具體開放時(shí)間沒有公布。

更早之前，谷歌發(fā)布了ChatGPT最大競(jìng)品、基于LaMDA AI 架構(gòu)的 Bard聊天機(jī)器人，支持多角度回答問(wèn)題，以及強(qiáng)大的上下文理解能力，未來(lái) Bard 還會(huì)被集合在 Google 搜索之中，為你更快速地提供答案。不過(guò)Bard在Demo演示中頻繁“翻車”，市場(chǎng)并不看好。

3月15日凌晨，谷歌宣布開放自家的大語(yǔ)言模型 PaLM API，而且還發(fā)布了一款幫助開發(fā)者快速構(gòu)建 AI 程序的工具 MakerSuite。谷歌表示，此舉是為了幫助開發(fā)者們快速構(gòu)建生成式 AI 應(yīng)用。

相對(duì)于谷歌，微軟做好了充足的準(zhǔn)備。

今年2月，微軟宣布數(shù)十億美元投資OpenAI公司，后者估值高達(dá)290億美元，成為 AIGC 領(lǐng)域最高估值的獨(dú)角獸公司。如今，微軟已經(jīng)在旗下所有產(chǎn)品中全線整合ChatGPT，包括且不限于Bing搜索引擎、包含Word、PPT、Excel的Office全家桶、Azure云服務(wù)、Teams聊天程序等預(yù)計(jì)本周四（16日），微軟將宣布GPT-4與Azure云服務(wù)的結(jié)合。

目前在國(guó)內(nèi)，百度、商湯、曠視科技等多家 AI 公司和科研機(jī)構(gòu)都在做關(guān)于大模型的技術(shù)產(chǎn)品和應(yīng)用。

就在3月14日晚，港股 AI 龍頭企業(yè)商湯科技發(fā)布了多模態(tài)通用大模型“書生 2.5”，擁有30億參數(shù)，支持問(wèn)答、識(shí)圖、以文生圖等，在自動(dòng)駕駛和居家機(jī)器人等通用場(chǎng)景下，“書生 2.5”可輔助處理各種復(fù)雜任務(wù)。據(jù)悉，“書生”由商湯科技、上海人工智能實(shí)驗(yàn)室、清華大學(xué)、香港中文大學(xué)、上海交通大學(xué)于2021年11月首次共同發(fā)布，并持續(xù)聯(lián)合研發(fā)。

盡管中國(guó)在 AI 領(lǐng)域進(jìn)行了很多研究成果和布局，但目前要達(dá)到像OpenAI的效果可能還需時(shí)日。科學(xué)技術(shù)部部長(zhǎng)王志剛3月5日表示，ChatGPT證明了 AI 是大方向，而 OpenAI 在 AI 對(duì)話實(shí)時(shí)效果方面有明顯優(yōu)勢(shì)。

“比如發(fā)動(dòng)機(jī)，大家都能做出發(fā)動(dòng)機(jī)，但質(zhì)量是有不同的。踢足球都是盤帶、射門，但是要做到梅西那么好也不容易?！蓖踔緞偙硎?。

那么，國(guó)內(nèi) AI 技術(shù)行業(yè)如何看待中國(guó)企業(yè)做大模型的呢？

創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO李開復(fù)博士在3月14日表示，ChatGPT快速普及將進(jìn)一步引爆 AI 2.0 商業(yè)化。AI 2.0 是絕對(duì)不能錯(cuò)過(guò)的一次革命。

曠視科技聯(lián)合創(chuàng)始人、CEO印奇3月10日對(duì)鈦媒體App表示，中國(guó)攻堅(jiān) AI 大模型，要先把GPT-3.5復(fù)現(xiàn)出來(lái)，但過(guò)程沒有想象的那么容易。國(guó)內(nèi)一方面要用最艱苦樸素、奮斗的狀態(tài)來(lái)攻堅(jiān)核心 AI 技術(shù)，另外中國(guó) AI 公司想活得長(zhǎng)，必須要把大模型商業(yè)化。“我們要有極強(qiáng)的危機(jī)感。”

瀾舟科技創(chuàng)始人兼CEO周明告訴鈦媒體App，對(duì)于國(guó)內(nèi)而言，中國(guó)做大模型還是更多的要去了解國(guó)外的發(fā)展趨勢(shì)，不能固步自封，還是需要學(xué)習(xí)；但同時(shí)中國(guó) AI 技術(shù)在過(guò)去20多年取得長(zhǎng)足的進(jìn)步，無(wú)論人才還是技術(shù)，中國(guó)有很好的歷史性機(jī)遇，更多是樂(lè)觀，而非悲觀。

“中國(guó)在To B（企業(yè)端）落地方面應(yīng)該走在ChatGPT前面。如何把中國(guó)特色發(fā)揮到極致，是大家都要彼此思考的問(wèn)題?！敝苊鲃?chuàng)立的語(yǔ)音大模型公司瀾舟科技在3月14日宣布完成Pre-A+輪融資，并公布了該公司研發(fā)的“孟子MChat可控大模型”，此前周明在微軟工作超過(guò)20年。

就目前來(lái)看，GPT-4是OpenAI在擴(kuò)展深度學(xué)習(xí)道路上的最新里程碑。但正如OpenAI所言，前方還有很多工作要做，需要通過(guò)用戶和開發(fā)者的不斷測(cè)試，以及社區(qū)在模型之上構(gòu)建、探索和貢獻(xiàn)，從而持續(xù)將模型變得越來(lái)越強(qiáng)。

無(wú)論中國(guó)公司能夠做到哪種地步，唯一確定的是，這一次，我們?nèi)祟愲x通用人工智能（AGI）更近了一步。（本文首發(fā)鈦媒體App，作者｜林志佳）

少妇伦子伦精品无吗,国产在线精品一区在线观看,精品久久久久久无码专区不卡,99久久免费国产精精品