來(lái)源:鈦媒體
作者:林志佳
圖片來(lái)源:由無(wú)界版圖AI工具生成
“碼農(nóng)真的快失業(yè)了,編程不存在了?!痹诮裨?GPT-4發(fā)布之后,朋友圈刷屏,很多人表達(dá)該技術(shù)對(duì)目前人類生產(chǎn)生活的影響。
GPT-4有多強(qiáng),GRE考試接近滿分,律考比肩頂級(jí)律師,隨手畫個(gè)草圖就能做出同款網(wǎng)頁(yè)。當(dāng)國(guó)內(nèi)還在熱議人工智能對(duì)話大模型產(chǎn)品ChatGPT時(shí),背后核心預(yù)訓(xùn)練模型技術(shù)GPT卻突然重磅升級(jí)。
鈦媒體App獲悉,北京時(shí)間3月15日凌晨,創(chuàng)造出ChatGPT的美國(guó) AI 公司OpenAI 正式對(duì)外發(fā)布GPT-4。
據(jù)悉,GPT-4是新一代多模態(tài)大模型,支持圖像和文本輸入以及正確的文本輸出,擁有強(qiáng)大的識(shí)圖能力,文字輸入限制提升至2.5萬(wàn)字,支持多個(gè)語(yǔ)言,回答準(zhǔn)確性顯著提高,從而讓新的ChatGPT更聰明。此外,GPT-4還開放了角色扮演和性格定制能力。另外,GPT-4版本還會(huì)隨著時(shí)間進(jìn)行自動(dòng)更新。
鈦媒體App了解到,OpenAI發(fā)布的GPT-4在各種專業(yè)學(xué)術(shù)基準(zhǔn)上有著人類水平表現(xiàn)。例如在模擬律師考試中,GPT-4得分約為前10%——擊敗了90%人類,而ChatGPT背后的GPT-3.5得分約為倒數(shù)10%。
“GPT-4 是世界第一款高體驗(yàn),強(qiáng)能力的先進(jìn)AI系統(tǒng),我們希望很快把它推向所有人?!監(jiān)penAI工程師在開發(fā)者Demo視頻中表示,GPT-4 是OpenAI努力擴(kuò)展深度學(xué)習(xí)的最新里程碑。OpenAI稱,GPT-4雖然在許多現(xiàn)實(shí)世界場(chǎng)景中的能力不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出人類水平的表現(xiàn)。
微軟在GPT-4發(fā)布后第一時(shí)間表示,新的必應(yīng)(Bing)已經(jīng)基于GPT-4 技術(shù)運(yùn)行,這是為搜索產(chǎn)品量身定制的模型產(chǎn)品?!叭绻阍谶^(guò)去五周內(nèi)的任何時(shí)候使用過(guò)新的Bing預(yù)覽版,你就已經(jīng)提前了解過(guò)這個(gè)強(qiáng)大模型的早期版本。隨著OpenAl對(duì)GPT-4及以后的版本進(jìn)行更新,Bing 從這些改進(jìn)中受益匪淺。”
鈦媒體App獲悉,即日起,ChatGPT Plus付費(fèi)訂閱用戶現(xiàn)可直接使用GPT-4版本的ChatGPT,未來(lái)則將對(duì)免費(fèi)用戶開放一定數(shù)量的GPT-4體驗(yàn)。同時(shí),GPT-4 API 需要申請(qǐng)候選名單,今天將開始邀請(qǐng)一些開發(fā)人員,并不斷擴(kuò)大邀請(qǐng)規(guī)模,每1000字符的價(jià)格為0.03美元;圖像輸入則處在研究預(yù)覽階段,僅對(duì)少部分用戶開放。
不過(guò),GPT-4仍存在改進(jìn)空間。雖然這次模型大升級(jí),但之前ChatGPT會(huì)出現(xiàn)幻覺、“胡說(shuō)八道”的毛病還是沒能在GPT-4中完全改掉。
誰(shuí)能革得了 ChatGPT 的命?現(xiàn)在看來(lái)還是 OpenAI 自己。
聊GPT-4之前,先要了解GPT到底是什么。
隨著1956年“達(dá)特茅斯會(huì)議”上創(chuàng)造“人工智能”這個(gè)術(shù)語(yǔ),全球迎來(lái)了 AI 技術(shù)發(fā)展階段。在2016年谷歌DeepMind的“阿爾法狗”(AlphaGo)擊敗了韓國(guó)圍棋冠軍李世乭,以及機(jī)器學(xué)習(xí)的誕生,AI 算法、算力、數(shù)據(jù)“三駕馬車”獲得了突破性技術(shù)進(jìn)展。
但問(wèn)題在于,機(jī)器學(xué)習(xí)利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) ——序列數(shù)據(jù)或時(shí)序數(shù)據(jù)的人工神經(jīng)網(wǎng)絡(luò)來(lái)處理文字,使得文字按順序一個(gè)個(gè)處理,沒辦法同時(shí)進(jìn)行大量學(xué)習(xí)。
因此2017年,谷歌團(tuán)隊(duì)發(fā)布論文“Attention Is All You Need”,提出了一個(gè)新的學(xué)習(xí)框架Transformer,以解決此問(wèn)題。它拋棄了傳統(tǒng)的CNN(卷積神經(jīng)網(wǎng)絡(luò))和RNN,使整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全由Attention機(jī)制組成,從而讓機(jī)器同時(shí)學(xué)習(xí)大量的文字,訓(xùn)練速度效率大大提升。
簡(jiǎn)單來(lái)說(shuō),只需要LLM(大型語(yǔ)言模型)、大型參數(shù)量和算力算法訓(xùn)練,以Attention機(jī)制就可實(shí)現(xiàn)快速的機(jī)器學(xué)習(xí)能力。因此,無(wú)論是ChatGPT的T,還是谷歌預(yù)訓(xùn)練語(yǔ)言模型BERT的T,均是Transformer的意思。
基于Transformer框架,OpenAI進(jìn)行了新的研究學(xué)習(xí)GPT,全稱為Generative Pre-trained Transformer(生成式預(yù)訓(xùn)練框架),其利用無(wú)監(jiān)督學(xué)習(xí)技術(shù),通過(guò)大量數(shù)據(jù)來(lái)形成快速反饋。2018年6月,OpenAI發(fā)布第一代GPT,2019年11月發(fā)布GPT-2,2021年發(fā)布了1750億參數(shù)量的GPT-3,不僅可以更好地答題、翻譯、寫文章,還帶有一些數(shù)學(xué)計(jì)算的能力等,而ChatGPT是微調(diào)之后的GPT-3.5消費(fèi)級(jí)應(yīng)用。
今天發(fā)布的GPT-4,是一個(gè)大型多模態(tài)模型,能接受圖像和文本輸入,再輸出正確的文本回復(fù)。OpenAI表示,團(tuán)隊(duì)花了6個(gè)月的時(shí)間使用對(duì)抗性測(cè)試程序和ChatGPT的經(jīng)驗(yàn)教訓(xùn),對(duì)GPT-4進(jìn)行迭代調(diào)整,從而在真實(shí)性、可控性等方面取得了有史以來(lái)最好的結(jié)果。
“GPT-3.5 和 GPT-4 之間的區(qū)別可能很微妙。當(dāng)任務(wù)的復(fù)雜性達(dá)到足夠的閾值時(shí),差異就會(huì)出現(xiàn)——GPT-4 比 GPT-3.5 更可靠、更有創(chuàng)意,并且能夠處理更細(xì)微的指令。”O(jiān)penAI 表示,在過(guò)去的兩年里,團(tuán)隊(duì)重建了整個(gè)深度學(xué)習(xí)堆棧,并與微軟Azure一起,為GPT工作負(fù)載從頭開始共同設(shè)計(jì)了一臺(tái)超級(jí)計(jì)算機(jī)。經(jīng)過(guò)訓(xùn)練和修復(fù)更新之后,GPT-4前所未有地穩(wěn)定,成為 OpenAI 能夠提前準(zhǔn)確預(yù)測(cè)其訓(xùn)練性能的第一個(gè)大型模型。
那么,GPT-4技術(shù)到底怎么樣?為了了解這模型差異,根據(jù)官方實(shí)驗(yàn)表明,GPT-4在各種專業(yè)測(cè)試和學(xué)術(shù)基準(zhǔn)上的表現(xiàn)與人類水平相當(dāng)。
首先,在美國(guó)BAR律師執(zhí)照統(tǒng)考模擬中,GPT-4得分約為前10%——擊敗了90%人類,而ChatGPT背后的GPT-3.5得分約為倒數(shù)10%;生物奧林匹克競(jìng)賽,GPT-3.5能達(dá)到后31%水平分位,GPT-4可達(dá)到前1%水平分位;研究生入學(xué)考試 (GRE) 、SAT數(shù)學(xué)考試成績(jī)中,也有大幅提升,擊敗了80%以上的人類答題水平,而醫(yī)學(xué)知識(shí)自測(cè)考試準(zhǔn)確率達(dá)75%。
第二個(gè)測(cè)試是與其他英文機(jī)器學(xué)習(xí)模型的技術(shù)能力。研究團(tuán)隊(duì)使用微軟Azure Translate,將MMLU?基準(zhǔn)——一套涵蓋57個(gè)主題、14000個(gè)多項(xiàng)選擇題翻譯成多種語(yǔ)言。在測(cè)試的英語(yǔ)、拉脫維亞語(yǔ)、威爾士語(yǔ)和斯瓦希里語(yǔ)等26種語(yǔ)言中,有24種語(yǔ)言下,GPT-4優(yōu)于GPT-3.5 和其他大語(yǔ)言模型(Chinchilla、PaLM)的英語(yǔ)語(yǔ)言性能。
而在TruthfulQA等外部基準(zhǔn)測(cè)試方面,GPT-4也取得了進(jìn)展。OpenAI測(cè)試了GPT-4模型將事實(shí)與錯(cuò)誤陳述的對(duì)抗性選擇區(qū)分開的能力。實(shí)驗(yàn)結(jié)果顯示,GPT-4基本模型在此任務(wù)上僅比GPT-3.5略好。但在經(jīng)過(guò)RLHF訓(xùn)練之后,二者的差距就很大了,例如GPT-4在測(cè)試中并不是所有時(shí)候它都能做出正確的選擇。
此外,GPT-4還支持做編程、玩梗圖、回答關(guān)鍵問(wèn)題、理解圖片、看懂法語(yǔ)題目并解答等其他更多擴(kuò)展技術(shù)能力,研究人員發(fā)現(xiàn),GPT-4能隨著時(shí)間不斷處理令人興奮地新任務(wù)——現(xiàn)在的矛盾是 AI 的能力和人類想象力之間的矛盾。不過(guò)OpenAI表示,圖像輸入是研究預(yù)覽,目前不公開。
對(duì)于一個(gè)長(zhǎng)相奇怪的充電器的圖片問(wèn)為什么這很可笑?GPT-4 回答:VGA 線充 iPhone。
GPT-4回答數(shù)學(xué)問(wèn)題
總的來(lái)說(shuō),GPT-4 相對(duì)于以前的模型(經(jīng)過(guò)多次迭代和改進(jìn))已經(jīng)顯著減輕了判斷失誤問(wèn)題。在OpenAI的內(nèi)部對(duì)抗性真實(shí)性評(píng)估中,GPT-4的得分比ChatGPT使用的GPT-3.5模型能力高40%。
很顯然,雖然 GPT-4 對(duì)于許多現(xiàn)實(shí)場(chǎng)景的處理比人類差,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上已表現(xiàn)出和人類相當(dāng)?shù)乃健?/p>
不過(guò),GPT-4模型也有很多不足,有著與以前的模型類似的風(fēng)險(xiǎn),如產(chǎn)生有害的建議、錯(cuò)誤的代碼或不準(zhǔn)確的信息,以及對(duì)實(shí)時(shí)事件的不了解等。
1、該模型在其輸出中可能會(huì)有各種偏見,但OpenAI在這些方面已經(jīng)取得了進(jìn)展,目標(biāo)是使建立的人工智能系統(tǒng)具有合理的默認(rèn)行為,以反映廣泛的用戶價(jià)值觀。2、GPT-4 通常缺乏對(duì)其絕大部分?jǐn)?shù)據(jù)截止后(2021 年 9 月)發(fā)生的事件的了解,也不會(huì)從其經(jīng)驗(yàn)中學(xué)習(xí)。它有時(shí)會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤,這似乎與這么多領(lǐng)域的能力不相符,或者過(guò)于輕信用戶的明顯虛假陳述。有時(shí)它也會(huì)像人類一樣在困難的問(wèn)題上失敗,比如在它生成的代碼中引入安全漏洞。3、GPT-4 預(yù)測(cè)時(shí)也可能出錯(cuò)但很自信,意識(shí)到可能出錯(cuò)時(shí)也不會(huì)再檢查一遍(double-check)。有趣的是,基礎(chǔ)預(yù)訓(xùn)練模型經(jīng)過(guò)高度校準(zhǔn)(其對(duì)答案的預(yù)測(cè)置信度通常與正確概率相匹配)。然而,通過(guò)OpenAI目前訓(xùn)練后的過(guò)程,校準(zhǔn)減少了。
OpenAI表示,研究團(tuán)隊(duì)一直在對(duì)GPT-4進(jìn)行迭代,使其從訓(xùn)練開始就更加安全和一致,所做的努力包括預(yù)訓(xùn)練數(shù)據(jù)的選擇和過(guò)濾、評(píng)估和專家參與、模型安全改進(jìn)以及監(jiān)測(cè)和執(zhí)行。數(shù)據(jù)顯示,與GPT-3.5相比,模型對(duì)不允許內(nèi)容的請(qǐng)求的響應(yīng)傾向降低了82%,而GPT-4對(duì)敏感請(qǐng)求(如醫(yī)療建議和自我傷害)的響應(yīng)符合政策的頻率提高了29%。
另外,OpenAI團(tuán)隊(duì)還聘請(qǐng)了 50 多位來(lái)自人工智能對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)、信任和安全以及國(guó)際安全等領(lǐng)域的專家,對(duì)該模型在高風(fēng)險(xiǎn)領(lǐng)域的行為進(jìn)行對(duì)抗性測(cè)試,從而為改進(jìn)GPT模型提供了依據(jù)。
“隨著我們繼續(xù)專注于可靠的擴(kuò)展,我們的目標(biāo)是完善我們的方法,以幫助我們?cè)絹?lái)越多地提前預(yù)測(cè)和準(zhǔn)備未來(lái)的能力——我們認(rèn)為這對(duì)安全至關(guān)重要?!監(jiān)penAI 表示。
目前GPT-4版本默認(rèn)速率限制為每分鐘40k個(gè)Token和每分鐘200個(gè)請(qǐng)求,而GPT-4的上下文長(zhǎng)度為8192個(gè)Token,最多提供32768個(gè)Token上下文(約 50 頁(yè)文本)版本的有限訪問(wèn),但版本也會(huì)隨著時(shí)間自動(dòng)更新。
不過(guò),目前OpenAI公開的技術(shù)報(bào)告中,不包含任何關(guān)于模型架構(gòu)、硬件、算力等方面的更多信息,也不包括期待已久的 AI 視頻功能,也并沒有開放 GPT-4的任何核心技術(shù)論文信息。
但OpenAI正在開源其軟件框架OpenAI Evals,用于創(chuàng)建和運(yùn)行基準(zhǔn)測(cè)試以評(píng)估GPT-4等模型,同時(shí)逐個(gè)樣本地檢查它們的性能。
復(fù)旦大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師黃萱菁此前表示,OpenAI迄今為止沒有開放過(guò)它的模型,只開放過(guò)API接口,你可以調(diào)用它,但拿不到GPT-3.5內(nèi)部細(xì)節(jié),而且今年連論文都沒有,需要大家去猜測(cè)。
實(shí)際上,隨著基于GPT技術(shù)的ChatGPT風(fēng)靡全球,全球已經(jīng)進(jìn)入了 AI 大模型軍備競(jìng)賽。
首先是影響到搜索引擎巨頭地位的谷歌。手握 LaMDA、PaLM, Imagen 等 AI 技術(shù)的谷歌,不會(huì)讓微軟這么輕易就搶占了 AI 應(yīng)用的先機(jī)。
就在GPT-4發(fā)布前幾個(gè)小時(shí),谷歌為了迎戰(zhàn)微軟,宣布將一系列即將推出的生成式人工智能(AIGC)功能與模型應(yīng)用到自家產(chǎn)品中。包括Google Docs(文檔)、Gmail、Sheets(表格)和 Slides(幻燈片)等。但不同于微軟和OpenAI的“發(fā)布即可用”,谷歌只會(huì)先將Docs和Gmail中的AI工具在月底提供給一些“值得信賴的開發(fā)人員”,具體開放時(shí)間沒有公布。
更早之前,谷歌發(fā)布了ChatGPT最大競(jìng)品、基于LaMDA AI 架構(gòu)的 Bard聊天機(jī)器人,支持多角度回答問(wèn)題,以及強(qiáng)大的上下文理解能力,未來(lái) Bard 還會(huì)被集合在 Google 搜索之中,為你更快速地提供答案。不過(guò)Bard在Demo演示中頻繁“翻車”,市場(chǎng)并不看好。
3月15日凌晨,谷歌宣布開放自家的大語(yǔ)言模型 PaLM API,而且還發(fā)布了一款幫助開發(fā)者快速構(gòu)建 AI 程序的工具 MakerSuite。谷歌表示,此舉是為了幫助開發(fā)者們快速構(gòu)建生成式 AI 應(yīng)用。
相對(duì)于谷歌,微軟做好了充足的準(zhǔn)備。
今年2月,微軟宣布數(shù)十億美元投資OpenAI公司,后者估值高達(dá)290億美元,成為 AIGC 領(lǐng)域最高估值的獨(dú)角獸公司。如今,微軟已經(jīng)在旗下所有產(chǎn)品中全線整合ChatGPT,包括且不限于Bing搜索引擎、包含Word、PPT、Excel的Office全家桶、Azure云服務(wù)、Teams聊天程序等預(yù)計(jì)本周四(16日),微軟將宣布GPT-4與Azure云服務(wù)的結(jié)合。
目前在國(guó)內(nèi),百度、商湯、曠視科技等多家 AI 公司和科研機(jī)構(gòu)都在做關(guān)于大模型的技術(shù)產(chǎn)品和應(yīng)用。
就在3月14日晚,港股 AI 龍頭企業(yè)商湯科技發(fā)布了多模態(tài)通用大模型“書生 2.5”,擁有30億參數(shù),支持問(wèn)答、識(shí)圖、以文生圖等,在自動(dòng)駕駛和居家機(jī)器人等通用場(chǎng)景下,“書生 2.5”可輔助處理各種復(fù)雜任務(wù)。據(jù)悉,“書生”由商湯科技、上海人工智能實(shí)驗(yàn)室、清華大學(xué)、香港中文大學(xué)、上海交通大學(xué)于2021年11月首次共同發(fā)布,并持續(xù)聯(lián)合研發(fā)。
盡管中國(guó)在 AI 領(lǐng)域進(jìn)行了很多研究成果和布局,但目前要達(dá)到像OpenAI的效果可能還需時(shí)日。科學(xué)技術(shù)部部長(zhǎng)王志剛3月5日表示,ChatGPT證明了 AI 是大方向,而 OpenAI 在 AI 對(duì)話實(shí)時(shí)效果方面有明顯優(yōu)勢(shì)。
“比如發(fā)動(dòng)機(jī),大家都能做出發(fā)動(dòng)機(jī),但質(zhì)量是有不同的。踢足球都是盤帶、射門,但是要做到梅西那么好也不容易?!蓖踔緞偙硎?。
那么,國(guó)內(nèi) AI 技術(shù)行業(yè)如何看待中國(guó)企業(yè)做大模型的呢?
創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO李開復(fù)博士在3月14日表示,ChatGPT快速普及將進(jìn)一步引爆 AI 2.0 商業(yè)化。AI 2.0 是絕對(duì)不能錯(cuò)過(guò)的一次革命。
曠視科技聯(lián)合創(chuàng)始人、CEO印奇3月10日對(duì)鈦媒體App表示,中國(guó)攻堅(jiān) AI 大模型,要先把GPT-3.5復(fù)現(xiàn)出來(lái),但過(guò)程沒有想象的那么容易。國(guó)內(nèi)一方面要用最艱苦樸素、奮斗的狀態(tài)來(lái)攻堅(jiān)核心 AI 技術(shù),另外中國(guó) AI 公司想活得長(zhǎng),必須要把大模型商業(yè)化。“我們要有極強(qiáng)的危機(jī)感。”
瀾舟科技創(chuàng)始人兼CEO周明告訴鈦媒體App,對(duì)于國(guó)內(nèi)而言,中國(guó)做大模型還是更多的要去了解國(guó)外的發(fā)展趨勢(shì),不能固步自封,還是需要學(xué)習(xí);但同時(shí)中國(guó) AI 技術(shù)在過(guò)去20多年取得長(zhǎng)足的進(jìn)步,無(wú)論人才還是技術(shù),中國(guó)有很好的歷史性機(jī)遇,更多是樂(lè)觀,而非悲觀。
“中國(guó)在To B(企業(yè)端)落地方面應(yīng)該走在ChatGPT前面。如何把中國(guó)特色發(fā)揮到極致,是大家都要彼此思考的問(wèn)題?!敝苊鲃?chuàng)立的語(yǔ)音大模型公司瀾舟科技在3月14日宣布完成Pre-A+輪融資,并公布了該公司研發(fā)的“孟子MChat可控大模型”,此前周明在微軟工作超過(guò)20年。
就目前來(lái)看,GPT-4是OpenAI在擴(kuò)展深度學(xué)習(xí)道路上的最新里程碑。但正如OpenAI所言,前方還有很多工作要做,需要通過(guò)用戶和開發(fā)者的不斷測(cè)試,以及社區(qū)在模型之上構(gòu)建、探索和貢獻(xiàn),從而持續(xù)將模型變得越來(lái)越強(qiáng)。
無(wú)論中國(guó)公司能夠做到哪種地步,唯一確定的是,這一次,我們?nèi)祟愲x通用人工智能(AGI)更近了一步。(本文首發(fā)鈦媒體App,作者|林志佳)