作者:苗正 王兆洋
來源:硅星人
通向多模態(tài)的另一條路。Midjourney在沉寂九個月后推出了Midjourney V6,這個文生圖產(chǎn)品體現(xiàn)出的更細膩的細節(jié)處理,更強大的語言理解能力和更加“不像AI”的圖片效果在過去幾天引發(fā)一片驚呼。
作為一個閉源的模型產(chǎn)品,Midjourney的魔法配方并不為人所知,但就像OpenAI和Google一樣它會在產(chǎn)品更新時發(fā)布官方技術(shù)公告,有心人還是可以從中一窺模型能力提升的技術(shù)原理。
而我們?nèi)グ橇税撬嘎兜男畔⒑?,發(fā)現(xiàn)這次更新的意義遠不止于大家曬的那一張張精美的圖片上…….
Midjourney v6生成,電影月光光心慌慌的假劇照,圖片源自reddit
“Midjourney v6作為一個“文生圖”模型,此次改進的核心能力卻來自其自然語言處理能力的提升。
這首先是對提示詞理解的’跟隨能力’的提升。在其官方文檔中,這被稱為“prompt following”。簡單來說,這就是指系統(tǒng)對用戶輸入的提示詞的理解和響應能力。通過增強這一能力,Midjourney現(xiàn)在能夠更好地解析復雜的提示,無論是關(guān)鍵詞、命令還是問題,都能夠準確把握。
Midjourney v6生成,電影疤面煞星的假劇照,圖片源自reddit
第二個顯著的更新是提示詞的長度。用戶現(xiàn)在可以輸入更長的提示詞。這一方面得益于上面提到的模型跟蹤能力的增強,另外則依靠模型連貫性的提升。
所謂連貫性,用一個經(jīng)典的故事就能解釋。A問B:“下午大掃除,你來嗎?”B說:“我去!我不去!”那么B的意思毫無疑問是不去,因為上文中的大掃除非常累,而B說的“我去!”在這里則表示驚訝,能夠準確理解這個對話,就叫連貫性。它確保了模型在處理用戶哪怕很復雜的指令輸入時,也能夠邏輯一致地響應。
Midjourney v6生成,李奧納多在網(wǎng)飛出演電視劇的海報,圖片源自reddit
這兩個自然語言能力上的改進,Midjourney具體是如何做的?
在跟隨能力方面的改進,主要基于三個方面:
上下文管理,它通過分析上下文關(guān)系來更準確地理解用戶意圖;序列建模,利用循環(huán)神經(jīng)網(wǎng)絡(RNN)和長短時記憶網(wǎng)絡(LSTM)來捕捉對話中的長期依賴;以及交互狀態(tài)跟蹤,它持續(xù)追蹤用戶的目標、意圖和對話狀態(tài),以確保系統(tǒng)響應的連貫性。
這些改進看起來就像是一個大語言模型的進化中在做的事情。
Midjourney v6生成,圣誕夜驚魂版的小丑和哈莉奎茵,圖片源自reddit
但它畢竟是個文生圖模型,也就是語言能力和圖片能力結(jié)合的模型,這其實也給它在提升能力時帶來了優(yōu)勢——與語言模型的對話產(chǎn)品形態(tài)總是涉及隱私與所屬的問題不同,Midjourney v6生成的圖片目前來看,全部是公共資源。
也就是說你花錢買了服務以后,圖片是公共的,模型會生成兩份,你拿一份,V6的服務器(也就是V6 discoard)也拿一份。那么Midjouney可以拿這些“實戰(zhàn)”反過來加入到自己的預訓練大模型中,繼續(xù)訓練模型以提高性能。
Midjourney v6生成,一只貓拿著手槍,圖片源自reddit
所以這還引出一個有意思的話題,如果文生圖因此而能夠源源不斷擁有更高質(zhì)量的數(shù)據(jù)來反哺到預訓練階段,而數(shù)據(jù)真的成為模型訓練的決定性因素后,是不是文生圖模型有可能訓練出比大語言模型更強的語言能力?
在連貫性提升上其實就已經(jīng)有一點這個味道。對于大語言模型來說,想要提高連貫性并不簡單,涉及了多方面的因素。但是作為一個使用自然語言來生成圖片的模型,事實上簡化了過程,由于它不涉及與用戶進行持續(xù)對話,因此無需應用束搜索等啟發(fā)式算法,也無需處理自然語言生成中的后處理問題,如語法校正和風格調(diào)整。這種簡化使得Midjourney在提高連貫性方面只需專注于核心任務,從而顯著提升了其在理解和響應用戶輸入時的邏輯一致性。
Midjourney v6生成,獵魔人杰洛特與超人的結(jié)合,二者皆有同一演員亨利·卡維爾飾演,圖片源自reddit
圖像模型卻靠語言能力突破,這其實已經(jīng)不是第一次。此前同樣引發(fā)一陣騷動的Dalle3,也是如此。作為OpenAI的模型,背靠ChatGPT,語言能力自然更強。
在對比了兩者后我發(fā)現(xiàn)V6在語言理解上其實還是較DALL·E有一定差距。最明顯的地方就在于適應性上。適應性代表系統(tǒng)在能適應不同用戶的語言風格和表達方式,以及在面對新的或未見過的情況時保持響應連貫性的能力??赡苁荄ALL·E背靠ChatGPT,所以在對自然語言各方面的性能上會更優(yōu)異一些。
但Midjourney似乎也在瞄著ChatGPT為代表的語言模型的能力來進化。在此次的更新中,V6增加的另一個非常重要的能力,也與語言有關(guān)。Midjourney稱,其現(xiàn)在擁有了文本繪制能力,雖然依然較弱。
對于人工智能繪圖來說,能繪制文本無疑是一項重大進步。
文字不再是亂碼。圖源:X.com
這個能力并非像看起來那樣,直接來自模型里大語言模型的模塊。在官方更新里,文本繪制能力后緊隨的是圖像放大功能的更新。它們原理比較復雜,但本質(zhì)其實是同一個問題。
圖像生成模型在訓練的時候所用的數(shù)據(jù),是一些通過泛化和模糊處理的圖像內(nèi)容。我們都知道,分辨率越高的圖片數(shù)據(jù)量越大,反之,越模糊越泛化的圖片它的數(shù)據(jù)量就越小。人工智能理解圖片的方式和人類完全不一樣,他們是按照統(tǒng)計學的一個概念叫做“模式識別”,通過圖片中的特征來理解。使用泛化和模糊的圖片好處在于,小數(shù)據(jù)量的圖片讀取速度快,訓練時間就短。但想要用這種訓練方式來理解文字是非常難的,因為文字是一種符號,這種泛化處理對于圖像中的文字尤其不利,即使是微小的變形或模糊都可能導致文字難以辨認。同時,訓練所使用的圖像分辨率很低,那么生成圖片時,分辨率也不會高到哪里去。
圖片上的文字與圖像整體風格融合。圖片來源:X.com
而Midjourney的訓練方法,其實就是在訓練它的圖像“放大”能力。它所使用的模型叫做去噪擴散概率模型(denoising diffusion probabilistic models),這種模型通過模擬從噪聲中提取信息的過程來生成清晰的圖像。想象一下,就像我們用軟件修復模糊的老照片,Midjourney的模型也能夠從模糊的圖像中“學習”到清晰的細節(jié)。
圖片來源:X.com
也就是說,這是像Midjourney這樣的圖像模型一直在做的事情,訓練越久優(yōu)化越久它的圖像“放大”能力就越強,也就會逐漸產(chǎn)生關(guān)于文字的生成能力。
在直覺上,這種能力肯定不如“純粹”的語言模型的語言能力,但一些研究已經(jīng)在給出不同的指向,在多模態(tài)領域很重要的模型VLMO的論文里就曾提到一個有意思的結(jié)論,當你完全拿一個在視覺數(shù)據(jù)上訓練好的模型,可以直接對文本數(shù)據(jù)建模,甚至不需要微調(diào)就可以有很強的文本生成能力。但反過來用語言訓練在視覺上生成,則差很多。
這也許就是視覺想對文字說的話。圖源:X.com
這是一種很奇怪也很有意思的現(xiàn)象,這一次V6似乎把它再一次輕微的展示出來了。而更重要的是在今天多模態(tài)大模型已經(jīng)成為未來最重要的趨勢時,一個圖像能力為主的模型產(chǎn)生文字能力給了走向多模態(tài)一個新的思路。
世界更精彩了。