少妇伦子伦精品无吗,国产在线精品一区在线观看,精品久久久久久无码专区不卡,99久久免费国产精精品

Hero Circle Shape
Hero Moon Shape
Hero Right Shape
bitpie.com|Midjourney V6刷屏,但它最可怕的地方居然不是那些神圖? - AI新智界

bitpie.com|Midjourney V6刷屏,但它最可怕的地方居然不是那些神圖? - AI新智界

  • 作者: bitpie.com|Midjourney V6刷屏,但它最可怕的地方居然不是那些神圖? - AI新智界
  • 2024-04-09 14:01:06

作者:苗正 王兆洋

來源:硅星人

通向多模態(tài)的另一條路。

Midjourney在沉寂九個月后推出了Midjourney V6,這個文生圖產(chǎn)品體現(xiàn)出的更細膩的細節(jié)處理,更強大的語言理解能力和更加“不像AI”的圖片效果在過去幾天引發(fā)一片驚呼。

作為一個閉源的模型產(chǎn)品,Midjourney的魔法配方并不為人所知,但就像OpenAI和Google一樣它會在產(chǎn)品更新時發(fā)布官方技術(shù)公告,有心人還是可以從中一窺模型能力提升的技術(shù)原理。

而我們?nèi)グ橇税撬嘎兜男畔⒑?,發(fā)現(xiàn)這次更新的意義遠不止于大家曬的那一張張精美的圖片上…….

Midjourney v6生成,電影月光光心慌慌的假劇照,圖片源自reddit

圖片模型的突破,卻靠的是語言模型能力?

“Midjourney v6作為一個“文生圖”模型,此次改進的核心能力卻來自其自然語言處理能力的提升。

這首先是對提示詞理解的’跟隨能力’的提升。在其官方文檔中,這被稱為“prompt following”。簡單來說,這就是指系統(tǒng)對用戶輸入的提示詞的理解和響應能力。通過增強這一能力,Midjourney現(xiàn)在能夠更好地解析復雜的提示,無論是關(guān)鍵詞、命令還是問題,都能夠準確把握。

Midjourney v6生成,電影疤面煞星的假劇照,圖片源自reddit

第二個顯著的更新是提示詞的長度。用戶現(xiàn)在可以輸入更長的提示詞。這一方面得益于上面提到的模型跟蹤能力的增強,另外則依靠模型連貫性的提升。

所謂連貫性,用一個經(jīng)典的故事就能解釋。A問B:“下午大掃除,你來嗎?”B說:“我去!我不去!”那么B的意思毫無疑問是不去,因為上文中的大掃除非常累,而B說的“我去!”在這里則表示驚訝,能夠準確理解這個對話,就叫連貫性。它確保了模型在處理用戶哪怕很復雜的指令輸入時,也能夠邏輯一致地響應。

Midjourney v6生成,李奧納多在網(wǎng)飛出演電視劇的海報,圖片源自reddit

這兩個自然語言能力上的改進,Midjourney具體是如何做的?

在跟隨能力方面的改進,主要基于三個方面:

上下文管理,它通過分析上下文關(guān)系來更準確地理解用戶意圖;序列建模,利用循環(huán)神經(jīng)網(wǎng)絡(RNN)和長短時記憶網(wǎng)絡(LSTM)來捕捉對話中的長期依賴;以及交互狀態(tài)跟蹤,它持續(xù)追蹤用戶的目標、意圖和對話狀態(tài),以確保系統(tǒng)響應的連貫性。

這些改進看起來就像是一個大語言模型的進化中在做的事情。

Midjourney v6生成,圣誕夜驚魂版的小丑和哈莉奎茵,圖片源自reddit

但它畢竟是個文生圖模型,也就是語言能力和圖片能力結(jié)合的模型,這其實也給它在提升能力時帶來了優(yōu)勢——與語言模型的對話產(chǎn)品形態(tài)總是涉及隱私與所屬的問題不同,Midjourney v6生成的圖片目前來看,全部是公共資源。

也就是說你花錢買了服務以后,圖片是公共的,模型會生成兩份,你拿一份,V6的服務器(也就是V6 discoard)也拿一份。那么Midjouney可以拿這些“實戰(zhàn)”反過來加入到自己的預訓練大模型中,繼續(xù)訓練模型以提高性能。

Midjourney v6生成,一只貓拿著手槍,圖片源自reddit

所以這還引出一個有意思的話題,如果文生圖因此而能夠源源不斷擁有更高質(zhì)量的數(shù)據(jù)來反哺到預訓練階段,而數(shù)據(jù)真的成為模型訓練的決定性因素后,是不是文生圖模型有可能訓練出比大語言模型更強的語言能力?

在連貫性提升上其實就已經(jīng)有一點這個味道。對于大語言模型來說,想要提高連貫性并不簡單,涉及了多方面的因素。但是作為一個使用自然語言來生成圖片的模型,事實上簡化了過程,由于它不涉及與用戶進行持續(xù)對話,因此無需應用束搜索等啟發(fā)式算法,也無需處理自然語言生成中的后處理問題,如語法校正和風格調(diào)整。這種簡化使得Midjourney在提高連貫性方面只需專注于核心任務,從而顯著提升了其在理解和響應用戶輸入時的邏輯一致性。

Midjourney v6生成,獵魔人杰洛特與超人的結(jié)合,二者皆有同一演員亨利·卡維爾飾演,圖片源自reddit

懂視覺的模型能有更好的文字能力?

圖像模型卻靠語言能力突破,這其實已經(jīng)不是第一次。此前同樣引發(fā)一陣騷動的Dalle3,也是如此。作為OpenAI的模型,背靠ChatGPT,語言能力自然更強。

在對比了兩者后我發(fā)現(xiàn)V6在語言理解上其實還是較DALL·E有一定差距。最明顯的地方就在于適應性上。適應性代表系統(tǒng)在能適應不同用戶的語言風格和表達方式,以及在面對新的或未見過的情況時保持響應連貫性的能力??赡苁荄ALL·E背靠ChatGPT,所以在對自然語言各方面的性能上會更優(yōu)異一些。

但Midjourney似乎也在瞄著ChatGPT為代表的語言模型的能力來進化。在此次的更新中,V6增加的另一個非常重要的能力,也與語言有關(guān)。Midjourney稱,其現(xiàn)在擁有了文本繪制能力,雖然依然較弱。

對于人工智能繪圖來說,能繪制文本無疑是一項重大進步。

文字不再是亂碼。圖源:X.com

這個能力并非像看起來那樣,直接來自模型里大語言模型的模塊。在官方更新里,文本繪制能力后緊隨的是圖像放大功能的更新。它們原理比較復雜,但本質(zhì)其實是同一個問題。

圖像生成模型在訓練的時候所用的數(shù)據(jù),是一些通過泛化和模糊處理的圖像內(nèi)容。我們都知道,分辨率越高的圖片數(shù)據(jù)量越大,反之,越模糊越泛化的圖片它的數(shù)據(jù)量就越小。人工智能理解圖片的方式和人類完全不一樣,他們是按照統(tǒng)計學的一個概念叫做“模式識別”,通過圖片中的特征來理解。使用泛化和模糊的圖片好處在于,小數(shù)據(jù)量的圖片讀取速度快,訓練時間就短。但想要用這種訓練方式來理解文字是非常難的,因為文字是一種符號,這種泛化處理對于圖像中的文字尤其不利,即使是微小的變形或模糊都可能導致文字難以辨認。同時,訓練所使用的圖像分辨率很低,那么生成圖片時,分辨率也不會高到哪里去。

圖片上的文字與圖像整體風格融合。圖片來源:X.com

而Midjourney的訓練方法,其實就是在訓練它的圖像“放大”能力。它所使用的模型叫做去噪擴散概率模型(denoising diffusion probabilistic models),這種模型通過模擬從噪聲中提取信息的過程來生成清晰的圖像。想象一下,就像我們用軟件修復模糊的老照片,Midjourney的模型也能夠從模糊的圖像中“學習”到清晰的細節(jié)。

圖片來源:X.com

也就是說,這是像Midjourney這樣的圖像模型一直在做的事情,訓練越久優(yōu)化越久它的圖像“放大”能力就越強,也就會逐漸產(chǎn)生關(guān)于文字的生成能力。

在直覺上,這種能力肯定不如“純粹”的語言模型的語言能力,但一些研究已經(jīng)在給出不同的指向,在多模態(tài)領域很重要的模型VLMO的論文里就曾提到一個有意思的結(jié)論,當你完全拿一個在視覺數(shù)據(jù)上訓練好的模型,可以直接對文本數(shù)據(jù)建模,甚至不需要微調(diào)就可以有很強的文本生成能力。但反過來用語言訓練在視覺上生成,則差很多。

這也許就是視覺想對文字說的話。圖源:X.com

這是一種很奇怪也很有意思的現(xiàn)象,這一次V6似乎把它再一次輕微的展示出來了。而更重要的是在今天多模態(tài)大模型已經(jīng)成為未來最重要的趨勢時,一個圖像能力為主的模型產(chǎn)生文字能力給了走向多模態(tài)一個新的思路。

世界更精彩了。

404 Not Found


nginx/1.25.2
免费不卡在线观看av| 亚洲日韩国产成网在线观看| 熟妇人妻av无码一区二区三区| 粗长挺进新婚人妻小怡| 99精产国品一二三产区区| 特黄aaaaaaaaa毛片免费视频| 国产AV夜夜欢一区二区三区| 精品国内在视频线2019| 在线看片免费人成视频久网下载| 少妇高潮喷潮久久久影院| 亚洲国产AV无码精品无广告| 国产亚洲人成网站在线观看| 成人精品一区二区三区中文字幕| 四虎亚洲国产成人久久精品| 啦啦啦免费高清在线观看WWW| 亚洲第一综合天堂另类专| 天天做日日做天天添天天欢公交车| 国产成人精品日本亚洲| 午夜射精日本三级| 人妻厨房出轨上司HD院线| 成全电影大全免费观看在线播放视频| 在线播放国产不卡免费视频| 成人一区二区免费视频| 亚洲精品日韩中文字幕久久久| 国产精品国产自线拍免费软件| 亚洲免费福利在线视频| 无码一区二区三区免费视频| 无码午夜人妻一区二区三区不卡视频| 人妻少妇精品久久| 国内老熟妇乱子伦视频| 亚洲av永久无码精品放毛片| 国精品午夜福利视频| 永久免费无码网站在线观看| 一本大道在线一本久道| 日韩亚洲AV人人夜夜澡人人爽| 精品熟女少妇AV免费久久| 久久久噜噜噜久久熟女aa片| 伊人久久久精品区aaa片| 少妇人妻偷人精品无码视频| 国产成人精品日本亚洲直播| 国产1卡二卡3卡四卡乱码视频|