人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

Stable Diffusion團(tuán)隊(duì)放大招!新繪畫模型直出AI海報(bào),實(shí)現(xiàn)像素級圖像生成 熱聞

開源AI繪畫扛把子,Stable Diffusion背后公司StabilityAI再放大招!


(資料圖片僅供參考)

全新開源模型DeepFloyd IF,一下獲星2千+并登上GitHub熱門榜。

DeepFloyd IF不光圖像質(zhì)量是照片級的,還解決了文生圖的兩大難題:

準(zhǔn)確繪制文字。(霓虹燈招牌上寫著xxx)

以及準(zhǔn)確理解空間關(guān)系。(一只貓照鏡子看見獅子的倒影)

網(wǎng)友表示,這可是個(gè)大事,之前想讓Midjourney v5在霓虹燈招牌上寫個(gè)字AI都是瞎劃拉兩筆,對于鏡子理解的也不對。

使用DeepFloyd IF,可以把指定文字巧妙放置在畫面中任何地方。

霓虹燈招牌、街頭涂鴉、服飾、手繪插畫,文字都會(huì)以合適的字體、風(fēng)格、排版出現(xiàn)在合理的地方。

這意味著,AI直出商品渲染圖、海報(bào)等實(shí)用工作流程又打通一環(huán)。

還在視頻特效上開辟了新方向。

目前DeepFloyd IF以非商用許可開源,不過團(tuán)隊(duì)解釋這是暫時(shí)的,獲得足夠的用戶反饋后將轉(zhuǎn)向更寬松的協(xié)議。

有需求的小伙伴可以抓緊反饋起來了。

DeepFloyd IF仍然基于擴(kuò)散模型,但與之前的Stable Diffusion相比有兩大不同。

負(fù)責(zé)理解文字的部分從OpenAI的CLIP換成了谷歌T5-XXL,結(jié)合超分辨率模塊中額外的注意力層,獲得更準(zhǔn)確的文本理解。

負(fù)責(zé)生成圖像的部分從潛擴(kuò)散模型換成了像素級擴(kuò)散模型。??

也就是擴(kuò)散過程不再作用于表示圖像編碼的潛空間,而是直接作用于像素。

官方還提供了一組DeepFloyd IF與其他AI繪畫模型的直觀對比。

可以看出,使用T5做文本理解的谷歌Parti英偉達(dá)eDiff-1也都可以準(zhǔn)確繪制文字,AI不會(huì)寫字這事就是CLIP的鍋。

不過英偉達(dá)eDiff-1不開源,谷歌的幾個(gè)模型更是連個(gè)Demo都不給,DeepFloyd IF就成了更實(shí)際的選擇。

具體生成圖像上DeepFloyd IF與之前模型一致,語言模型理解文本后先生成64x64分辨率的小圖,再經(jīng)過不同層次的擴(kuò)散模型和超分辨率模型放大。

在這種架構(gòu)上,通過把指定圖像縮小回64x64再使用新的提示詞重新執(zhí)行擴(kuò)散,也實(shí)現(xiàn)以圖生圖并調(diào)整風(fēng)格、內(nèi)容和細(xì)節(jié)。

并且不需要對模型做微調(diào)就可直接實(shí)現(xiàn)。

另外,DeepFloyd IF的優(yōu)勢還在于,IF-4.3B基礎(chǔ)模型是目前擴(kuò)散模型中U-Net部分有效參數(shù)是最多的。

在實(shí)驗(yàn)中,IF-4.3B取得了最好的FID分?jǐn)?shù),并達(dá)到SOTA(FID越低代表圖像質(zhì)量越高、多樣性越好)。

誰是DeepFloyd

DeepFloyd AI Research是StabilityAI旗下的獨(dú)立研發(fā)團(tuán)隊(duì),深受搖滾樂隊(duì)平克弗洛伊德影響,自稱為一只“研發(fā)樂隊(duì)”。???????????????

主要成員只有4人,從姓氏來看均為東歐背景。

這次除了開源代碼外,團(tuán)隊(duì)在HuggingFace上還提供了DeepFloyd IF模型的在線試玩。

我們也試了試,很可惜的是目前對中文還不太支持。

原因可能是其訓(xùn)練數(shù)據(jù)集LAION-A里面中文內(nèi)容不多,不過既然開源了,相信在中文數(shù)據(jù)集上訓(xùn)練好的變體也不會(huì)太晚出現(xiàn)。

One More Thing

DeepFloyd IF并不是Stability AI昨晚在開源上的唯一動(dòng)作

語言模型方面,他們也推出了首個(gè)開源并引入RLHF技術(shù)的聊天機(jī)器人StableVicuna,基于小羊駝Vicuna-13B模型實(shí)現(xiàn)。

目前代碼和模型權(quán)重已開放下載。

完整的桌面和移動(dòng)界面也即將發(fā)布。

作者:關(guān)注前沿科技,來源:量子位,原文標(biāo)題:《Stable Diffusion團(tuán)隊(duì)放大招!新繪畫模型直出AI海報(bào),實(shí)現(xiàn)像素級圖像生成》。

風(fēng)險(xiǎn)提示及免責(zé)條款 市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

關(guān)鍵詞: