人妻夜夜爽天天爽三区麻豆AV网站,亚洲AV成人一区二区三区天堂,欧美人与动牲交欧美精品,亚洲AV无码一区东京热久久

<samp id="g2i0o"><tbody id="g2i0o"></tbody></samp>

<strike id="g2i0o"><nav id="g2i0o"></nav></strike>

<samp id="g2i0o"><tfoot id="g2i0o"></tfoot></samp>

您的位置：首頁 > 產(chǎn)經(jīng) >

一秒把大象P轉(zhuǎn)身！清華校友論文引爆AI繪圖圈，Diffusion黯然失色

來源：華爾街見聞 ? 2023-05-20 15:53:26

5月18日，一顆炸彈在AI繪圖圈炸響。

從此，AI可以精準修圖了，哪里不準修哪里，AIGC，已然到達了全新的里程碑！

這篇引爆繪圖圈的核彈級論文，名為「Drag Your GAN」，由MPII、MIT、賓大、谷歌等機構(gòu)的學(xué)者聯(lián)合發(fā)布。目前已被SIGGRAPH 2023錄用。

(資料圖)

而且因為太過火爆，這個項目一經(jīng)發(fā)布，網(wǎng)頁就經(jīng)常處于崩潰狀態(tài)。

項目地址：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

顧名思義，通過DragGAN，就可以任意拖動圖像了，無論是對象的形狀、布局、姿態(tài)、表情、位置、大小，都可以做到精準控制。

只要拖拽動作，確定生成圖像的起點和終點，再根據(jù)對象的物理結(jié)構(gòu)，用GAN生成在精細尺度上符合邏輯的圖像，一張?zhí)舨怀銎凭`的圖就生成了。

拍的照片表情不好？修！臉型不夠瘦？修！臉沖鏡頭的角度不對？修！

（簡直就是一個超強版的Photoshop）

輕輕一拖動，就能想把耷拉著的狗耳朵提起來，讓狗狗從站著變成趴下，以及讓狗狗瞬間張嘴微笑。

現(xiàn)在，甲方提出「讓大象轉(zhuǎn)個身」的要求，終于可以實現(xiàn)了。

所以，廣大修圖師的飯碗是要被端了？

從此，我們正式進入「有圖無真相」時代。

準備好，一大波演示來了

這種DragGAN可控圖像合成方法，具有廣泛的應(yīng)用場景，只有你想不到，沒有它做不到。

Midjourney、Stable Diffusion、Dalle-E等AI繪圖工具生成的圖像，都可以用DragGAN來微調(diào)細節(jié)，生成任何想要的效果。

模特的姿勢可以隨意改變，短褲可以變成九分褲，短袖可以變長袖。

湖邊的樹可以瞬間長高，湖里的倒影也跟著一起改變。

原圖中的太陽沒露臉？無所謂，DragGAN會給你造個日出。

貓貓的正臉一下子變側(cè)臉，角度精細可調(diào)。

甚至連汽車也能一鍵「敞篷」。

不得不說，AI繪圖圈，真的太卷了。上一個工具還沒完全學(xué)會呢，下一個革命性產(chǎn)品就又來了。

有了DragGAN的加持，各種AI畫圖工具的「阿喀琉斯之踵」再也不是弱點。

并且，DragGAN在單顆3090顯卡上生成圖像，僅僅需要幾秒鐘。

可以想象，繪圖、動畫、電影、電視劇等領(lǐng)域，都將迎來大地震。

DragGAN看起來像Photoshop的Warp工具，但它的功能實現(xiàn)了核彈級的增強——它讓你不只是在像素周圍簡單地移動，而是使用AI來重新生成底層對象，甚至還能像3D一樣旋轉(zhuǎn)圖像。

研究者團隊指出，這項工作真正有趣的地方不一定是圖像處理本身，而是用戶界面。

我們早就能用GAN之類的AI工具來生成逼真的圖像，但缺乏足夠的靈活性和精度，無法得到我們想要的確切姿勢。

但DragGAN提供的，絕不是簡單地涂抹和糊化現(xiàn)有像素，而是重新生成主體。

正如研究者所寫：「你的方法可以產(chǎn)生幻覺，就像獅子嘴里的牙齒一樣，并且可以隨著物體的剛性而變形，就像馬腿的彎曲一樣?！?/p>

DragGAN的橫空出世表明，GAN模型開始模型了，或許它會比Diffusion模型（DALLE.2、Stable Diffusion和Midjourney）更具影響力。

此前，Diffusion模型一直在AI繪圖領(lǐng)域大受歡迎，但生成式對抗網(wǎng)絡(luò)GAN也引起了人們廣泛的興趣，Ian Goodfellow2017年提出GAN理論后，三年后它再次復(fù)興。

DragGAN：圖像處理新時代

在這項工作中，團隊研究了一種強大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點精確「拖動」至目標點。

DragGAN主要包括以下兩個主要組成部分：

1. 基于特征的運動監(jiān)控，驅(qū)動操作點向目標位置移動

2. 一個新的點跟蹤方法，利用區(qū)分性的GAN特征持續(xù)定位操作點的位置

通過DragGAN，任何人都可以對像素進行精確的控制，進而編輯如動物、汽車、人類、風(fēng)景等多種類別的姿態(tài)、形狀、表情和布局。

由于這些操作在GAN的學(xué)習(xí)生成圖像流形上進行，因此它們傾向于生成逼真的輸出，即使在富有挑戰(zhàn)性的場景下也是如此，例如被遮擋的內(nèi)容和變形的圖像。

定性和定量的對比表明，DragGAN在圖像操作和點跟蹤任務(wù)中，都明顯優(yōu)于先前的方法。

拖拽編輯

在DragGAN的加持下，用戶只需要設(shè)置幾個操作點（紅點），目標點（藍點），以及可選的表示可移動區(qū)域的mask（亮區(qū)）。然后，模型就會自動完成后續(xù)的圖像生成，

其中，動態(tài)監(jiān)控步驟會讓操作點（紅點）向目標點（藍點）移動，點追蹤步驟則通過更新操作點來追蹤圖像中的對象。此過程會一直持續(xù)，直到操作點達到其相應(yīng)的目標點。

流程

具體來說，團隊通過在生成器的特征圖上的位移修補損失來實現(xiàn)動態(tài)監(jiān)控，并在相同的特征空間中通過最近鄰搜索進行點追蹤。

方法

值得注意的是，用戶可以通過添加mask的方式，來控制需要編輯的區(qū)域。

可以看到，當狗的頭部被mask時，在編輯后的圖像中，只有頭部發(fā)生了移動，而其他區(qū)域則并未發(fā)生變化。但如果沒有mask的話，整個狗的身體也會跟著移動。

這也顯示出，基于點的操作通常有多種可能的解決方案，而GAN會傾向于在其從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的圖像流形中找到最近的解決方案。

因此，mask功能可以幫助減少歧義并保持某些區(qū)域固定。

mask的效果

在真實圖像的編輯中，團隊應(yīng)用GAN反轉(zhuǎn)將其映射到StyleGAN的潛在空間，然后分別編輯姿勢、頭發(fā)、形狀和表情。

真實圖像的處理

到目前為止，團隊展示的都是基于「分布內(nèi)」的編輯，也就是使用訓(xùn)練數(shù)據(jù)集內(nèi)的圖像來實現(xiàn)編輯。

但DragGAN實際上具有強大的泛化能力，可以創(chuàng)建出超出訓(xùn)練圖像分布的圖像。比如，一個張得巨大的嘴，以及一個被極限放大的車輪。

在某些情況下，用戶可能希望始終保持圖像在訓(xùn)練分布中，并防止這種超出分布的情況發(fā)生。實現(xiàn)這一目標的方法可以是對潛在代碼添加額外的正則化，但這并不是本文討論的重點。

泛化能力

比較分析

首先，與UserControllableLT相比，DragGAN能夠編輯從輸入圖像中檢測到的特征點，并使其與從目標圖像中檢測到的特征點相匹配，而且誤差很小。

從下圖中可以看出，DragGAN正確地張開了照片中人物的嘴，并調(diào)整了下巴的形狀來匹配目標的臉型，而UserControllableLT未能做到這一點。

臉部特征點編輯

在DragGAN與RAFT、PIPs和無追蹤的定性比較中，可以看得，DragGAN可以比基線更準確地跟蹤操作點，進而能夠產(chǎn)生更精確的編輯。

定性比較

而在移動操作點（紅點）到目標點（藍點）的任務(wù)上，定性比較的結(jié)果顯示，DragGAN在各種數(shù)據(jù)集上都取得了比UserControllableLT更加自然和優(yōu)秀的效果。

定性比較

如表1所示，在不同的點數(shù)下，DragGAN都明顯優(yōu)于UserControllableLT。而且根據(jù)FID的得分，DragGAN還保留了更好的圖像質(zhì)量。

由于具有更強的跟蹤能力，DragGAN還實現(xiàn)了比RAFT和PIPs更精確的操縱。正如FID分數(shù)所顯示的，如果跟蹤不準確的話，很可能會造成編輯過度，從而降低圖像質(zhì)量。

雖然UserControllableLT的速度更快，但DragGAN在很大程度上提升了這項任務(wù)的上限，在保持相對較快的運行時間的同時，實現(xiàn)了更靠譜的編輯。

定量分析

結(jié)果討論

DragGAN是一種基于點的交互式圖像編輯方法，該方法利用預(yù)訓(xùn)練的GAN來合成圖像。其中，這些合成圖像不僅精確地遵循了用戶的輸入，而且還能保持在真實圖像的流形上。

此外，與之前的方法相比，團隊提出的DragGAN還是一個通用框架，并不依賴于特定領(lǐng)域的建?；蜉o助網(wǎng)絡(luò)。

這是通過兩個新穎的組件來實現(xiàn)的，它們都是利用GAN的中間特征圖的辨別質(zhì)量，來生成像素精確的圖像形變和交互性能：

1. 一個優(yōu)化潛在代碼的方法，逐步將多個操作點移向目標位置

2. 一個點追蹤程序，真實地追蹤操作點的軌跡

總結(jié)來說，全新的DragGAN在基于GAN的編輯方面要優(yōu)于現(xiàn)有的技術(shù)，并為使用生成式先驗的強大圖像編輯開辟了新的方向。

至于未來的工作，團隊計劃將基于點的編輯擴展到3D生成模型。

模型局限

盡管具有一定的泛化能力，但DragGAN的編輯質(zhì)量仍受訓(xùn)練數(shù)據(jù)多樣性的影響。

如下圖（a）所示，創(chuàng)建一個訓(xùn)練分布外的人體姿勢，可能會生成錯誤的圖像

此外，如圖（b）（c）所示，在無紋理區(qū)域的操作點在追蹤時有時會有更多的漂移。

因此，團隊建議盡量去選擇紋理豐富的操作點。

作者介紹

論文一作Xingang Pan，即將上任南洋理工大學(xué)計算機科學(xué)與工程學(xué)院MMLab@NTU的助理教授（2023年6月）。

目前，他是馬克斯·普朗克計算機科學(xué)研究所的博士后研究員，由Christian Theobalt教授指導(dǎo)。

在此之前，他于2016年在清華大學(xué)獲得學(xué)士學(xué)位，并2021年在香港中文大學(xué)多媒體實驗室獲得博士學(xué)位，導(dǎo)師是湯曉鷗教授。

Lingjie Liu

Lingjie Liu是賓夕法尼亞大學(xué)計算機和信息科學(xué)系的Aravind K. Joshi助理教授，負責賓大計算機圖形實驗室，同時也是通用機器人、自動化、傳感和感知（GRASP）實驗室的成員。

在此之前，她是馬克斯·普朗克計算機科學(xué)研究所的Lise Meitner博士后研究人員。并于2019年在香港大學(xué)獲得博士學(xué)位。

參考資料：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

作者：新智元，來源：新智元，原文標題：《GAN逆襲歸來！清華校友論文引爆AI繪圖圈，一秒把大象P轉(zhuǎn)身，Diffusion黯然失色》

風(fēng)險提示及免責條款市場有風(fēng)險，投資需謹慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點或結(jié)論是否符合其特定狀況。據(jù)此投資，責任自負。

關(guān)鍵詞：

<blockquote id="cgyac"></blockquote>