摘要:圖像生成任務是計算機視覺中的一個重要研究領域,基于深度學習的相關工作日益增多。擴散模型作為深度學習中的一類新興的生成模型,發展迅速,大大促進了圖像生成算法的發展,因此對基于擴散模型的圖像生成方法系統地開展文獻綜述非常有必要。從加速采樣、可控性和圖像編輯 3 個方面對基于擴散模型的圖像生成方法進行大量分析和研究。首先,對比分析了基于概率和基于分數匹配的圖像生成算法的局限性,并介紹了對應加速采樣算法的發展;隨后,通過對基于擴散模型的圖像生成方法中可控性方面的研究進行綜述,對比指出相關方法的優勢和應用場景;此外,討論了不同的圖像編輯方法,分析比較了每種模型的優點及不足;最后,指出了基于擴散模型的圖像生成方法值得進一步研究的問題和發展方向。

">

欧美一级在线毛片免费观看,国产成人精品视频一区二区不卡 ,成年人精品视频,国产精品手机视频

學術咨詢

讓期刊論文更省時、省事、省心

武漢大學學報·工學版雜志投稿格式參考范文:基于擴散模型的圖像生成方法研究綜述

時間:

  近年來,隨著人工智能(artificial intelligence,AI)技術的快速發展,人工智能生成內容(artificial intelligence generated content,AIGC)在各行各業掀起了一股熱潮,其本質是通過 AI 技術來生產內容,包括文本、圖像、音頻等。其中最廣為人知的一個應用是 OpenAI 的 CHATGPT(chat generative pretrained transformer),其使用海量數據訓練具有數千億參數的大語言模型,實現了文本生成,還能根據上下文進行互動,如同聊天交流,甚至可以完成撰寫論文、文案創作、翻譯等任務。

  在計算機視覺領域,AIGC 也有眾多進展。根據用戶輸入的文本提示,來自 OpenAI 的 DALL-E2 和 GLIDE(guided language to image diffusion for generation and editing)可以自動生成符合文本描述的圖像;谷歌的 Imagen 也可以根據不同的文本提示進行藝術創作;特別的,根據文本、語義分割圖等多模態信息,Stability AI 推出的 Stable Diffusion 通過在維度更低的潛在空間融合不同模態的條件信息,實現了更為準確和真實的圖像生成。與此同時,國內也有眾多研究機構進行了相關研究。清華大學和阿里巴巴使用基于自注意力機制的深度學習模型架構 Transformer 推出了文本圖像生成模型 Cogview;百度和浙江大學分別基于擴散模型對風格增強和風格遷移的圖像生成相關工作進行了研究;北京大學和微軟亞洲研究院聯合推出了真實場景的圖像生成模型 DiVAE(variational autoencoder architecture model with a diffusion decoder)。人工智能在圖像生成領域的諸多應用也促進了各行各業的發展與變革,如藝術創作、動漫設計、圖像編輯等。

  目前使用 AI 技術的圖像生成工作大多都基于擴散模型,利用擴散模型的多樣性可以生成豐富多樣的高清圖像,但鮮有學者對基于擴散模型的圖像生成方法的研究現狀進行系統地梳理和總結。文獻 [13] 雖然對擴散模型進行了較為全面的綜述,但主要是對擴散模型在所有領域而非圖像生成領域的相關工作進行探討;文獻 [14] 則從訓練和采樣 2 個方面對生成擴散模型進行綜述研究。為了更好地探索圖像生成算法的未來發展趨勢,提高后續研究工作的有效性,發掘更有潛力的研究方向,本文對近年來基于擴散模型的圖像生成方法的最新工作進行了綜述。目前使用擴散模型的圖像生成方法根據輸入條件和應用場景的不同,研究側重點也各不相同,故本文將從加速采樣、可控性和圖像編輯 3 個方面開展綜述分析。研究成果將豐富擴散模型和圖像生成的相關知識體系,闡明其發展趨勢和后續有價值的研究方向。

  生成模型是一類深度學習模型,通過對原始數據分布進行建模學習,然后從學習到的數據分布中進行采樣,以生成與原數據集數據分布一致的新樣本。常用的生成模型有生成對抗網絡(generative adversarial nets,GAN)和變分自編碼器(variational auto-encoders,VAE)等,其在圖像生成領域有諸多應用。與 GAN 和 VAE 的一次性生成不同,擴散模型作為近年來新興的一類生成模型,在逐步加噪和降噪的過程中訓練深度學習模型學習數據分布。根據加噪和采樣過程的不同,擴散模型主要分為基于概率和基于分數的擴散模型。

  去噪擴散概率模型(denoising diffusion probabilistic models,DDPM)在 2020 年被提出后,便引起了研究人員的廣泛關注。給定訓練數據,訓練深度學習模型在正向和逆向擴散過程中學習原始數據的數據分布,從而生成符合原始數據分布的新樣本。在正向過程中,擴散模型逐步往圖像中添加噪聲,直至其變為各向同性的高斯噪聲;而逆向過程從隨機噪聲開始,訓練一個模型逐步從高斯噪聲中移除在正向過程中添加的噪聲,直至生成符合原始數據分布的新樣本,其訓練目標是優化重新加權的變分下界。

  在基于概率的擴散模型中,降噪過程可以看作沿著分數(梯度)的方向前進。與 DDPM 的馬爾科夫鏈式結構不同,文獻 [18] 直接從分數匹配算法推導,通過建模近似估計原始數據

  pdata(x)的分數(即基于數據樣本的一階偏導∇xlogpdin(x)),再通過基于分數的采樣方法(如朗之萬動力學)即可生成新樣本。之后,在文獻 [19] 中,通過緩慢注入噪聲將復雜的數據分布平滑地轉換為已知的先驗分布以及相應的逆時間的隨機微分方程(stochastic differential equation,SDE),緩慢去除噪聲,將先驗分布轉換回原數據分布,進行精確的似然計算,并提高采樣效率。

  基于概率和基于分數的擴散生成模型一經提出,相關的研究工作層出不窮。最初的工作大多集中在像素空間的無條件圖像生成,且由于擴散模型較長的采樣過程,部分工作關注于加速采樣。隨著文獻 [21] 提出分類器引導的條件采樣過程,基于概率的擴散模型的采樣質量顯著提高,越來越多的研究人員投入到基于擴散模型的條件圖像生成工作中,通過級聯擴散模型、結合 CLIP(contrastive language-image pretraining)的隱空間等方法,實現了高清分辨率(1024×1024)的圖像生成。

  由于在像素空間擴散需要大量的內存空間和計算資源,文獻 [7] 提出了基于隱空間擴散的條件擴散生成模型,不僅可以在計算資源有限的情況下進行擴散生成,還可以通過條件控制開關實現較為準確的條件圖像生成。隨后,出現了大量基于隱空間的文本圖像生成工作。除了條件圖像生成,部分研究人員基于擴散模型實現了諸如圖像修復和風格遷移等計算機視覺任務,極大地豐富了擴散模型在圖像生成領域的應用。除了加速采樣和可控性,圖像編輯是近年來備受關注的一個領域。本文將從這 3 個方面介紹分析基于擴散模型的圖像生成研究現狀,并指出值得進一步研究的問題和發展方向。

  在擴散生成模型中,無論是基于概率還是基于分數的擴散模型都需要較長的時間步,逐步迭代以生成服從原始數據分布的新樣本。為了解決擴散模型采樣時間較長的問題,最典型的兩類方法分別是以隱式擴散模型(denoising diffusion implicit models,DDIM)為代表的非馬爾科夫采樣過程和一致性模型。

  DDPM 在沒有對抗訓練的情況下實現了高質量的圖像生成,但其采樣過程依賴馬爾科夫假設,需要較長的時間步才能得到較好的生成結果。在 DDIM 中,提出了一個非馬爾科夫鏈的采樣過程p(xx−1∣xx,x0),同時滿足 DDPM 正向過程的數據分布,從而可以直接使用 DDPM 訓練好的模型在不顯著降低采樣質量的情況下加速采樣。基于 DDIM 的推理分布,選擇不同的σi值,即對應不同的采樣過程。由于不依賴馬爾科夫鏈的特性,可以從原始 DDPM 的 T 步采樣過程中篩選一個長度為 S 的子集進行擴散采樣,即可在不顯著降低圖像質量的情況下加速采樣。利用確定性的擴散模型,有許多相關的擴展工作,如 SinSR(single-step super-resolution)通過減少可接受的推導步驟來實現輸入噪聲圖像和生成結果的映射,僅需一個推理步驟即可實現超分辨率任務;GDDIM(generalized denoising diffusion implicit models)從數值角度研究了 DDIM,并將其擴展到了通用的擴散模型以加速采樣等。

  在基于分數的擴散模型中,用 SDE 擴散存在一個常微分方程,使用降噪分數匹配可以訓練深度學習模型預測得分函數,但需要較長的步驟生成新樣本。在一致性模型中,通過定義一致性函數可以解決這個問題。一致性模型假設存在一個一致性函數 f,對于采樣過程中的每個先驗分布(xi,t),函數 f 都能輸出一個相同的值,并且在軌跡的起點t=ε,有f(xε,ε)=xε,那么在軌跡中的任意一點代入先驗分布即可得到f(xT,T)=x0,從而完成一步采樣,加速采樣過程。

  此外,DeepCache 通過緩存深度學習網絡中的高級特征來減少每步采樣的計算量,從而達到加速采樣的效果;Resfusion 逐步生成分割掩碼或任何類型的目標圖像,通過在擴散過程中重新加噪的平滑等價變換確定最佳加速步驟,將端到端模型與 DDPM 結合,進一步提高性能。這些相關研究都為擴散模型的加速采樣提供了新的選擇。

  在最初的基于概率的擴散模型和基于分數的擴散模型中,可以采樣得到符合原始數據分布的新樣本,但由于其隨機性,無法對生成結果做更準確的控制,如生成特定類別的圖像等。由此出現了許多關于擴散模型可控性方面的研究,如分類器引導和無分類器引導的擴散過程,通過 2 種不同的范式在擴散過程中引入條件信息,更準確地控制生成結果。此外,Stable Diffusion 通過交叉注意力機制,將條件信息融合到深度學習模型中,用于噪聲的預測,實現條件圖像生成,并啟發了許多后續工作。

  2021 年,OpenAI 提出分類器引導的擴散采樣,使得擴散模型能夠按照類別生成。此后有眾多相關研究工作,如文獻 [58] 將分類器引導擴展到語義擴散,通過梯度引導使得擴散模型可以按照圖像、文本和多模態條件生成圖像。這類方法只作用于采樣過程。基于分類器引導的擴散采樣可以很好地權衡生成質量和可控性,甚至當預訓練擴散模型本身帶有條件信息時,加入分類器引導仍然能提高生成圖像和輸入條件的匹配度。在 OpenAI 提出分類器引導的擴散采樣后,出現了許多基于分類器引導的相關工作,如 FedCADO(classifier-assisted diffusion for one-shot federated learning method)有條件地編輯隨機采樣的初始噪聲,并利用分類器的統計數據在生成過程中提供詳細指導,從而將擴散模型與單次聯邦學習結合以準確生成樣本;Guided-TTS(guided text to speec)通過在大規模語音識別數據集上訓練的音素分類器,并基于分類器引導的擴散采樣范式,根據文本進行語音合成等。

  分類器引導的條件生成雖然可以根據特定條件生成與之匹配的樣本,但存在一些問題,如額外的分類器的質量會影響生成效果,且梯度更新會導致對抗攻擊效應,生成圖像可能會通過人眼不可察覺的細節欺騙分類器,進而影響條件控制的準確度。2022 年,谷歌提出了無分類器引導的擴散模型來規避上述問題,并通過改變引導權重控制生成圖像真實性和多樣性的平衡。此后,有許多研究工作基于此范式實現條件圖像生成。無分類器引導的核心是通過一個隱式分類器來替代顯式分類器,而無需直接計算顯式分類器及其梯度。根據貝葉斯公式和相關公式,分類器的梯度可以用條件生成概率和無條件生成概率表示,并將其轉換為噪聲預測網絡的形式。擴散采樣的每一步中的噪聲可由帶條件的噪聲預測模型和無條件的噪聲預測模型表示,而不依賴額外的分類器模型。因此,無分類器引導的擴散需要訓練 2 個模型:一個無條件生成模型和一個條件生成模型。在實現中,這 2 個模型可以用同一個模型表示,只需在訓練時以一定概率將條件置空即可。采樣時,最終生成結果可以由條件生成和無條件生成的線性組合獲得,通過權重因子調節生成效果,控制生成樣本的真實性和多樣性的平衡。

  分類器引導和無分類器引導的擴散模型屬于 2 種不同的范式,將條件信息融合進深度學習網絡一般通過注意力機制實現。注意力機制允許模型動態權衡輸入中不同部分的重要性,并賦予不同的權值。根據查詢向量 Q 和鍵向量 K 的點積作為它們的相似度度量,并使用 Softmax 函數進行歸一化得到權重矩陣,將權重矩陣與值向量 V 相乘得到加權后的輸出結果。Transformer 中對權重矩陣按照 K 的維度進行縮放,得到注意力機制 Attention。根據 Q、K、V 的不同,注意力機制有不同的變體,如自注意力機制和交叉注意力機制。根據不同的任務和條件的特性,在深度學習模型中使用不同的注意力機制變體,使得模型可以更好地關注到條件信息,從而更好地控制生成結果。

  隨著擴散模型在圖像生成任務上的優秀表現,許多研究人員也將擴散模型應用于圖像編輯工作。圖像編輯可以看做以輸入圖像為條件的圖像生成。由于擴散模型固有的隨機性,圖像的高級語義難以保持。在 DDIM 中,在給定初始噪聲的情況下,最終采樣結果是確定的,但這也限制了圖像編輯的操作空間。因此,目前有 3 類相關研究工作。

  第 1 類方法借助于掩碼(mask),包括用戶輸入的顯式掩碼和模型生成的隱式掩碼,在掩碼區域融合原始圖像信息來保持非目標區域的不變性。利用 CLIP、BlendDiffusion 在每個去噪步驟中融入輸入圖像背景部分噪聲來改善不連貫性,從而引導 DDPM 進行圖像融合;DIFFEDIT 通過對比修改前后文本的差異生成目標主體的掩碼,借助該掩碼和 DDIM 的確定性降噪過程來修改圖像中的主體而保持背景不變;MAG-Edit(mask-based attention-adjusted guidance for localized image editing in complex scenarios)基于掩碼實現了復雜場景的圖像局部編輯。

  第 2 類方法借助于確定的采樣過程,其采樣結果在給定初始噪聲后是確定的。基于反演(inversion)的編輯方法屬于這一類,其將原始圖像的噪聲版本作為輸入,通過額外條件信息或限制對噪聲圖像進行降噪,以得到編輯后的結果。TIC 利用從注意力層中獲取的反演特征來增強采樣過程,實現準確的重建和內容一致性編輯,并提出基于掩碼引導的注意力連接策略,擴展了該方法在通用編輯場景中的適用性;FPI(fixed-point inversion)提出了一種基于固定迭代點的圖像反演方法,能夠有效地將圖像轉換為潛在向量并從中重建圖像;CycleDiffusion 將圖像映射到確定性擴散過程的隱空間。這些方法都利用確定性擴散模型實現了圖像的局部編輯。

  第 3 類方法的采樣過程起源于隨機噪聲,通過在采樣過程中添加額外條件或約束來保持編輯前后非目標組件的高級語義的一致性,也被稱為無反演(inversion-free)的方法。文獻 [49] 通過配準 StyleGAN 的隱空間和 Stable Diffusion 來完成基于文本的圖像編輯;DDCM(denoising diffusion consistent model)使用 source 和 target 雙支結構,在編輯過程中融合源圖像信息來不斷優化目標輸出,實現了圖像局部編輯。

  上述 3 類方法大大促進了擴散模型在圖像編輯領域的發展,并且逐漸成為近年來的一個研究熱點。除了自然圖像和藝術創作的生成和編輯,擴散模型在其他計算機視覺的諸多領域都有相關應用,如 Texture 可以根據給定文本進行 3D 造型的生成;利用擴散模型,相關工作可將給定人臉和文本轉換成其他風格的畫像,如卡通人物、素描等;也有部分學者將擴散模型應用到手寫漢字生成任務中,借助擴散模型的多樣性生成多種不同字跡的手寫漢字圖像;在貼近人們日常生活方面,PIDM(physics-informed diffusion model)利用擴散模型實現了人物虛擬姿勢轉換。擴散模型的應用不斷豐富著人們的日常娛樂生活。

  本文全面闡述了基于擴散模型的圖像生成方法的研究現狀和最新研究成果,對比分析了基于概率和基于分數的擴散模型,并從加速采樣、可控性和圖像編輯 3 個方面分析總結了不同模型的研究進展。本文介紹了加速采樣的相關研究工作,通過不同的非馬爾科夫鏈的采樣過程減少采樣步驟,從而加速采樣。此外,為提高生成圖像的可控性,研究者使用分類器引導或無分類器引導的范式,并在深度學習模型內部結合注意力機制,將條件信息融入擴散過程,以準確控制采樣結果。最后,對圖像編輯相關工作做了分類總結和介紹。

  本文對基于擴散模型的圖像生成方法未來發展方向進行以下展望:

  通過分類器和無分類器引導,擴散模型可以對生成結果進行控制,但目前為止大多數相關工作只進行實體級別的控制,如生成特定類別的圖像,鮮有工作能進行屬性級別的控制,因此對擴散模型進行更細粒度的控制逐漸成為今后的發展趨勢之一。

  隨機擴散模型由于其隨機性,在圖像編輯任務中難以保持輸入圖像的高級語義一致性;確定性擴散模型雖然可以保持編輯前后圖像的語義一致,但限制了圖像編輯的操作空間。如何在保持輸入圖像高級語義一致性和圖像編輯操作空間之間找到平衡值得未來深入研究。

龔帥;鄧勇;向金海,農業農村部智慧養殖技術重點實驗室;農業智能技術教育部工程研究中心;華中農業大學信息學院;中國船舶集團有限公司第七二二研究所,202501