摘要:針對文本生成圖像語義不一致、訓練不穩定、生成圖像單一等問題,在一種簡單有效的文本生成圖像基準模型上提出基于空間注意力及條件增強的文本生成圖像模型。為提高訓練過程的穩定性、增加生成圖像的多樣性,在原有模型基礎上增加條件增強模型;從文本分布出發擬合圖像分布,增加視覺特征的多樣性,擴大表現空間,在原有的 DF - Block 模塊中增加一層 Affine 仿射塊。在判別器中加入空間注意力模型,提高文本與合成圖像的語義一致性。試驗結果表明,在 CUB 和 Oxford - 102 數據集上,初始得分分別提高了 2.05% 和 2.63%;在 CUB 和 COCO 數據集上,特征空間距離分別降低了 20.73% 和 9.25%。本研究提出的模型生成的圖像更具多樣性且更接近真實圖像。

">

欧美一级在线毛片免费观看,国产成人精品视频一区二区不卡 ,成年人精品视频,国产精品手机视频

學術咨詢

讓期刊論文更省時、省事、省心

山東大學學報·工學版雜志投稿格式參考范文:基于空間注意力及條件增強的文本生成圖像方法

時間:

  0 引言

  近年來,生成對抗網絡(GAN)在圖像修復、圖像風格遷移、增強超分辨率和文本圖像生成等方面廣泛應用。其中,文本圖像生成是 GAN 最重要的研究領域之一,構建相關模型能為大眾提供便利。雖然文本生成圖像技術有顯著發展,但結合計算機視覺和自然語言處理兩大領域的任務仍具挑戰性,存在生成圖像真實感缺失、文本和圖像語義不一致等問題。為解決這些問題,許多學者運用不同模型結構取得突破,如經典的堆疊式模型(StackGAN、AttnGAN 等)和單階段模型(DF - GAN 等)。堆疊式模型存在生成圖像模糊、訓練困難等問題,DF - GAN 雖為單階段模型,能避免不同生成器之間的糾纏,但其訓練也存在不穩定性,且忽略了生成圖像與文本描述之間的語義一致性。針對上述問題,本文在 DF - GAN 基礎上進行改進,主要研究工作如下:

  增加條件增強模型,提高訓練穩定性,增加生成圖像多樣性。在原有的 DF - Block 模塊中增加一層 Affine 仿射塊,從文本分布出發擬合圖像分布,增加視覺特征多樣性,擴大表現空間。在判別器中加入空間注意力模型,提高文本與合成圖像之間的語義一致性。本文提出的改善模型方法在文本生成圖像的初始得分(inceptionscore,IIS)和真實樣本、生成樣本在特征空間之間的距離(Fréchrtinception distance,FFID)兩項評價指標結果中取得較大提升。

  1 相關研究

  文本生成圖像是將自然語言文本轉化為計算機可處理的表示形式,并利用圖像生成算法生成對應圖像。在深度學習技術出現之前,主要依賴傳統方法生成圖像,包括基于規則、紋理和統計的方法,這些方法各有局限性。隨著深度學習技術發展,文本生成圖像技術的實現過程分為自然語言處理和圖像生成兩個主要步驟,自然語言處理常用方法包括詞向量表示、循環神經網絡和變換器模型等,圖像生成方法包括基于卷積神經網絡生成對抗網絡、變分自編碼器等。

  文本描述生成相關圖像跨模態任務最早由文獻提出采用 GAN 方式,后續出現了多種改進模型,如 GAN - INT - CLS、StackGAN、StackGAN++、AttnGAN、ControlGAN、DM - GAN 等。但現有能夠生成高質量圖像的生成對抗網絡大多采用堆疊式結構,存在生成圖像模糊、犧牲文本對齊部分性能、跨模態注意力應用尺度受限等缺陷。DF - GAN 使用一個生成器、一個判別器和一個預訓練過的文本編碼器,存在細粒度視覺特征合成能力受限、缺乏視覺特征多樣性、訓練不穩定以及忽略語義一致性等問題。

  2 基于空間注意力及條件增強的文本生成圖像網絡模型

  針對 DF - GAN 的不足,本文以 DF - GAN 為基礎,加入空間注意力機制和條件增強網絡,改進后的模型稱為基于空間注意力及條件增強的文本生成圖像模型(ACDF - GAN)。ACDF - GAN 由文本編碼器、條件增強模塊、生成器和一個具有空間注意力的匹配感知判別器組成。文本編碼器采用預訓練好的具有雙向長短期記憶(LSTM)的編碼器,本研究使用 AttnGAN 作為預訓練模型。

  條件增強模型:堆疊式模型 StackGAN 首次應用條件增強技術,通過文本編碼器后的句子特征 s 的高斯分布得到平均協方差矩陣和對角協方差矩陣,進而得到條件向量。組合向量的方式能緩解圖像文本匹配時的數據壓力,增強對條件流形上小擾動的魯棒性。

  生成器模型:生成器由 7 個 UPBlocks 組成,DF - Block 是原有模型 DF - GAN 的深度文本圖像融合塊,疊加了多個 Affine 仿射塊和 ReLU 層。UPBlock 有兩塊 DF - Block,DF - Block 由 3 個 Affine 仿射塊、3 個 ReLu 激活層和一個卷積層構成,這種結構能使文本和圖像特征融合更充分,擴大融合模塊的表示空間。Affine 仿射塊由兩個多層感知器組成,用于對視覺特征圖進行通道方向的標度和移位運算。

  具有空間注意力的匹配感知判別器:判別器由匹配感知梯度懲罰、單向輸出和空間注意力組成。在判別器中加入空間注意力,可促進生成器生成更真實、更符合文本語義一致性的圖像。通過圖像特征和句子特征生成注意力映射,抑制無關區域的句子向量,為了穩定 GAN 訓練,計算注意力概率時使用軟閾值函數,空間注意力模型有助于判別器確定文本、圖像是否匹配。

  損失函數:判別器的訓練目標是將生成器生成的不匹配圖像作為負樣本,監督生成器生成關聯性更強的圖像,使用 hingeloss 的匹配感知梯度懲罰作為損失函數。生成器的損失函數則根據判別器的輸出進行定義。

  3 試驗結果與分析

  試驗環境及數據集:本研究采用的硬件環境包括 Intel (R) Core (M) i5 - 12400f CPU、NVIDIA GeForce RTX3090 GPU,操作系統為 64 位的 Ubuntu18.04,使用 CUDAToolkit11.3、Python 3.8 和 Pytorch1.9 深度學習框架。試驗使用的數據集為公開數據集 Caltech - UCSDBirds - 200 - 2011(CUB)、Oxford102 Flowers 以及 COCO 數據集。

  試驗設置:訓練階段網絡優化器采用 Adam,根據雙時間刻度更新規則,生成器學習率設為 0.0001,判別器學習率設為 0.0004,訓練中 BatchSize 設為 16。不同數據集的訓練輪數不同,CUB 和 Oxford102Flowers 數據集訓練輪數設為 600 輪,COCO 數據集設為 120 輪。優化器 Adam 的β1設為 0.0,β2設為 0.9。

  評價指標:選擇IIS和FFID作為 ACDF - GAN 模型性能的評價指標。IIS將清晰度和多樣性作為圖像生成效果的評價指標,IIS越大,生成圖像的效果越好,圖像越清晰,質量越高,越具多樣性。FFID根據預訓練網絡提取特征測量真實圖像分布與生成圖像分布之間的距離,FFID越小越好。

  定量與定性結果分析:在 CUB、Oxford102Flowers 以及 COCO 數據集上進行測試,隨機生成約 30000 張圖像,計算IIS和FFID并與當前主流模型比較。結果表明,與之前的 DF - GAN 相比,本研究方法在 CUB 數據集上IIS提高了 2.05%,在 Oxford 102Flowers 數據集上提高了 2.63%;在 CUB 數據集與 COCO 數據集上FFID分別降低了 20.73% 和 9.25%,

  IIS和FFID均優于目前其他主流網絡。從視覺結果角度觀察生成圖像質量,在 CUB 數據集上,本研究模型在紋理特征和細節方面表現更好,與文本描述更符合;在 COCO 數據集上,圖像具有清晰的紋理和豐富的色彩,證明本研究生成圖像在語義一致性和圖像質量方面都有極大提升。

  消融試驗:為驗證條件增強模塊與空間注意力模塊的有效性,設置 DF - GAN、DF - GAN - CA、DF - GAN - ST 和 DF - GAN - CA - ST 4 組對比試驗。結果表明,條件增強模塊與空間注意力模塊對圖像的生成結果均有正向調節作用,將兩個模塊相結合可達到最佳效果,空間注意力能識別與標題相關的區域,使判別器能在圖像與標題之間做出更好的比較。

  4 結束語

  本研究對 DF - GAN 進行改進,引入條件增強模型提高訓練穩定性和生成圖像多樣性,在 DF - Block 模塊中增加 Affine 仿射塊擴大表現空間,在判別器中加入空間注意力模型提高語義一致性。試驗結果表明本研究模型在IIS和FFID上取得較好效果。但本研究網絡模型較大,訓練時間長,部分文本類別生成的圖像存在扭曲,語義細節上有偏差,需在后續工作中繼續優化模型,完善模型結構。

馬軍;車進;賀愉婷;馬鵬森,寧夏大學電子與電氣工程學院;寧夏沙漠信息智能感知重點實驗室,202406