摘要:神經機器翻譯模型在通用領域進展顯著,但在專業領域,尤其是低資源條件下仍面臨諸多挑戰,其中專業術語信息的有效利用問題尤為突出。針對低資源下電氣工程領域英漢翻譯模型對術語信息利用不充分的情況,本研究將術語詞匯作為先驗知識,借助 Transformer 模型的原始結構提取術語信息,并通過復制卷積和倍化方法,將這些信息融入到編碼器的頂層輸出中。該方法在幾乎不增加可學習參數的前提下,提升了 Transformer 模型的翻譯性能。實驗結果顯示,改進后的模型雙語評估研究(BLEU)值提高了 1.11%,訓練用時僅增加 6.86%,實現了翻譯質量與計算成本的平衡,為低資源環境下充分利用術語信息提供了新的思路。
">時間:
0 引言
機器翻譯是借助計算機將源語言轉化為目標語言的技術,相較于人工翻譯,它不受時空限制且成本低廉。2013 年以來,隨著深度學習技術的發展,基于深度學習的神經機器翻譯在翻譯質量和效率上超越了傳統機器翻譯方法,Transformer 成為神經機器翻譯領域的主流模型。然而,Transformer 大多針對通用領域進行改進和訓練,在電氣工程等專業領域存在低資源語料和術語信息利用不充分的問題,翻譯質量有待提高。
電氣工程應用廣泛,其領域內的機器翻譯發展能夠降低交流門檻,加強全球電氣行業的技術交流。專業領域的機器翻譯需要結合領域知識,才能滿足專業人士閱讀文獻、查看設備說明書等需求。
本文使用電氣工程學科的專業語料訓練模型,針對 Transformer 對術語信息利用不足的問題,提出基于復制卷積和倍化的強化方法,并對模型結構進行改進,以提升模型的譯文質量,同時控制訓練時間成本,實現 Transformer 性能的綜合提升。具體工作如下:
利用 Transformer 自帶的編碼器提取術語信息,控制模型參數量,基本不增加訓練時間。
采用復制卷積和倍化方法將術語信息融入 Transformer 模型,提高譯文質量。
僅對編碼器進行結構改進,避免引入額外復雜性,降低低資源下的過擬合風險。
1 研究背景
Transformer 由 Google 團隊于 2017 年提出,它不依賴循環神經網絡或卷積神經網絡,僅依靠注意力機制和前饋神經網絡的堆疊,這種結構使得模型的改進和擴展更為容易。在 Transformer 模型中,源語言和目標語言經嵌入層處理后,分別進入編碼器和解碼器。編碼器子層中,多頭自注意力模塊至關重要;解碼器中除了多頭自注意力模塊,還有用于整合源語言和目標語言信息的上下文注意力模塊,二者結構相似,但查詢、鍵、值的來源不同。
術語詞匯屬于先驗知識,在模型訓練中具有指導作用。應用先驗知識通常包括獲取和融入兩個步驟。獲取先驗知識的方式多樣,如構建相似詞匯詞典、利用預訓練模型獲取特征表示、使用專門工具包等;融入先驗知識的方法有術語對翻譯、利用門控機制融合、借助注意力機制計算注意力分數等。
電氣工程領域的機器翻譯還面臨低資源難題,常見解決思路是添加額外約束條件或縮減模型參數量,例如引入 “注意力連接”、提出新的詞嵌入方式、利用預訓練模型分割參數、用卷積替換線性映射等。目前,神經機器翻譯領域在術語信息等先驗知識的提取與利用上,大多需要增加大量可學習參數,而低資源語料訓練時又需削減參數以規避過擬合風險,如何平衡這一矛盾亟待解決。本文提出基于復制卷積和倍化的優化方法,僅引入一個 12 通道的 1×1 卷積層,實現術語信息的提取和融入,在基本不增加訓練時間的情況下提高了譯文質量。
2 術語信息強化的神經機器翻譯模型
本文模型通過詞典刪減模塊和編碼器子層提取術語信息,在復制卷積模塊進行信息整合,最后由倍化模塊將信息融入編碼器頂層的原始輸出矩陣,從而強化模型性能。
2.1 詞典刪減模塊
利用雙向長短期記憶網絡加條件隨機場(BILSTM - CRF)從訓練集中篩選術語詞匯,并匯總成術語詞典。在訓練集不變的情況下,只需篩選一次,即可反復使用這些術語詞匯,BILSTM - CRF 實際上不會占用額外訓練時間。
每批次的嵌入源語言會依據詞典檢索句子中的術語詞并定位,術語詞位置的數據保留,非術語詞位置的數據置 0,這一處理方式記為 DICT。處理后的語料設為 x0。在訓練過程中,源語言 X 先送入編碼器提取特征,頂層輸出的隱藏狀態矩陣記為 HENG;然后將 xD 送入編碼器的各個子層,得到不同特征的術語隱藏矩陣 HD,HD 再被送入復制卷積模塊。
2.2 復制卷積模塊
由于 HD 包含不同子層輸出的特征信息,本文將 HD 中的 6 個矩陣兩兩分組為 3 組,分別進行復制,第 1 組不復制,第 2 組復制為兩份,第 3 組復制為 3 份,最終將 HD 從 6 個矩陣擴展為 12 個矩陣。之后,通過 12 通道的 1×1 卷積將復制后的 HD 整合為術語信息矩陣 TD。該模塊僅引入一個簡單的卷積層進行術語信息的整合與學習,與傳統的全連接層和注意力方法相比,引入的可學習參數大幅減少。實驗證明,該模塊訓練速度更快、效果更好,且矩陣復制方法可靈活調整不同子層特征的數據量占比,使模型更關注有價值的特征層次。
2.3 倍化模塊
為將 TD 中的術語信息融入編碼器的頂層輸出 HENC,本文提出倍化模塊。該模塊僅包含簡單運算和閾值篩選,不依賴任何可學習參數,處理速度快,不會增加額外的梯度計算負擔,非常適合低資源語料的模型訓練。
具體操作如下:首先,對 TD 的特征維度應用歸一化指數函數,得到貢獻率矩陣 TP,并將 TP 中所有非術語詞位置的數據置 0;其次,指定一個超參數 θ 作為貢獻率的閾值,當 TP 中的元素大于 θ 時,認為該位置的元素與術語信息相關;最后,記錄 TP 中大于 θ 的元素位置,并將該位置下 HENC 的元素翻倍,從而得到術語信息強化的隱藏狀態矩陣 HENCT。HENCT 會代替原本的 HENC 矩陣,作為整個編碼器的輸出送入解碼器。
3 實驗
本文所有實驗均基于哈弗大學開源神經機器翻譯平臺(Open - NMT)下的 Transformer 模型,采用統一的電氣工程領域語料進行訓練,通過設計多組實驗驗證所提方法的有效性。
3.1 實驗數據
中英平行語料來源于電氣工程方面的專業著作、近 20 年的電氣領域相關文獻和專利文本、電氣設備說明書等。實際使用的訓練集約有 160000 條平行句子對,驗證集和測試集各有 2000 條平行句子對,實驗所用術語詞典包含 7520 條英文術語詞匯,這些術語詞匯均取自訓練集。
3.2 實驗設置
使用單張英偉達顯卡(NVIDIARTX3090)進行訓練。訓練集、驗證集、測試集中句子的長度限制在 100 以內,英文詞表大小為 44000,中文詞表大小為 43768,中英文未登錄詞用表示,英文采用自然語言工具包(NLTK)分詞,中文采用結巴(jieba)分詞。詞向量嵌入特征維度為 512,批次大小設為 64,多頭注意力頭數設為 8,編碼器和解碼器層數設為 6,采用適應性矩估計(ADAM)優化算法,隨機丟棄概率設為 0.1,超參數 θ 設為 0.0019。所有實驗均訓練 25000 步,每 1000 步進行一次驗證,翻譯過程采用束搜索方法,束尺寸設為 5,長度懲罰采用內置的覆蓋率重新排名得分,其余參數均采用 Open - NMT 默認參數。
3.3 評估指標
實驗結果采用 BLEU 對譯文質量進行評估。BLEU 是目前神經機器翻譯常用的評測指標,它通過檢查實際譯文與參考譯文中多元詞組的相似性來判斷翻譯效果。此外,本文還統計了模型間的 BLEU 差值、模型在多次實驗中的平均訓練用時、模型訓練用時的漲幅。
3.4 組合實驗
本文提出矩陣復制、卷積整合、按詞典刪減、貢獻率篩選等方法來提升 Transformer 模型在電氣工程領域的譯文質量。設置了多種模型進行實驗,如基線模型 BaseLine(Open - NMT 系統提供的純凈 Transformer 模型)、取消矩陣復制功能的 Conv6、將卷積整合退化為求和整合的 Sum、退化為平均整合的 Mean、退化為線性整合的 Linear、取消利用詞典刪減功能的 Non - DICT、取消復制卷積模塊的 Iteration 以及包含完整復制卷積模塊和倍化模塊的 Conv12 等。
實驗結果表明,本文所提改進方法在退化或缺失條件下均可提高譯文的 BLEU 值。得分靠前的方法均采用卷積來整合各層的 HD,這表明多通道卷積在引入少量參數的情況下能獲得更好的翻譯結果。與 Linear 相比,卷積可避免在低資源條件下引入大量參數導致的過擬合問題;與 Sum 和 Mean 相比,卷積增加了模型的學習能力,能挖掘 HD 中更深層的術語信息。盡管模型改進后訓練時間均有所上漲,但漲幅較低。
將 Conv12 與 BaseLine 進一步對比發現,在 25000 步的訓練過程中,二者譯文質量的提升速率基本一致,但當折線趨于平穩后(12000 步之后),Conv12 的 BLEU 值始終優于 BaseLine,說明本文提出的優化方法對模型性能的提升是持續且穩定的。
3.5 對比實驗
為進一步驗證所提方法的有效性,在電氣工程語料上與其他模型進行對比實驗。對比模型包括將事實關系信息作為先驗知識引入的 Li、應用基于密文的數據增強技術的 San、將先驗翻譯按比例混入的 Chen、在 Transformer 外搭建額外結構的 Zhang、運行時注入自定義術語的 Dinu、模型更寬的 Transformer - Big、改變基本架構的 Re - Transformer 等。
分析實驗結果可知,部分對比模型引入額外參數提高表達能力的同時增加了過擬合風險,且訓練用時上漲;部分模型子層間特征交互過程冗長,不利于解碼器利用低層次信息;部分模型對術語信息提取和利用不足。本文提出的 Conv12 模型在電氣工程領域的譯文質量更優,同時一些通用領域經典改進方法在電氣領域性能提升有限。
3.6 消融實驗
為驗證超參數 θ 的取值以及矩陣復制的組合方式對模型性能的影響,進行了消融實驗。超參數 θ 以 1/512≈0.002 為基準進行實驗,結果顯示 TP 中大于 θ = 0.0019 的位置對術語信息強化最有利,θ 變大或變小均會導致譯文質量下降。
矩陣復制組合方式實驗結果顯示,最佳復制策略為 (1,6) x3|(3,4) x2|(2,5) x1,數據量占比分別為 50%、33% 和 17%。
對術語詞典中的詞匯進行消融實驗,結果表明增添或刪減詞匯均會損害模型的 BLEU 值。在術語詞典中增添詞匯會使模型將許多非術語詞納入術語詞訓練范疇,不利于準確翻譯真正的術語詞匯;刪減詞匯會導致模型忽略部分術語詞的訓練,無法強化術語信息。這證明本文術語詞典中的詞匯恰當合適。
3.7 翻譯實例
選取部分測試集的參考翻譯,與 BaseLine 和 Conv12 模型的翻譯結果進行對比。結果顯示,相比于基線模型,本文的改進模型譯出了基線譯文中的未登錄詞,如實翻譯了漏譯詞,分詞也更加合理,在一定程度上改善了譯文質量。
4 結束語
本文為 Transformer 引入術語詞匯作為先驗知識,利用模型的原始結構提取術語信息,通過復制卷積和倍化模塊強化術語的位置信息,篩選更有價值的術語詞匯的特征維度。實驗結果顯示,改進后的模型與基線模型相比,BLEU 最高提升了 1.11,用時漲幅僅為 6.86%。與其它翻譯模型相比,本文的改進模型兼顧了譯文質量和訓練時間,實現了低資源條件下,電氣工程領域翻譯模型性能的綜合提升,為平衡術語信息強化和低資源語料訓練之間的矛盾提供了一種新的解決思路。未來的研究重點將是在控制訓練時間的同時,進一步提升模型的譯文質量。
張聚偉;劉愷文;陳 媛,河南科技大學;信息工程學院;外國語學院;河南省新能源電力電子與電力傳動工程研究中心;鄭州航空工業管理學院電子信息學院,202406