欧美一级在线毛片免费观看,国产成人精品视频一区二区不卡 ,成年人精品视频,国产精品手机视频

學(xué)術(shù)咨詢

讓期刊論文更省時(shí)、省事、省心

基于詞向量空間模型的機(jī)器翻譯質(zhì)量評(píng)價(jià)分析以石油術(shù)語(yǔ)有道翻譯為例

時(shí)間: 分類:科學(xué)技術(shù)論文 瀏覽次數(shù):

摘要:文章從問題意識(shí)視角出發(fā),以石油術(shù)語(yǔ)為基礎(chǔ),引入詞向量空間模型的方法展開三個(gè)相關(guān)實(shí)驗(yàn)對(duì)機(jī)器譯文和人工譯文進(jìn)行對(duì)比研究,探索機(jī)器翻譯結(jié)果在空間模型中的演繹和呈現(xiàn)。實(shí)驗(yàn)結(jié)果顯示機(jī)器翻譯對(duì)于石油術(shù)語(yǔ)的語(yǔ)言翻譯準(zhǔn)度能達(dá)到0.403。文章嘗試結(jié)合計(jì)算機(jī)技術(shù)、語(yǔ)

  摘要:文章從問題意識(shí)視角出發(fā),以石油術(shù)語(yǔ)為基礎(chǔ),引入詞向量空間模型的方法展開三個(gè)相關(guān)實(shí)驗(yàn)對(duì)機(jī)器譯文和人工譯文進(jìn)行對(duì)比研究,探索機(jī)器翻譯結(jié)果在空間模型中的演繹和呈現(xiàn)。實(shí)驗(yàn)結(jié)果顯示機(jī)器翻譯對(duì)于石油術(shù)語(yǔ)的語(yǔ)言翻譯準(zhǔn)度能達(dá)到0.403。文章嘗試結(jié)合計(jì)算機(jī)技術(shù)、語(yǔ)言學(xué)和翻譯學(xué)等不同領(lǐng)域量化論證兩種翻譯結(jié)果在語(yǔ)義層面的接近和靠攏程度,以期探索評(píng)價(jià)分析機(jī)器翻譯系統(tǒng)輸出結(jié)果質(zhì)量的新途徑。

  關(guān)鍵詞:機(jī)器翻譯;向量空間模型;石油術(shù)語(yǔ);語(yǔ)義相似度

機(jī)器翻譯

  引言

  隨著計(jì)算機(jī)科學(xué)技術(shù)、語(yǔ)言學(xué)、邏輯學(xué)和信息學(xué)等相關(guān)學(xué)科的一體化發(fā)展,機(jī)器翻譯研究無論在理論層面還是工程實(shí)踐層面都已經(jīng)積累了豐富的經(jīng)驗(yàn)[1],機(jī)器翻譯方法完成了從基于規(guī)則的翻譯方法到基于統(tǒng)計(jì)的翻譯方法再到神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯方法的轉(zhuǎn)變[2]。作為國(guó)內(nèi)較為流行的在線機(jī)器翻譯平臺(tái),有道翻譯為我們帶來極大便利。但有道翻譯作為機(jī)器翻譯的典型代表能否準(zhǔn)確完善地處理垂直學(xué)科領(lǐng)域科技語(yǔ)言翻譯任務(wù)以及機(jī)器翻譯質(zhì)量評(píng)價(jià)等問題仍值得深入研究。

  但是,已有的機(jī)器翻譯結(jié)果質(zhì)量分析大多是橫向?qū)Ρ,鮮有研究對(duì)一種機(jī)器翻譯軟件進(jìn)行縱向的深入探究分析。本文從問題意識(shí)角度出發(fā),以石油術(shù)語(yǔ)為語(yǔ)言分析基礎(chǔ),借助詞向量空間模型的方法開展術(shù)語(yǔ)語(yǔ)義范圍界定、翻譯結(jié)果空間模型追蹤和文本相似度對(duì)比實(shí)驗(yàn)與結(jié)果分析,依照從局部到整體的思路設(shè)計(jì)三個(gè)分實(shí)驗(yàn),著重關(guān)注機(jī)器翻譯系統(tǒng)對(duì)特定學(xué)科語(yǔ)言在語(yǔ)義層面的處理和翻譯能力。

  1相關(guān)研究論述

  機(jī)器翻譯是利用計(jì)算機(jī)實(shí)現(xiàn)從一種自然語(yǔ)言轉(zhuǎn)換為另一種或多種自然語(yǔ)言文本的過程[2]。它涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等多個(gè)學(xué)科,是一門交叉學(xué)科。目前對(duì)機(jī)器翻譯結(jié)果的分析研究主要涉及譯文質(zhì)量評(píng)價(jià)。譯文質(zhì)量評(píng)價(jià)的途徑有很多種,最流行的有“打分法”和“統(tǒng)計(jì)法”等方法[3],有不少學(xué)者使用類似方法對(duì)不同在線翻譯平臺(tái)譯文進(jìn)行質(zhì)量評(píng)價(jià)。其中,羅季美[4]利用統(tǒng)計(jì)分析法在汽車技術(shù)文獻(xiàn)翻譯方面對(duì)人工譯文和機(jī)器譯文進(jìn)行了細(xì)致對(duì)比,將機(jī)器譯文錯(cuò)誤細(xì)化分類。

  楊玉婉[5]以文本《潛艇水動(dòng)力學(xué)》為基礎(chǔ),利用Google和騰訊翻譯對(duì)文本進(jìn)行英漢和漢英翻譯后評(píng)價(jià)譯文質(zhì)量。蔡欣潔和文炳[6]以外宣文本漢英翻譯為例測(cè)試了四種不同的在線翻譯平臺(tái),發(fā)現(xiàn)了翻譯結(jié)果的一些共性問題,并根據(jù)譯文質(zhì)量對(duì)四種在線翻譯平臺(tái)的可接受度進(jìn)行排序。也有學(xué)者利用量化評(píng)測(cè)的方法對(duì)機(jī)器譯文進(jìn)行評(píng)測(cè)。Almahasees[7]利用BLEU自動(dòng)測(cè)評(píng)指標(biāo)對(duì)Google和Bing機(jī)器翻譯結(jié)果進(jìn)行譯文質(zhì)量評(píng)測(cè)。

  Benková等[8]結(jié)合人工測(cè)評(píng)和BLEU自動(dòng)測(cè)評(píng)等指標(biāo)對(duì)Google和EuropeanCommission’sMTtool基于兩種機(jī)器翻譯方法———統(tǒng)計(jì)機(jī)器翻譯(SMT)和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)———進(jìn)行質(zhì)量評(píng)測(cè),結(jié)果顯示在新聞文本英語(yǔ)對(duì)斯洛伐克語(yǔ)的翻譯表現(xiàn)上NMT性能較為突出。

  上述機(jī)器翻譯結(jié)果評(píng)價(jià)分析大多是不同翻譯軟件的橫向?qū)Ρ龋匆砸环N文本作為輸入得到不同版本的譯文,在不同版本譯文之間橫向?qū)Ρ日`率和錯(cuò)誤類型。這樣的研究方法雖然能快速高效地分析出不同版本譯文之間的異同,但也存在局限,如參照標(biāo)準(zhǔn)相對(duì)模糊、未能量化機(jī)器翻譯評(píng)價(jià)過程等。因此,本研究嘗試結(jié)合計(jì)算機(jī)技術(shù)、語(yǔ)言學(xué)和翻譯學(xué)為一體,提出一種新的縱向機(jī)器翻譯結(jié)果質(zhì)量評(píng)價(jià)方法,探索機(jī)器翻譯質(zhì)量評(píng)價(jià)新的途徑。

  2研究思路與方法

  2.1研究問題

  (1)有道翻譯結(jié)果語(yǔ)義層面與初始信息的接近程度。(2)石油術(shù)語(yǔ)在向量空間模型中的描繪與表示。

  2.2研究方法

  本實(shí)驗(yàn)采取定量分析和定性分析相結(jié)合的研究方法。首先選取一定數(shù)量石油術(shù)語(yǔ),以全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)公布的《科學(xué)技術(shù)名詞·工程技術(shù)卷·石油名詞》[9]中的翻譯作為標(biāo)準(zhǔn)翻譯,以有道翻譯結(jié)果作為對(duì)照翻譯。然后大量收集石油相關(guān)領(lǐng)域的語(yǔ)料,語(yǔ)料清洗后利用Word2vec進(jìn)行詞向量模型訓(xùn)練并保存。然后,將上述標(biāo)準(zhǔn)翻譯和對(duì)照翻譯分別嵌入到向量空間模型中,借助向量空間模型描繪不同單詞的意義,分別開展術(shù)語(yǔ)語(yǔ)義范圍界定、翻譯結(jié)果空間模型追蹤和文本相似度對(duì)比實(shí)驗(yàn),量化探究有道翻譯對(duì)原始信息的保留程度。

  2.3數(shù)據(jù)收集

  從《科學(xué)技術(shù)名詞·工程技術(shù)卷·石油名詞》和《石油工業(yè)概論》[10]中提取400條常見英語(yǔ)石油類術(shù)語(yǔ)分類歸納并轉(zhuǎn)換為txt格式。利用有道翻譯軟件收集對(duì)比樣本,將有道英漢翻譯結(jié)果分類歸納為txt格式,進(jìn)行數(shù)據(jù)清洗和加工。收集石油相關(guān)領(lǐng)域語(yǔ)料建模并保存,借助Python等軟件進(jìn)行數(shù)據(jù)導(dǎo)入和處理,并且進(jìn)行結(jié)果描述和分類研究。

  3模型構(gòu)建

  3.1語(yǔ)料獲取與預(yù)處理

  首先找到一些國(guó)內(nèi)石油領(lǐng)域的caj格式的論文及相關(guān)領(lǐng)域的pdf格式的書籍,批量地將caj和pdf格式語(yǔ)料轉(zhuǎn)化為txt文件,成功轉(zhuǎn)化的文件有7103個(gè),獲取字符2819107個(gè)。因?yàn)樵嘉谋臼莄aj和pdf特殊格式,在語(yǔ)料轉(zhuǎn)化過程中會(huì)有空格、標(biāo)點(diǎn)符號(hào)、斷句、連詞的問題出現(xiàn),所以刪除過濾所有的空格、標(biāo)點(diǎn)等無效字符,得到1814455個(gè)有效字符。借助Python工具包對(duì)所得中文語(yǔ)料進(jìn)行分詞和去停用處理后獲取石油領(lǐng)域840000個(gè)有效分詞,將有效分詞轉(zhuǎn)為txt文件并保存。

  3.2模型構(gòu)建及初始參數(shù)設(shè)置

  使用Word2vec對(duì)整個(gè)語(yǔ)料集進(jìn)行了預(yù)訓(xùn)練,分別訓(xùn)練了50維、100維和150維的詞向量。在三個(gè)模型的訓(xùn)練中維度size分別為50、100和150,sg等于1,窗口window選擇默認(rèn)值5,隨機(jī)采樣的配置閾值sample為1e-3,迭代次數(shù)iter為2。為了讓收集的罕見詞在最大程度上得到預(yù)訓(xùn)練,min_count設(shè)置為3。語(yǔ)料訓(xùn)練得到三個(gè)不同維度的模型,分別為word2vec_50.model、word2vec_100.model和word2vec_150.model,最終比較實(shí)驗(yàn)結(jié)果和權(quán)衡計(jì)算速度,選取了100維的向量作為全局向量空間模型的嵌入。

  4實(shí)驗(yàn)分析與結(jié)果討論

  4.1機(jī)器翻譯結(jié)果語(yǔ)義范圍界定與分析

  詞向量是用來表示詞語(yǔ)的向量,也被認(rèn)為是詞的特征向量,把詞語(yǔ)映射為實(shí)數(shù)域值的過程叫作詞嵌入。向量空間模型是一種廣泛應(yīng)用于信息檢索的模型,具有利用空間相似性來逼近語(yǔ)義相似性的優(yōu)點(diǎn)[11]。度量語(yǔ)義相似性的方法實(shí)際上被映射為向量相似性的度量[12],也就是對(duì)于需要計(jì)算語(yǔ)義相似性的兩個(gè)詞可以轉(zhuǎn)化為多維向量空間中的數(shù)值形式以便于計(jì)算和整理。

  語(yǔ)義范圍界定實(shí)驗(yàn)加載上述利用石油領(lǐng)域單語(yǔ)語(yǔ)料訓(xùn)練的向量集合word2vec_100進(jìn)行詞嵌入作為背景向量,再將有道翻譯結(jié)果和標(biāo)準(zhǔn)翻譯分別編碼轉(zhuǎn)化為輸入向量,使這些向量能較好地表達(dá)和計(jì)算不同詞之間的相似和類比關(guān)系。在實(shí)驗(yàn)預(yù)處理方面我們對(duì)文檔做一定的降維處理以提高模型準(zhǔn)確度。選取若干個(gè)常用石油術(shù)語(yǔ)的標(biāo)準(zhǔn)翻譯編碼轉(zhuǎn)換為向量數(shù)值形式輸入,按照其相似度的數(shù)值降序提取語(yǔ)義范圍內(nèi)意義最為接近的的詞語(yǔ),通過判斷提取的詞語(yǔ)是否覆蓋機(jī)器翻譯結(jié)果來測(cè)量?jī)煞N翻譯結(jié)果語(yǔ)義層面的疊加程度,界定兩種翻譯結(jié)果的語(yǔ)義范圍。

  近義詞提取對(duì)應(yīng)的距離數(shù)值在[0,1]區(qū)間內(nèi),越接近于1,代表兩個(gè)詞語(yǔ)越相近,語(yǔ)義相關(guān)性越強(qiáng);反之,代表兩個(gè)詞語(yǔ)語(yǔ)義距離越遠(yuǎn)。借助預(yù)訓(xùn)練模型word2vec_100提取部分石油術(shù)語(yǔ)的近義詞和相似度,通過樣本對(duì)比分析,發(fā)現(xiàn)部分石油術(shù)語(yǔ)的有道翻譯結(jié)果偏離甚至超出其相似度范圍,這說明了有道翻譯結(jié)果與標(biāo)準(zhǔn)翻譯的語(yǔ)義疊加范圍較小,也反映了兩者之間語(yǔ)義層面上的差異程度較大。接下來利用模型可視化工具對(duì)翻譯結(jié)果做進(jìn)一步探討。

  4.2翻譯結(jié)果在空間模型中的追蹤與對(duì)比

  利用模型可視化工具TensorFlow,把預(yù)訓(xùn)練模型word2vec_100通過主成分分析(PCA)降維方法映射到低維空間EmbeddingProjector中,選取一定數(shù)量的有道翻譯結(jié)果作為初始樣本輸入,逆向觀察以有道翻譯結(jié)果為參照的詞語(yǔ)語(yǔ)義相似范圍。我們以選取的石油術(shù)語(yǔ)carbonresidue、gasrock、fault、cementing、void等為例進(jìn)行對(duì)比分析。在石油領(lǐng)域,上述術(shù)語(yǔ)的意思分別為:殘?zhí)、蓋層、斷層、注水泥、孔隙;而有道翻譯結(jié)果為:碳渣、天然氣的巖石、缺點(diǎn)、固井、無效。實(shí)驗(yàn)思路:把void的有道翻譯結(jié)果“無效”呈現(xiàn)在三維可視化的向量空間模型中,以“無效”為中心詞,通過收縮中心詞周邊詞匯的范圍來不斷追蹤標(biāo)準(zhǔn)翻譯“孔隙”,借助周邊詞匯數(shù)值來量化有道翻譯結(jié)果和標(biāo)準(zhǔn)翻譯結(jié)果的距離差值和靠攏程度。

  實(shí)驗(yàn)操作為:首先把void有道翻譯結(jié)果呈現(xiàn)在向量空間中,把它的周邊詞匯范圍數(shù)值設(shè)置為100個(gè),結(jié)果未追蹤到目標(biāo)詞匯“孔隙”;然后把周邊詞匯范圍擴(kuò)大為150個(gè),也沒有發(fā)現(xiàn)目標(biāo)詞匯;繼續(xù)擴(kuò)大至200個(gè),最終未能找到目標(biāo)詞匯。以同樣的方法,對(duì)石油術(shù)語(yǔ)“cementing”進(jìn)行分析后發(fā)現(xiàn)把周邊詞匯范圍增加至100個(gè)以后能追蹤到標(biāo)準(zhǔn)翻譯結(jié)果。模型內(nèi)追蹤對(duì)比實(shí)驗(yàn)結(jié)果說明,在語(yǔ)義范圍上,石油術(shù)語(yǔ)“void”有道翻譯和標(biāo)準(zhǔn)翻譯的詞匯距離至少為200個(gè),語(yǔ)義相差較大;術(shù)語(yǔ)“cementing”的有道翻譯結(jié)果在空間模型上與標(biāo)準(zhǔn)翻譯結(jié)果的交匯點(diǎn)至少出現(xiàn)在100個(gè)詞之后。這說明針對(duì)該術(shù)語(yǔ)的兩種翻譯結(jié)果存在較遠(yuǎn)的語(yǔ)義距離。接下來我們從文本相似度的角度繼續(xù)開展實(shí)驗(yàn)論證有道翻譯對(duì)于石油術(shù)語(yǔ)文本整體翻譯的處理能力。

  4.3有道翻譯結(jié)果與標(biāo)準(zhǔn)翻譯文本相似度分析

  文本相似度不僅體現(xiàn)在語(yǔ)言片段組合的似然性,更重要的是反映語(yǔ)言片段所體現(xiàn)的語(yǔ)義吻合度[12],“余弦值”在自然語(yǔ)言處理中被廣泛地用于計(jì)算詞向量的相似性[13]。余弦值的范圍在[0,1]之間,值越接近于1說明兩個(gè)向量的夾角越接近于零或趨于重合,也就意味著這兩個(gè)向量的相似度越高;反之,相似度越低。

  實(shí)驗(yàn)結(jié)果顯示:A1與B1的文本相似度為0.40306895,即有道翻譯與標(biāo)準(zhǔn)翻譯文本相似度為0.40306895。文本相似度作為語(yǔ)義層面的評(píng)估參數(shù),主要表現(xiàn)為從機(jī)器翻譯文本與人工翻譯文本之間的相似程度來衡量計(jì)算機(jī)對(duì)于自然語(yǔ)言理解和處理的忠實(shí)效果。由以上數(shù)據(jù)結(jié)果可以判斷有道翻譯軟件對(duì)于石油垂直學(xué)科領(lǐng)域術(shù)語(yǔ)翻譯準(zhǔn)確度并不高,該實(shí)驗(yàn)結(jié)果與直觀統(tǒng)計(jì)驗(yàn)證分析結(jié)果相吻合。

  5結(jié)語(yǔ)

  本文借助計(jì)算機(jī)技術(shù)從詞向量空間模型的方法出發(fā),分別開展了語(yǔ)義范圍界定、空間模型追蹤和文本相似度對(duì)比等具體實(shí)驗(yàn)操作對(duì)機(jī)器譯文質(zhì)量進(jìn)行量化分析,嘗試提出一種從局部到整體的機(jī)器翻譯質(zhì)量評(píng)價(jià)途徑,希望能為機(jī)器翻譯性能提升提供一定的語(yǔ)言分析基礎(chǔ),為譯后編輯人員衡量機(jī)器譯文質(zhì)量可接受程度提供參照。事實(shí)上半個(gè)世紀(jì)以來,機(jī)器翻譯無論在理論層面還是實(shí)踐層面都取得了巨大進(jìn)步,已經(jīng)實(shí)現(xiàn)從基于規(guī)則的翻譯方法到基于大規(guī)模語(yǔ)料庫(kù)翻譯方法的轉(zhuǎn)變。

  特別是近年來,隨著神經(jīng)網(wǎng)絡(luò)的興起,“深度學(xué)習(xí)機(jī)器翻譯”技術(shù)是迅速發(fā)展的另一個(gè)突破點(diǎn)。但本次實(shí)驗(yàn)結(jié)果證實(shí)了機(jī)器翻譯對(duì)于特定垂直學(xué)科領(lǐng)域語(yǔ)言翻譯效果并不理想,也說明了加強(qiáng)對(duì)機(jī)器翻譯錯(cuò)誤深層研究和分類學(xué)科語(yǔ)料庫(kù)建設(shè)的必要性。本實(shí)驗(yàn)也存在一定的局限性,比如語(yǔ)料樣本規(guī)模小、模型構(gòu)建不完善等。因此,這也是未來工作方向之一。

  參考文獻(xiàn)

  [1]李沐,劉樹杰,張東東,等.機(jī)器翻譯[M].北京:高等教育出版社,2018:51-53.

  [2]POIBEAUT.機(jī)器翻譯[M].連曉峰,譯.北京:機(jī)械工業(yè)出版社,2019:38-42.

  [3]張霄軍.翻譯質(zhì)量量化評(píng)價(jià)研究綜述[J].外語(yǔ)研究,2007(4):80-84.

  [4]羅季美.機(jī)器翻譯中的術(shù)語(yǔ)錯(cuò)譯分析[J].中國(guó)科技術(shù)語(yǔ),2013(1):41-45.

  [5]楊玉婉.神經(jīng)機(jī)器翻譯的譯后編輯:以《潛艇水動(dòng)力學(xué)》英漢互譯為例[J].中國(guó)科技翻譯,2020(4):21-23.

  [6]蔡欣潔,文炳.漢譯英機(jī)器翻譯錯(cuò)誤類型統(tǒng)計(jì)分析:以外宣文本漢譯英為例[J].浙江理工大學(xué)學(xué)報(bào),2020(44):27-34.

  [7]ALMAHASEESZM.AssessmentofGoogleandMicrosoftBinginTranslatingPoliticalTextsfromArabicintoEnglish[J].Int.J.Lang.Lit.Liguist,2017(3):1-4.

  [8]BENKOVL,MUNKOVAD,BENKOL,etal.EvaluationofEnglish-SlovakNeuralandStatisticalMachineTranslation[J].AppliedScience,2021(11):2-17.

  [9]石油名詞審定委員會(huì).石油名詞(全藏版)[M].北京:科學(xué)出版社,1995.

  作者:陳柯柴啟棟

中文核心期刊推薦

SCI核心期刊推薦