摘要:為適應(yīng)開放場景下說話人識別短時語音的應(yīng)用需要,本文對說話人識別模型進(jìn)行優(yōu)化,提升了模型的準(zhǔn)確率和魯棒性。為了實(shí)現(xiàn)對重要頻率特征的篩選,提出基于重加權(quán)的特征增強(qiáng)層及網(wǎng)絡(luò),起到增強(qiáng)特征表達(dá)的作用。將人臉識別領(lǐng)域的誤分類樣本損失函數(shù)首次引入到說話人識別領(lǐng)域,提高對困難樣本的挖掘能力。提出基于誤分類樣本挖掘的分類損失與基于小樣本學(xué)習(xí)框架的余弦角度原型損失的組合損失函數(shù),解決了分類損失函數(shù)與說話人識別實(shí)際評測需求不匹配和度量函數(shù)對采樣策略依賴性強(qiáng)的問題。實(shí)驗(yàn)結(jié)果顯示,與基準(zhǔn)模型相比,性能指標(biāo)等誤率(EER)降低 12.45%,最小檢測代價函數(shù)(minDCF)降低 14.09%,取得現(xiàn)有說話人識別領(lǐng)域的優(yōu)異效果。

">

欧美一级在线毛片免费观看,国产成人精品视频一区二区不卡 ,成年人精品视频,国产精品手机视频

學(xué)術(shù)咨詢

讓期刊論文更省時、省事、省心

南京信息工程大學(xué)學(xué)報·自然科學(xué)版雜志投稿格式參考范文:開放場景下短時語音說話人識別系統(tǒng)的優(yōu)化設(shè)計(jì)

時間:

  0 引言

  說話人識別通過分析語音中的聲紋特征來確認(rèn)說話人身份,實(shí)現(xiàn)這一任務(wù)的關(guān)鍵在于如何從語譜圖中提取具有足夠區(qū)分性的說話人特征。說話人識別具有廣泛的應(yīng)用場景,如智能家居喚醒、用戶賬號登錄和電話詐騙破案等。隨著電子設(shè)備性能的提升,基于深度學(xué)習(xí)的說話人識別系統(tǒng)性能取得顯著進(jìn)步,但是在開放場景下短時輸入語音的識別性能還有待提高,其核心在于如何改進(jìn)幀級特征提取網(wǎng)絡(luò)、特征聚合層和損失函數(shù) 3 個關(guān)鍵技術(shù)。

  幀級特征提取網(wǎng)絡(luò)方面,主流的網(wǎng)絡(luò)有 TDNN 及其變體和 ResNet 結(jié)構(gòu)。TDNN 系列網(wǎng)絡(luò)能夠提取時序依賴性強(qiáng)的特征,ResNet 結(jié)構(gòu)則利用二維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,且一般特征提取網(wǎng)絡(luò)對輸入語譜的不同頻率沒有區(qū)別對待,但并非每個頻率范圍的特征信息對說話人識別系統(tǒng)模型的確立同等重要,實(shí)際上低頻率聲紋特征具有更高的貢獻(xiàn)度。Zhou 等在原始 ResNet 結(jié)構(gòu)中加入 SE(Squeeze-and-Excitation)模塊,有效地增強(qiáng)了特征通道維度上的信息交互;Yadav 等則是利用基于卷積的頻域和時域注意力機(jī)制來進(jìn)一步增強(qiáng)中間特征頻域和時域的信息交互性。受此啟發(fā),本文提出一種基于重加權(quán)的特征增強(qiáng)層及網(wǎng)絡(luò)。

  特征聚合層方面,如基于注意力機(jī)制的特征聚合層 Self-Attentive Pooling(SAP)和 Attentive Statistics Pooling(ASP)。而 Luo 等則將視頻理解任務(wù)中提出的 NeXtVLAD 應(yīng)用到說話人識別中,顯著提高了模型的特征聚合效果。

  損失函數(shù)設(shè)計(jì)方面,現(xiàn)階段主要使用基于分類的損失函數(shù),如 AMSoftmax 和 AAMSoftmax,通過在余弦角度約束的分類邊界上加入間隔(margin)裕度來約束同類別特征的角度變換范圍,從而提高類內(nèi)特征的緊湊性,但是它們都忽視了困難樣本信息對于辨別性特征學(xué)習(xí)的重要性,且本質(zhì)上是根據(jù)分類任務(wù)設(shè)計(jì)的損失函數(shù),訓(xùn)練時目標(biāo)函數(shù)與說話人識別任務(wù)本質(zhì)需求存在一定的不匹配性。

  本文改進(jìn)說話人識別中的兩大關(guān)鍵技術(shù),設(shè)計(jì)出更有效的幀級特征提取網(wǎng)絡(luò)和使得模型訓(xùn)練更充分的損失函數(shù),進(jìn)一步提升基于深度學(xué)習(xí)的說話人識別模型在開放場景下短時語音的識別性能。

  1 說話人識別模型基本框架

  目前主流的說話人識別算法是在基于 embedding 向量的深度學(xué)習(xí)框架下進(jìn)行訓(xùn)練和測試的,整體框架如下:訓(xùn)練階段,原始語音信號經(jīng)過聲學(xué)特征提取模塊得到聲學(xué)特征。首先,將提取的聲學(xué)特征輸入到幀級特征提取網(wǎng)絡(luò)中提取幀級特征序列;然后,利用特征聚合層從幀級特征序列中提取說話人的 embedding 向量形成語句級特征向量;最后,利用說話人標(biāo)簽計(jì)算損失函數(shù)來優(yōu)化說話人 embedding 向量,使得類內(nèi)距離盡可能小,類間距離盡可能大。測試階段,將訓(xùn)練好模型輸出的說話人 embedding 向量輸入到后端打分模型,與注冊數(shù)據(jù)庫中的特征向量進(jìn)行相似度打分,根據(jù)得分來判斷兩段語音是否屬于同一個說話人。

  2 基于重加權(quán)的特征增強(qiáng)層的幀級特征提取網(wǎng)絡(luò)

  2.1 基于重加權(quán)的特征增強(qiáng)層

  從近幾年國際大型公開的說話人識別挑戰(zhàn)賽中可以看到,基于梅爾頻譜分析的特征如 Fbank,仍然是最熱門和最有競爭力的輸入聲學(xué)特征。在大多數(shù)的工作中,F(xiàn)bank 頻域維度特征通常會被當(dāng)成一個整體同等對待而沒有考慮不同頻率范圍特征信息的重要性。然而,不同頻率范圍的特征信息對于說話人識別模型的性能影響是不同的。

  基于此,本文提出基于重加權(quán)的特征增強(qiáng)層(Reweighted-based Feature Enhancement Layer,RFEL),對輸入聲學(xué)特征中不同頻率特征賦予不同的重要性權(quán)重。RFEL 結(jié)構(gòu)是對輸入特征的重要頻率進(jìn)行增強(qiáng),它為輸入特征頻域維度上的每一維頻率特征計(jì)算一個權(quán)重參數(shù),并利用該權(quán)重參數(shù)與輸入特征對應(yīng)頻率上的值相乘,得到頻率重加權(quán)后的增強(qiáng)特征。

  RFEL 設(shè)計(jì)目的是為了增強(qiáng)輸入頻譜特征的重要頻域維度信息,讓模型能夠?qū)W會分析不同頻率范圍內(nèi)特征的重要性。基于此,本文還將 RFEL 用到網(wǎng)絡(luò)中進(jìn)行網(wǎng)絡(luò)中間頻域特征增強(qiáng)。

  2.2 基于重加權(quán)的特征增強(qiáng)網(wǎng)絡(luò)

  本文使用的是 Fast ResNet-34 模型結(jié)構(gòu)。為了提高輕量化模型的特征提取能力,在 Fast ResNet-34 框架中加入 SE 模塊,構(gòu)成 Fast-SE-ResNet-34 框架,可以通過注意力機(jī)制對網(wǎng)絡(luò)中間輸出特征的通道維度進(jìn)行增強(qiáng)。

  本文提出的基于重加權(quán)的特征增強(qiáng)網(wǎng)絡(luò)(Reweighted-based Feature Enhancement Network,RFEN)結(jié)構(gòu)如下:輸入的頻譜特征首先經(jīng)過 RFEL 進(jìn)行頻域維度特征增強(qiáng),隨后經(jīng)過第一層卷積神經(jīng)網(wǎng)絡(luò)降采樣為原來大小的一半,再輸入到 Fast-SE-ResNet-34 框架下的 4 個特征提取階段(stage)中。從結(jié)構(gòu)中可以看到,RFEL 可以放在每個 stage 中最后一個殘差模塊的輸出之后,用來增強(qiáng)每個 stage 輸出的中間特征,將最后一個 stage 輸出的特征輸入到特征聚合層中,則可提取到區(qū)分性強(qiáng)的說話人特征向量(embedding)。

  隨著網(wǎng)絡(luò)加深,輸出每個點(diǎn)的特征都與周圍點(diǎn)特征存在大量信息交互,致使頻率特征高度相關(guān),并且部分頻率特征在降采樣過程中被轉(zhuǎn)換到通道維度,此時再使用 RFEL 對頻率特征進(jìn)行細(xì)粒度分析會比較困難。因此,在設(shè)計(jì)基于多層 RFEL 的幀級特征提取網(wǎng)絡(luò)時考慮每個 stage 后 RFEL 是可選的,本文在實(shí)驗(yàn)部分驗(yàn)證了模型在不同 stage 后加入 RFEL 后的效果,從而找到最優(yōu)的網(wǎng)絡(luò)模型結(jié)構(gòu)。

  3 組合損失函數(shù)

  損失函數(shù)是為了訓(xùn)練能夠讓模型提取出區(qū)分性強(qiáng)的說話人特征的一組參數(shù)。文獻(xiàn)提出先用 Softmax 損失函數(shù)預(yù)訓(xùn)練再使用度量學(xué)習(xí)損失函數(shù)微調(diào)模型的策略;文獻(xiàn)提出基于 Triplet loss 的困難樣本對挖掘策略;文獻(xiàn)將基于小樣本學(xué)習(xí)的原型網(wǎng)絡(luò)損失引入說話人識別任務(wù)中;文獻(xiàn)使用查詢集與類中心之間的距離度量計(jì)算方式,將原始的歐氏距離替換成基于余弦相似度的距離度量,取得了優(yōu)異的效果。

  3.1 基于誤分類樣本挖掘的分類損失函數(shù)

  誤分類樣本就是原本屬于類 A 的樣本,被誤分類到類 B 中。誤分類樣本大多是難樣本,是比較考驗(yàn)?zāi)P妥R別能力的樣本。誤分類樣本對于提高模型特征區(qū)分能力有著至關(guān)重要的作用。

  3.2 基于原型損失的度量損失函數(shù)

  在小樣本學(xué)習(xí)框架下,訓(xùn)練集和測試集都會被分為兩個不重合的子集,即支持集和查詢集,用x∗和xq分別表示經(jīng)過特征提取后的支持集和查詢集樣本中的說話人特征向量,原型損失函數(shù)便是小樣本學(xué)習(xí)框架下的損失函數(shù)。

  3.3 組合損失函數(shù)

  分類損失函數(shù)能夠優(yōu)化的是樣本與分類層參數(shù)向量之間的關(guān)系,屬于實(shí)例 — 代理之間的關(guān)系,能夠在訓(xùn)練階段為模型提供較穩(wěn)定的收斂曲線,而度量損失函數(shù)優(yōu)化的是樣本與支持集中真實(shí)樣本的類中心向量之間的度量關(guān)系,屬于實(shí)例 — 實(shí)例之間的關(guān)系。而說話人識別模型實(shí)質(zhì)就是實(shí)例 — 實(shí)例之間的關(guān)系,度量函數(shù)更加符合說話人識別任務(wù)的實(shí)際應(yīng)用場景。

  4 實(shí)驗(yàn)結(jié)果及分析

  4.1 實(shí)驗(yàn)設(shè)置

  本文實(shí)驗(yàn)均在 Ubuntu18.04.3 LTS、64 位系統(tǒng)下進(jìn)行,所采用的深度學(xué)習(xí)框架是 PyTorch,輸入聲學(xué)模型為 80 維的 Fbank,實(shí)驗(yàn)中所有模型均使用 Adam 優(yōu)化器進(jìn)行訓(xùn)練,權(quán)重衰減率設(shè)置為 5e-5,初始學(xué)習(xí)率為 0.005,batch size 大小設(shè)為 256。數(shù)據(jù)集為 VoxCeleb1,共包含 1251 個說話人的 153516 條音頻,語音時長總計(jì) 352h,其中訓(xùn)練集包含 1211 個說話人,測試集包含 40 個說話人。基準(zhǔn)模型為基于 FastSE-ResNet34、NeXtVLAD 特征聚合層和 AMSoftmax loss+Augular Prototypical loss 組合損失函數(shù)的模型。

  4.2 評價指標(biāo)

  說話人識別任務(wù)中最常用的性能評估指標(biāo)為等誤率(Equal Error Rate,EER)和最小檢測代價函數(shù)(Minimum Detection Cost Function,minDCF)。

  等誤率 EER 定義為錯誤拒絕率 FRR 與錯誤接受率 FAR 相等時的錯誤率,EER 越小說明系統(tǒng)的性能越好。

  4.3 組合損失函數(shù)有效性實(shí)驗(yàn)

  為驗(yàn)證組合損失函數(shù)的有效性,組合函數(shù)參數(shù) α 與基準(zhǔn)模型中的參數(shù)一致,均設(shè)定為 1。使用 MVSoftmax 和 AP 組合損失函數(shù)后模型的 EER 比基準(zhǔn)模型平均降低了 12.45%,minDCF 平均降低了 14.09%。實(shí)驗(yàn)結(jié)果表明,使用基于誤分類樣本分類損失和小樣本學(xué)習(xí)框架損失的組合損失函數(shù)訓(xùn)練的模型性能最好。

  5 結(jié)束語

  本文針對開放場景下短時語音的說話人識別系統(tǒng)進(jìn)行優(yōu)化,對說話人識別架構(gòu)中的特征提取網(wǎng)絡(luò)和損失函數(shù)進(jìn)行優(yōu)化改進(jìn)。通過一種基于重加權(quán)的特征增強(qiáng)層來增強(qiáng)特征表達(dá),并將其嵌入到網(wǎng)絡(luò)中來改善說話人特征提取網(wǎng)絡(luò)中間特征的區(qū)分性表示。此外,還將人臉識別中的基于誤分類樣本損失函數(shù)首次引入到說話人識別領(lǐng)域,和原型度量損失函數(shù)融合進(jìn)行模型的訓(xùn)練,解決了分類損失函數(shù)與說話人識別本質(zhì)需求不匹配和度量函數(shù)對采樣策略依賴性強(qiáng)的問題,大大提升模型的識別精度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的說話人識別模型性能更加優(yōu)異。

郭新;鄧愛文;羅程方;鄧飛其,廣東交通職業(yè)技術(shù)學(xué)院;華南理工大學(xué),202305