摘要:為了考察漢語表達相信 / 不信態(tài)度的語音聲學表現(xiàn),以及說話人的大五人格維度 (神經(jīng)質(zhì)、外傾性、開放性、宜人性、盡責性) 對聲學特征的影響,研究設計了情景交際語料,誘導 47 名大學生分別用相信和不信的態(tài)度說出目標句,用大五人格量表 NEO-FFI 測量被試的人格特質(zhì)?;?23 個聲學參數(shù),構(gòu)建 6 種有監(jiān)督分類器,對相信和不信語音做自動分類,獲得的最高識別率為 0.76。根據(jù)邊際貢獻值選出 8 個重要聲學特征做后續(xù)分析。冗余分析和線性混合模型的結(jié)果顯示,不信比相信的語音有較高的基頻均值、基頻標準差、基頻最小值、基頻最大值、諧噪比,以及較低的語速、諧波差 H1–H2、基頻擾動。同時,相信和不信語音的聲學特征差異受到人格維度的調(diào)節(jié):神經(jīng)質(zhì)調(diào)節(jié)基頻均值、基頻最小值、基頻標準差;外傾性調(diào)節(jié)基頻均值和諧噪比;開放性調(diào)節(jié)基頻標準差。線性混合模型樹的結(jié)果進一步顯示,大五人格整體上顯著影響了相信和不信語音在基頻均值、基頻標準差、語速上的差異。
">時間:
引言
語音除了承載語言信息外,也傳遞了豐富的副語言信息,如說話人的態(tài)度、意圖等。很多學者研究了傳遞交際態(tài)度的語音。例如,Aubergé 團隊先后定義并考察了 12 至 19 種態(tài)度,對英語、法語、日語、漢語等多種語言做了聲學分析和感知實驗。另有一些學者則采用了正反對立的方法定義態(tài)度對:Pell 團隊針對英語,系統(tǒng)考察了熱情 / 冷漠、禮貌 / 粗魯?shù)热舾蓪B(tài)度語音的聲學關(guān)聯(lián)物;Gu 等針對漢語,著重考察了友好 / 敵對、禮貌 / 粗魯、褒揚 / 貶諷等若干對態(tài)度語音的韻律特征,發(fā)現(xiàn)不同態(tài)度的語音在時長和基頻特征上有系統(tǒng)的差異,同時句重音的分布也會發(fā)生變化。
類似地,“相信”(belief) 和 “不信”(disbelief),也是言語交際中常用的相互對立的態(tài)度。Anderson 將人際互動過程中為了促使話者繼續(xù)話題而向其提供反饋或激勵的行為定義為 “反饋行為”。Gardner 指出言語反饋行為不僅反映了聽者對話者繼續(xù)話題的激勵,還反映了聽者對話者說話內(nèi)容的評價。表達相信和不信的態(tài)度是一種重要的言語反饋行為。“相信” 指個體接受某項陳述,將其視作真值;“不信” 指個體拒絕某項陳述,將其視作假值。厘清相信和不信的態(tài)度語音的聲學差異,不僅可以深入理解言語交際過程,還有助于完善人機智能語音交互系統(tǒng)。目前僅有少量的研究考察了相信 / 不信的態(tài)度語音。Manusov 和 Trees 基于主觀聽感發(fā)現(xiàn),被試傾向于用諷刺語調(diào)表達不信。Levitan 和 Hirschberg 通過分析英文語料庫中采訪者對被采訪者陳述的相信和不信回應發(fā)現(xiàn),不信比相信的語音語速更快、音強中值更高。Yu 和 Levitan 考察了西班牙語和英語,發(fā)現(xiàn)兩種語言均表現(xiàn)為,相信比不信語音有較長的時長、較低的音強中值、較小的基頻斜率。
Gander 等基于 16 個聲學特征構(gòu)建隨機森林模型,對相信和不信語音的辨識率高達 0.76。此外,Armstrong 等發(fā)現(xiàn),5 歲兒童基于句末音高升降的語音線索,判斷發(fā)音人傳達的態(tài)度是相信還是不信,識別率高達 0.80。以上研究文獻表明,相信 / 不信語音在聲學特征上存在差異。人格是影響言語交際行為的重要因素。人格指個體穩(wěn)定的行為模式,Costa 和 McCrae 在 5 個維度上定義人格特質(zhì),稱為 “大五人格”:(1) 神經(jīng)質(zhì) (Neuroticism, N):高神經(jīng)質(zhì)人群情緒波動較大,傾向于體驗消極情緒 (如憤怒、敵意、焦慮、脆弱、抑郁);(2) 外傾性 (Extraverts, E):高外傾性人群善于交際,喜歡與他人相處,經(jīng)常體驗到積極情緒,有溫暖、社交性、自信、活力等特征;(3) 開放性 (Openness, O):高開放性人群表現(xiàn)出想象力豐富、有創(chuàng)造力、腳踏實地等特征,他們樂于探索世界,體驗新鮮事物;(4) 宜人性 (Agreeableness, A):高宜人性人群樂于接受他人的意見、重視他人的觀點,有信任、直率、謙虛、善良和順從等特征;(5) 盡責性 (Conscientiousness, C):高盡責性人群習慣于控制、調(diào)節(jié)、指導自身的沖動,表現(xiàn)出有能力、有秩序、責任感強、自律和深思熟慮等特征。有學者指出,內(nèi)在的人格特質(zhì)、外在的文化規(guī)范與情境等共同決定了個體的交際風格。已有大量研究考察了人格維度與言語交際風格的相關(guān)關(guān)系。
Leung 等發(fā)現(xiàn)高外傾性和高開放性人群的言語表達更加直接、開放和準確。Ahmed 等使用交際風格量表 (Communication Style Inventory) 測量了大學生群體交際風格的 6 個潛在維度:表達性 (健談、幽默、隨意),準確性 (考慮周到、語言簡潔、內(nèi)容充實、條理清晰),語言攻擊性 (易怒、強硬、使用貶低或攻擊言辭、缺乏情感支持),好奇性 (思維開放、充滿好奇、善于辯論),情緒性 (溝通中容易流露感傷、焦慮、緊張情緒,采取防御性態(tài)度),印象操控性 (奉承、有魅力、難以捉摸、隱瞞信息)。結(jié)果發(fā)現(xiàn),外傾性與表達性呈正相關(guān),神經(jīng)質(zhì)與語言攻擊性、情緒性、印象操控性呈正相關(guān),盡責性與準確性呈正相關(guān),開放性與準確性、語言攻擊性、好奇性呈正相關(guān),而宜人性與交際風格之間的相關(guān)性不顯著。語音是言語交際的物質(zhì)外殼,已有大量研究考察了人格維度對語音聲學特征的影響。Aronovitch 要求被試僅憑語音線索對話者的人格維度評分,發(fā)現(xiàn)外傾性與男性發(fā)音人的基頻和能量范圍呈正相關(guān),與女性發(fā)音人的基頻和能量均值呈正相關(guān)。
Song 等通過考察韓國人在正式交際場合中各人格維度的聲學關(guān)聯(lián)物發(fā)現(xiàn):神經(jīng)質(zhì)與基頻均值僅在女性發(fā)音人中呈正相關(guān);外傾性與基頻范圍呈正相關(guān),并且在女性發(fā)音人中與基頻均值正相關(guān)、與共振峰間距負相關(guān);開放性與基頻范圍呈正相關(guān),并且在女性發(fā)音人中與共振峰間距負相關(guān)。Aronovitch 和 Michalsky 等都揭示了女性發(fā)音人的語速和外傾性之間的關(guān)系,但結(jié)論相反:前者發(fā)現(xiàn)語速和外傾性呈正相關(guān),而后者發(fā)現(xiàn)兩者呈負相關(guān)。Gocsál 考察了男性發(fā)音人的語音聲學特征與人格維度間的關(guān)系,指出語速與外傾性和開放性均呈正相關(guān)。Michalsky 等還發(fā)現(xiàn)語速與神經(jīng)質(zhì)之間的負相關(guān)關(guān)系、短語時長與盡責性之間的正相關(guān)關(guān)系。音質(zhì)特征與人格維度之間也有相關(guān)性,如嘎裂聲與較低的外傾性、宜人性、盡責性、神經(jīng)質(zhì)有穩(wěn)定的聯(lián)系。此外,基于聲學特征對 5 個人格維度 (以中值為界分為高、低兩個水平) 做自動分類發(fā)現(xiàn),外傾性 (0.73) 和盡責性 (0.73) 的識別率最高,其次為神經(jīng)質(zhì) (0.68) 和宜人性 (0.63),開放性的識別率最低 (0.60)。
此外,近年有研究開始探討人格特質(zhì)與情感類型對語音的綜合作用。例如,盛晨探索了外傾性與宜人性對漢語態(tài)度語音 (包括積極態(tài)度與消極態(tài)度) 聲學特征的影響;此外,胡涵和顧文濤揭示了依戀風格對親密態(tài)度語音以及四種基本情緒語音的調(diào)節(jié)作用。為了深入研究人格特質(zhì)對態(tài)度語音的作用規(guī)律,本文從大五人格出發(fā),探究表達相信 / 不信態(tài)度的漢語語音聲學特征,考察外傾性、神經(jīng)質(zhì)、宜人性、盡責性、開放性這 5 個人格維度對相信 / 不信語音聲學特征差異模式的調(diào)節(jié)作用。
1 方法
1.1 實驗材料
人格測量問卷:使用大五人格量表 (Neuroticism Extraversion Openness Five-Factor Inventory, NEOFFI) 中文版測量被試的人格維度。NEO-FFI 由 5 個分量表構(gòu)成,分別對應神經(jīng)質(zhì) (如:有時候我感到憤怒,充滿怨恨)、外傾性 (如:我喜歡周圍有很多朋友)、開放性 (如:我喜歡培養(yǎng)和發(fā)展新的愛好)、宜人性 (如:我盡量對每一個遇到的人彬彬有禮,非常客氣)、盡責性 (如:我比較擅長為自己安排好做事進度,以便按時完成任務),每個分量表包含 12 個題項。每個題項均采用 5 度制計分 (1: 非常不符合,5: 非常符合)。最終,計算 12 個題項的總分作為人格維度分數(shù)。用 Cronbach’s α 系數(shù)檢驗樣本量表題項的同質(zhì)性,結(jié)果表明神經(jīng)質(zhì)的 Cronbach’s α 系數(shù)為 0.86,外傾性為 0.84,開放性為 0.85,宜人性為 0.73,盡責性為 0.84。產(chǎn)出語料:采用情景誘導式語料。設計 11 個語義中性的陳述句作為目標句 (音節(jié)數(shù):均值(M=8.58),標準差(SD=1.83),范圍(range =6 ~ 12)。
每個目標句設計兩個語境,分別誘發(fā)相信和不信態(tài)度。誘發(fā)相信態(tài)度的語境強調(diào)話者已知信息與傳遞信息相符,誘發(fā)不信態(tài)度的語境強調(diào)話者已知信息與傳遞信息不符。為了貼近日常言語交際,設計了 3~4 個交際話輪,由實驗助理充當被試的交際對象,共同完成對話,并引導被試自然地說出目標句。以下是目標句為 “外面在下大雨” 的語境和對話腳本,目標句由被試 A 說出?!鞠嘈拧孔蛱焱砩峡刺鞖忸A報說今天是晴天,但早上 A 打開窗戶看到外面在下大雨,舍友 B 在收拾東西準備一會兒出門。B: 等一下我還要和小李去剪頭發(fā)。A: 剪頭發(fā)?那你們只能在附近了,記得帶傘。B: 帶傘?不用吧,天氣預報說今天是晴天啊。A: 不是,我早上打開窗戶看到的,外面在下大雨。【不信】A 昨天晚上看天氣預報說今天是晴天。傍晚,舍友 B 和 A 聊起晚飯吃什么。B: 等會兒晚飯咱們只能點外賣吃了。A: 怎么了?為什么只能點外賣吃啊?B: 你也不看看,今天外面下大雨呢!A: 不是吧,外面在下大雨,天氣預報不是說晴天嗎?
1.2 被試選取
使用仿真算法,估計在顯著水平為 0.05 (雙尾)、功效值大于 80% 時態(tài)度 (相信 / 不信) 效應顯著所需的樣本量?;陬A實驗 10 名被試的數(shù)據(jù),分別以每個聲學特征為因變量構(gòu)建線性混合模型 (Linear Mixed Model, LMM),態(tài)度為固定效應,被試和目標句為隨機效應,做 1000 次仿真模擬。計算所有聲學特征上態(tài)度因子對應功效值的算術(shù)平均后發(fā)現(xiàn),樣本量為 40 的功效值為 93%。用 R 4.3.1 的 MixedPower 程序包做仿真分析。共招募 47 名無言語聽力疾病史且普通話流利的被試 (22 男 25 女),平均年齡(M=21.55)歲((SD =2.59),(range =18 ~ 27)均為在校大學生或研究生。采用 Wilcoxon 秩和檢驗比較男性和女性在年齡和人格維度分數(shù)上的差異,結(jié)果顯示性別效應均不顯著((ps>0.1))表明年齡和人格維度分數(shù)在兩性間分布均衡,可排除性別對后續(xù)統(tǒng)計結(jié)果的影響。
1.3 實驗過程
錄音在專業(yè)錄音棚內(nèi)進行。語音采集設備為 Apogee BOOM 聲卡和 AKG 頭戴式傳聲器,采集到的語音信號存為 WAV 文件 (采樣率 44.1 kHz,精度 16 bit)。使用 Eprime 3.0 設計實驗程序,并在 Philips 220SW 顯示屏 (分辨率:1280×1024) 上呈現(xiàn)。實驗分為三個階段:問卷填寫、實驗準備、語音實驗。實驗持續(xù)約 1 小時。問卷填寫階段。被試在閱讀并簽署知情同意書后,填寫個人基本信息和 NEO-FFI 線上問卷。人格維度得分對被試保密,防止被試根據(jù)某類人格的刻板印象做語音表達。實驗準備階段。實驗助理將被試引入錄音棚,安置在距離顯示屏約 70 cm 的座椅上,并調(diào)整座椅高度確保被試平視屏幕中央。用頭戴式傳聲器采集語音,傳聲器距被試嘴部約 10 cm,實驗過程中被試不得觸碰傳聲器。
被試有充分的時間熟悉語料。語音實驗階段。按照角色扮演的對話腳本,被試感受角色的心理狀態(tài),與實驗助理充當?shù)膶υ捳?,以日常方式自然地交流。屏幕上首先呈現(xiàn) 500 ms 注視點,提示被試集中注意力。其次,呈現(xiàn)語境與交際話輪,目標句用粗體突出顯示。被試先經(jīng)練習階段充分熟悉實驗流程后,進入正式實驗。如果被試有錯讀和漏讀,或?qū)υ捳Z表達效果不滿意,可重新開始對話。所有目標句均由被試產(chǎn)出。不同目標句與其對應的交際情景隨機呈現(xiàn),同一目標句誘發(fā)相信和不信態(tài)度的情景順次呈現(xiàn)。最終,共采集 47 被試 ×2. 態(tài)度 (相信 / 不信)×11 目標句 = 1034 個語音文件。在去除 3 個有缺失值的樣本后,得到 1031 個語音樣本用于數(shù)據(jù)分析。
1.4 聲學參數(shù)
參考以往有關(guān)情感和人格研究采用的聲學特征,采用 Praat 6.3,對每個目標句提取 11 個韻律參數(shù)和 12 個音質(zhì)參數(shù):基頻 (f0):聲帶振動的頻率。采用自相關(guān)算法獲取基頻的時變曲線,并手動修正異常值。對內(nèi)插和平滑后基頻曲線上的每個基頻值做半音轉(zhuǎn)換,公式為 12・log2 (f0/f0ref),其中 f0ref 為參考值 (設置為 50 Hz)?;谵D(zhuǎn)換后的基頻曲線,計算均值 (f0mean)、標準差 (f0std)、最小值 (f0min)、最大值 (f0max)、范圍 (f0range)。音強 (Int):語音的強度。計算語音幅值的均方根得到音強的時變曲線?;趦?nèi)插和平滑后的音強曲線計算均值 (Intmean)、標準差 (Intstd)、最小值 (Intmin)、最大值 (Intmax)、范圍 (Intrange)。單位為 dB。語速 (SpRate):發(fā)音人每秒產(chǎn)出的音節(jié)數(shù)。計算方法為全句的音節(jié)數(shù)除以全句的時長。
單位為音節(jié)數(shù) / 秒。譜矩 (Spec):頻譜能量的分布,包括譜重心 (Spec-cog) 和譜離散度 (Spec-std)。前者為一階原點矩,后者為二階中心矩。單位為 Hz。諧波差 (HD):不同頻段諧波能量的差異,反映聲門的收緊程度。提取經(jīng)過共振峰帶寬修正的低頻段諧波差 H1–H2、H2–H4,高頻段諧波差 H2K–H5K (2000 Hz 和 5000 Hz 諧波能量的差值),以及 H1 與三個共振峰能量間的差值 H1–A1、H1–A2、H1–A3。諧波差值越大,聲門的收緊度越低。嗓音規(guī)則性參數(shù):包括基頻擾動 (Jitter)、振幅擾動 (Shimmer)、諧噪比 (HNR)、平滑倒譜峰值系數(shù) (CPPS)。Jitter 和 Shimmer 分別表示相鄰周期基頻和振幅的變異度,用百分數(shù)表示,數(shù)值越小,嗓音越規(guī)則。HNR 表示諧波成分與噪聲成分的能量比值,單位為 dB,數(shù)值越大,嗓音越規(guī)則。CPPS 指平滑倒譜能量的峰值與峰值下回歸線之間的距離,單位為 dB,數(shù)值越大,嗓音越規(guī)則。
1.5 統(tǒng)計分析
首先,用有監(jiān)督分類器對相信 / 不信的態(tài)度語音做自動分類,考察兩類態(tài)度語音在聲學空間中的分布差異?;诜诸惸P陀嬎忝總€聲學特征對模型輸出的邊際貢獻 (SHapley Additive exPlanation, Shap),選取貢獻高于均值的特征做后續(xù)分析。
其次,基于選取的重要聲學特征做冗余分析 (Redundancy Analysis, RDA),揭示解釋變量矩陣 (人格維度) 對響應變量矩陣 (聲學特征) 方差的解釋率。具體分為兩步:(1) 基于原始聲學特征做 RDA,分別考察人格維度和相信 / 不信態(tài)度對聲學特征的影響。(2) 基于相信 / 不信的態(tài)度語音聲學特征的絕對差值做 RDA,探究人格維度對兩種態(tài)度語音聲學模式差異的調(diào)節(jié)作用。同時,采用層次劃分法計算每個人格維度對多維聲學特征方差解釋率的獨立貢獻。然后,由于 RDA 未對人格維度的調(diào)節(jié)作用做假設檢驗,所以對選取的重要聲學特征逐一擬合線性混合模型 (LMM),考察每個人格維度與相信 / 不信態(tài)度的二階交互效應。
最后,由于受到樣本量的限制,LMM 只能分別考察單個人格維度對相信 / 不信語音聲學特征的調(diào)節(jié)作用。因此,進一步采用線性混合模型樹 (LMMT),綜合考察 5 個人格維度整體上對兩種態(tài)度語音的調(diào)節(jié)作用。LMMT 由兩部分組成:(1) 利用決策樹算法,根據(jù)人格維度將聲學數(shù)據(jù)分為多個同質(zhì)的亞組,作為葉節(jié)點;(2) 對每個葉節(jié)點上的數(shù)據(jù)做 LMM,計算固定效應和隨機效應。
2 結(jié)果
2.1 有監(jiān)督分類器
基于 1031 個樣本、23 個聲學特征,構(gòu)建核 K 近鄰模型 (KKNNM)、靈活判別模型 (FDM)、徑向基支持向量機 (RSVM)、隨機森林 (RF)、輕量級梯度提升決策樹 (LGBDT),對語音表達的相信與否的態(tài)度做自動分類。為了提升模型的識別效果,將 5 個基模型 3 重 10 折交叉驗證的預測值作為新特征,納入線性懲罰模型,計算堆疊系數(shù),構(gòu)建堆疊模型 (Stacks Model, SM)。為了消除個體差異的影響,每個聲學特征以被試為單位轉(zhuǎn)換為 z 分數(shù)。數(shù)據(jù)集分為 70% 訓練集 (720 個樣本) 和 30% 測試集 (311 個樣本),訓練集用于建模和調(diào)參,測試集用于評價模型的表現(xiàn)。采用模擬退火算法 (迭代 100 次) 和 3 重 5 折交叉驗證法調(diào)參。使用準確率 (Accuracy, ACC) 和接受者工作特征曲線下面積 (Area Under Curve, AUC) 評估模型的識別效果。
5 種基模型在測試集上的 ACC 都在 0.71 以上,顯著高于 0.50 的機會水平 (95% CI 均不包含 0.50),AUC 都在 0.79 以上;其中,RSVM 識別效果最優(yōu) (ACC=0.76,AUC=0.84)。堆疊模型相比于除 RSVM 以外的基模型,AUC 提升了 2%~5%?;?SM 計算每個聲學特征的 Shap 值,選出對相信 / 不信的判斷有重要貢獻的聲學特征。貢獻值高于絕對 Shap 均值的聲學特征,由高至低排列為:f0mean, Jitter, HNR, f0std, f0max, f0min, SpRate, H2–H4?;谶@ 8 個聲學特征做后續(xù)分析。
2.2 冗余分析
所有特征都在標準化 (轉(zhuǎn)換為 z 分數(shù)) 后做 RDA。選取方差解釋率占總體可解釋方差的比例最高的兩個維度 (RDA1 和 RDA2) 作三標圖,描述了人格維度和相信 / 不信語音在聲學空間上的分布。不信比相信語音有較高的 f0mean、f0min、f0max、HNR,較低的 Jitter、H2–H4。人格維度對聲學特征的方差解釋率由高至低分別為:盡責性 (37.12%)、外傾性 (30.62%)、開放性 (14.00%)、神經(jīng)質(zhì) (13.62%)、宜人性 (5.12%)。盡責性與 f0mean、f0std、f0max、f0min、SpRate 呈正相關(guān),與 H2–H4、Jitter 呈負相關(guān)。外傾性、開放性和神經(jīng)質(zhì)與 H2–H4、Jitter 呈正相關(guān),與 f0mean、f0min、f0max、HNR 呈負相關(guān)。宜人性與 HNR、f0min、f0mean 呈正相關(guān),與 H2–H4、Jitter 呈負相關(guān)。
人格維度的方差解釋率由高到低分別是:神經(jīng)質(zhì) (25.73%)、外傾性 (25.48%)、開放性 (22.58%)、盡責性 (13.31%)、宜人性 (12.98)。神經(jīng)質(zhì)與 f0max、f0std、SpRate、Jitter 呈正相關(guān)、與 f0mean、f0min 呈負相關(guān)。外傾性與 f0mean、f0min、f0max、Jitter、HNR 呈正相關(guān),與 SpRate、H2–H4 的呈負相關(guān)。開放性與 SpRate、H2–H4 呈正相關(guān),與 f0mean、f0min、f0max、Jitter、HNR 的呈負相關(guān)。盡責性與 H2–H4 呈正相關(guān),與 f0mean、f0std、f0min、f0max、Jitter、HNR 呈負相關(guān)。宜人性與 f0std、f0max、SpRate、Jitter、HNR 呈負相關(guān)。
2.3 線性混合模型
為了檢驗 5 個人格維度對相信 / 不信態(tài)度語音的調(diào)節(jié)作用是否有統(tǒng)計學意義,基于 8 個重要的聲學特征逐一擬合 LMM。固定效應為每個人格維度 (連續(xù)變量) 和態(tài)度 (離散變量:相信 / 不信) 間的二階交互效應,隨機效應為被試和目標句。為平衡模型的復雜度和擬合優(yōu)度,采用重要性排序和逐步剔除法優(yōu)化模型。采用似然比檢驗,估計最簡模型的主效應和交互效應。對態(tài)度效應做事后檢驗時,將人格維度以(Mpm SD)作為高、低兩個水平,用 Cohen’s d 表示效應量;對人格效應做事后檢驗時,分別計算人格維度在相信 / 不信條件下對聲學特征的預測斜率。為了便于模型解讀,對人格維度做中心化處理。
3 討論
3.1 相信 / 不信語音在聲學空間中的分布差異
基于 23 個聲學特征構(gòu)建的有監(jiān)督分類器發(fā)現(xiàn),表達相信 / 不信的語音在聲學空間中有清晰的決策邊界,模型的 ACC 和 AUC 最高可達 0.76 和 0.84。根據(jù) Shap 值,f0mean、Jitter、HNR、f0std、f0max、f0min、SpRate、H2–H4 對區(qū)分相信 / 不信有較大貢獻。基于上述 8 個重要特征做 RDA和 LMM 發(fā)現(xiàn),不信比相信語音有更高的 f0mean、f0std、f0min、f0max、HNR,以及更低的 SpRate、H2–H4、Jitter。
漢語的不信比相信語音有更高的 f0mean 和 f0std,這與西班牙語和英語的研究結(jié)果一致。較高的 f0mean 與疑問、懷疑、驚訝有關(guān),例如:Liu 和 Xu 發(fā)現(xiàn)句末音高上升是疑問語氣的重要特征;Jiang 和 Pell 指出,懷疑比確信的語音有更高的 f0mean;Liu 等發(fā)現(xiàn)驚訝比中性的語音有更高的 f0mean。較大的 f0std,根據(jù)努力編碼 (Effort Code) 假說,表明話者對信息有更多的強調(diào)。
表達不信時,語音有較小的 H1–H2 和 Jitter、較大的 HNR,說明嗓音更加規(guī)則和清晰,這與諷刺語音的嗓音表現(xiàn)一致,支持 “個體傾向于使用諷刺語調(diào)表達不信態(tài)度” 的觀點。使用清晰且規(guī)則的嗓音,有利于提高語音的可懂度,從而讓否定更加突顯。
3.2 人格維度對相信 / 不信語音聲學特征差異的調(diào)節(jié)作用
神經(jīng)質(zhì)、外傾性、開放性對相信 / 不信語音之間的聲學特征差異有重要的調(diào)節(jié)作用。神經(jīng)質(zhì)的調(diào)節(jié)作用表現(xiàn)在 f0mean、f0min 和 f0std,外傾性的調(diào)節(jié)作用表現(xiàn)在 f0mean 和 HNR,而開放性的調(diào)節(jié)作用表現(xiàn)在 f0std。
相比于低神經(jīng)質(zhì)人群,高神經(jīng)質(zhì)人群在表達相信和不信態(tài)度時 f0mean 和 f0min 的差異較小,這與高神經(jīng)質(zhì)人群有較弱的情緒表達能力有關(guān)。而且,表達不信態(tài)度時,高神經(jīng)質(zhì)人群比低神經(jīng)質(zhì)人群有更高的 f0std,表明更高的情緒激活,符合高神經(jīng)質(zhì)人群易情緒化的性格特征。
相比于低外傾性人群,高外傾性人群表達相信和不信態(tài)度時 f0mean 和 HNR 的差異較大,這與高外傾性人群有較強的交際能力和情緒表達能力相符。而且,表達相信態(tài)度時,高外傾性人群比低外傾性人群對聲門控制的規(guī)則性減弱 (較小的 HNR),說明他們在言語表達時較為放松和隨意,與文獻的結(jié)果一致。
相比于低開放性人群,高開放性人群表達相信和不信態(tài)度時 f0std 的差異較大,這可能受到開放性人群好奇性交際風格 (思維開放、充滿好奇、善于辯論等) 的影響。好奇性促使高開放性人群表達不信時傾向于加強疑問語氣,導致不信和相信的 f0std 有較大的差異。但是,開放性對相信 / 不信態(tài)度 f0std 的預測作用都不顯著,該假設仍需進一步驗證。
LMMT 綜合考察了大五人格整體上對相信 / 不信語音之間聲學特征差異的影響。相比于其他人群,同時具有低神經(jīng)質(zhì)、高外傾性、低盡責性的人群,f0mean 的差異較大;同時具有低神經(jīng)質(zhì)、低開放性的人群,f0std 的差異較小;同時具有低神經(jīng)質(zhì)、低開放性的人群,以及同時具有高神經(jīng)質(zhì)、高開放性的人群,SpRate 的差異較小。
3.3 不足與展望
雖然研究的樣本量超過了 80% 統(tǒng)計功效所需的最小樣本量,但是畢竟樣本量較小,后續(xù)研究可通過增加樣本量獲得更可靠的結(jié)論。同時,人格維度是普適的心理學概念、與語言無關(guān),因此可以預期,人格維度對相信 / 不信語音聲學特征的影響,有很多語言共通的性質(zhì),后續(xù)研究可將被試人群拓展至其他語言,獲得更具普遍性的結(jié)論。此外,態(tài)度在語音上的表現(xiàn)不會在話語中均勻分布,某些局部的聲學特征更能體現(xiàn)態(tài)度上的區(qū)別。例如,Gu 等發(fā)現(xiàn),基頻特征在不同態(tài)度間的對比,在句重音部位表現(xiàn)更加強烈,Jiang 和 Pell 發(fā)現(xiàn)態(tài)度對比的聲學差異隨音節(jié)在句中的位置而變化。本文只分析了全句的整體聲學參數(shù),后續(xù)研究可以通過提取句子不同位置的聲學參數(shù)做更細致的局部分析。
4 結(jié)論
采用有監(jiān)督機器學習、冗余分析、線性混合模型和線性混合模型樹四種分析方法,揭示了相信和不信語音的聲學特征的差異,以及 5 個人格維度 (神經(jīng)質(zhì)、外傾性、開放性、宜人性、盡責性) 對這些聲學特征的影響。研究發(fā)現(xiàn),相信 / 不信的態(tài)度語音在聲學空間中有清晰的聚類邊界,不信比相信語音有更高的基頻均值、基頻標準差、基頻最小值、基頻最大值、諧噪比,以及更低的語速、諧波差 H1–H2、基頻擾動;大五人格維度,尤其是神經(jīng)質(zhì)、外傾性、開放性,對相信和不信語音的聲學特征差異有顯著的調(diào)節(jié)作用。未來的智能人機語音交互系統(tǒng),離不開個性化的需求,而人格特質(zhì)正是個性化的重要體現(xiàn)。本文以相信與不信語音為例,揭示了大五人格對態(tài)度語音聲學特征的影響,為個性化人機語音交互的發(fā)展提供了數(shù)據(jù)支持。
胡 涵;吳思衡;顧文濤;葉名揚;管欣怡,南京師范大學文學院;麥吉爾大學溝通科學與障礙學院,202502