摘要:該文提出了一種利用計算機視覺技術輔助實現包含運動人體散射特征的毫米波無線信道仿真方法。該方法旨在為毫米波無線人體動作識別場景之下,快速且低成本地生成仿真訓練數據集,避免當前實測采集數據集的巨大開銷。首先利用基元模型將人體建模為 35 個相互連接的橢球,并從包含人體動作的視頻中提取出人體在進行對應動作時各個橢球的運動數據;其次利用簡化的射線追蹤方法,針對動作中基元模型的每一幀計算對應的信道響應;最后對信道響應進行多普勒分析,獲得對應動作的微多普勒時頻譜。上述仿真獲得的微多普勒時頻譜數據集可以用于訓練無線動作識別的深度神經網絡。

  該文針對 “步行”“跑步”“跌倒”“坐下” 這 4 種常見的人體動作在 60GHz 頻段上進行了信道仿真及動作識別的測試。實驗結果表明,通過仿真訓練的深度神經網絡在實際無線動作識別中平均識別準確率可以達到 73.0%。此外,借助無標簽遷移學習,通過少量無標簽實測數據的微調,上述準確率可以進一步提高到 93.75%。

">

欧美一级在线毛片免费观看,国产成人精品视频一区二区不卡 ,成年人精品视频,国产精品手机视频

學術咨詢

讓期刊論文更省時、省事、省心

雷達學報雜志投稿格式參考范文:向毫米波動作識別的視覺輔助信道仿真技術

時間:

  1 引言

  泛在無線感知由于其在非接觸性、感知通信融合性、隱私保護等方面得天獨厚的優勢,已經逐漸成為下一代無線通信系統的一項核心功能。在這個背景下,無線人體動作識別(HMR)的研究得到了廣泛關注。該技術旨在利用人體運動帶來的信號傳播特性變化,推測人體的動作或狀態。

  大量的現有工作致力于基于信道狀態信息(CSI)、調頻連續波(FMCW)雷達或被動式感知來實現人體動作識別。在這些研究中,絕大多數的工作需要采集大量的帶標簽的實測信道數據或接收信號,并訓練人體動作識別的人工智能模型。訓練數據的采集往往會消費大量的人力、物力和時間;實測數據的采集往往很難覆蓋到所有的人體動作識別的場景。為了彌補現有工作的不足,本文提出了一種計算機視覺輔助、面向人體動作識別的無線信道仿真方法。該方法旨在利用信道的計算機仿真替代上述訓練數據的實測采集。

  近年來,學術界和工業界紛紛致力于拓展現有無線信道模型,添加對被感知目標的建模,為面向人體動作識別的無線信道仿真提供了可能性。以 IEEE 802.11bf 國際標準為例,該標準提出了一種數據驅動的混合信道模型(DAHC),即將無線信道劃分為目標無關信道和目標相關信道兩部分:前者反映傳輸環境對無線信道的影響;后者反映被感知對象對無線信道的影響。現有的面向通信的無線信道模型可用于對前者進行建模,而人體基元模型則可用于對后者進行建模。美國國家標準與技術研究院(NIST)在毫米波 WiFi 標準 IEEE 802.11ay 基于射線追蹤的準確定性信道模型的基礎之上,添加了額外的目標相關射線(TRays),并開發出了相應的軟件 WiGig Tools。

  在學術界,有研究者使用類似的信道模型來優化通感一體系統下的通信感知的綜合性能。另有研究者基于 FMCW 雷達以及預設人體運動模型開發了微多普勒譜仿真器 SimHumalator,旨在解決實際微多普勒數據集不均衡的問題。上述研究工作均基于特定的人體基元模型實現了對動作導致的微多普勒效應的仿真;然而這些工作并沒有解決多樣化動作參數的來源問題。為了讓深度神經網絡能夠廣泛適用于不同感知對象的動作識別,對深度神經網絡進行訓練的動作需要具備多樣性;而收集大量人體動作的運動參數將花費不小的成本。

  針對上述動作參數的采集問題,有研究者使用人體網格運動模型,以參數化生成各種人體動作的軌跡,并開發出用于人體跌倒檢測的 FMCW 回波仿真器 SIMFALL。還有研究者采用時間 - 頻率擴散模型 RFDiffusion 對 Wi - Fi 及 FMCW 信號進行建模和生成,模擬產生多樣性的動作參數。但是,這種動作參數的生成方法并不是來自實際的人體動作。另有研究人員針對手勢識別的應用場景,利用計算機視覺工具采集人體手部 21 個三維關鍵點的運動參數,并以此初步完成了各種常見手勢的信道仿真。

  本文在文獻所提出基元法信道仿真方法的基礎上,進一步研究利用計算機視覺技術和計算機仿真方法進行人體整體動作識別的技術。具體而言,本文首先介紹了對包含完整人體的無線信道進行建模和仿真的方法,包括如下步驟:首先利用基元模型將人體建模為 35 個相互連接的橢球,并從包含人體動作的視頻中提取出人體在進行對應動作時各個橢球的運動數據;其次利用簡化的射線追蹤方法,針對動作中基元模型的每一幀計算對應的信道響應;最后對信道響應進行多普勒分析,獲得對應動作的微多普勒時頻譜。

  由于視頻資源的極大豐富,采集人體運動參數的開銷極小。從視頻中仿真獲得的微多普勒時頻譜用于動作識別神經網絡的預訓練。由于仿真獲得的微多普勒時頻譜與實測動作的微多普勒時頻譜可能存在細節特征上的差異,我們在實際動作識別之前還利用了遷移學習對預訓練后的神經網絡進行調整。在實驗中,我們針對 “步行”“跑步”“跌倒”“坐下” 這 4 種常見的人體動作在 60GHz 頻段上進行了信道仿真及動作識別的測試。實驗結果表明,通過仿真數據集預訓練的深度神經網絡在實測數據集中平均識別準確率可以達到 73.0%。此外,借助無標簽遷移學習,通過少量實測數據的微調準確率可以進一步提高到 93.75%。

  2 仿真器框架

  本文所提出的無線信道仿真器是基于人體基元模型構建的。其中,信道仿真器可以分為兩個部分:(1)無線信道生成器;(2)人體動作捕捉器。前者利用人體三維關鍵點的運動數據構建人體基元,計算雷達截面面積模型(RCS);并在給定收發機的位置的情形下,通過射線追蹤的方式仿真人體基元及靜態環境所產生的信道沖激響應。后者則基于現有的計算機視覺領域的人體關鍵點提取工具,從海量的人體動作視頻中提取人體三維關鍵點運動數據,將其作為無線信道生成器的輸入。

  在無線信道仿真器中,發射機、接收機以及人體目標可以被設置在一個全局坐標系中任意的位置。一個完整的人體動作可以分解為一系列以 Δts 為時間間隔的時間戳上的姿勢。在每一個時間戳 t 上,我們假設無線信道沖激響應(CIR)是準靜態的,并通過基元法進行仿真信道生成。具體來說,我們通過使用 I 個人體三維關鍵點(即人體關節)和 N 個連接相鄰兩個關鍵點的橢球基元來建模人體運動目標,并利用每個橢球中心的散射徑來對非視距(NLoS)信道進行建模。

  在本文中,時間戳 t 上的無線信道沖激響應可以被建模為從發射機到接收機的視距(LoS)徑,由人體目標散射的 N 條 NLoS 徑,以及由靜態環境產生的 NLoS 徑的集合。本文所采用的 34 個關鍵點由 ZED 2i 深度相機通過其內置的 AI 模型選取。事實上,基于計算機視覺提取人體骨架運動信息一直是計算機視覺領域的熱點話題之一,衣服的褶皺、人體照片的輕微遮擋都不會對關鍵點的提取產生過大的誤差。另外,由于深度相機錄制視頻的時間間隔 Δtv 往往遠大于 Δts,在 ZED 2i 捕捉到的相鄰兩幀人體動作數據之間,需要進行插值處理,以確保足夠的動作采樣頻率,避免頻率混疊現象的發生。

  本文提出的無線信道仿真方案可以根據任何人體關鍵點運動數據源以及任意數量的三維關鍵點和連接橢球基元進行調整。常見的人體動作捕捉方式可以基于計算機視覺的單目 / 雙目相機、慣性傳感器等方法,生成具有不同關鍵點數量和連接方式的多種人體關鍵點模型。

  3 無線信道生成器

  本節將具體闡述信道生成器生成 t 時刻的信道沖激響應的方法。從發射機到接收機的多徑信道可以被劃分為兩部分:目標相關信道以及目標無關信道。具體來說,分別定義 h (τ,t) 和 u (τ,t) 為 t 時刻整體的信道沖激響應和目標相關的信道沖激響應(T 代表信道沖激的時延),并定義 v (τ) 為目標無關的不隨時間變化的信道沖激響應。根據文獻所定義的信道模型,有 h (τ,t)=u (τ,t)+v (τ),其中,u (τ,t) 和 v (τ) 的建模分別在 3.1 節以及 3.2 節中詳細敘述。

  3.1 目標相關信道建模

  令 pt 和 pr 分別代表發射機和接收機的三維位置坐標,pi (t) 和 pj (t) 分別代表在 t 時刻連接著第 n 個橢球基元的兩個關鍵點坐標(∀n,t)。基于此,第 n 個橢球基元的散射中心坐標可以記為 pn^c (t)=[pi (t)+pj (t)]/2。同時,記連接兩個關鍵點 pi (t) 和 pj (t) 的橢球長軸的長度為 2ln (t),則 ln (t)=|pi (t)−pj (t)|/2。橢球基元的剩余兩個短軸的長度相等,記為 2rn (t)。文中,rn (t)=ln (t)/2。由于人體運動的非剛體特性,橢球基元的尺寸(rn (t) 與 ln (t))被建模為與 t 相關,可能隨著時間的推移輕微變化。

  令 Rt^n (t)=|pt−pn^c (t)| 代表發射機到第 n 個橢球基元散射中心的距離,Rr^n (t)=|pr−pn^c (t)| 代表接收機到第 n 個橢球基元散射中心的距離,Gt^n (t) 和 Gr^n (t) 分別代表發射天線和接收天線在入射方向 pt−pn^c (t) 和散射方向 pn^c (t)−pr 上的天線增益,σn (t) 代表第 n 個橢球基元在 t 時刻的雙基地雷達截面面積,c 代表光速,fc 和 λ 分別代表信號的載波頻率和波長。由第 n 個橢球基元散射所生成的信道沖激響應可以表示為:un (τ,t)=λ√[σn (t) Gt^n (t) Gr^n (t)/(4π)³(Rt^n (t) Rr^n (t))²] e^−jφn (t)δ(τ−τn (t))

  其中,δ(a) 是單位沖激函數,即滿足當 a=0 時,δ(a)=1,反之則 δ(a)=0。τn (t)=[Rt^n (t)+Rr^n (t)]/c 和 φn (t)=2πfcτn (t) 分別代表該散射路徑的傳輸時間(時延)和相位偏移。

  雙基地雷達截面面積 σn (t) 可以通過文獻中的方法計算。令 θt^n (t) 和 θr^n (t) 分別代表入射和散射的俯仰角(Elevation),φt^n (t) 和 φr^n (t) 分別代表入射和散射的方位角(Azimuth),vn (t)=[pi (t)−pj (t)]/(2ln (t)) 代表沿著橢球長軸方向的單位向量,有:

  θt^n (t)=arccos [(pn^c (t)−pt)ᵀvn (t)/Rt^n (t)]

  θr^n (t)=arccos [(pn^c (t)−pr)ᵀvn (t)/Rr^n (t)]

  和 |φr^n (t)−φt^n (t)|=arccos {[(pn^c (t)−pt~(t))ᵀ(pn^c (t)−pr~(t))]/[|pn^c (t)−pt~(t)||pn^c (t)−pr~(t)|]}

  其中,pt~(t)=pt−vn (t)(pt−pn^c (t))ᵀvn (t) 和 pr~(t)=pr−vn (t)(pr−pn^c (t))ᵀvn (t) 分別代表發射機和接收機在 t 時刻于垂直于橢球長軸 vn (t) 且包含橢球基元散射中心 pn^c (t) 的平面上的投影。

  基于此,在 t 時刻第 n 個橢球基元的雙基地雷達截面面積可以表示為:

  σn (t)=4πα(t) rn⁴(t) ln²(t)/[β(t) rn²(t)+γ(t) ln²(t)]²

  其中,

  α(t)=[(1+cosθt^n (t) cosθr^n (t)) cos (φr^n (t)−φt^n (t))+sinθt^n (t) sinθr^n (t)]²,

  β(t)=sin²θt^n (t)+sin²θr^n (t)+2sinθt^n (t) sinθr^n (t) cos (φr^n (t)−φt^n (t)),

  γ(t)=[cosθt^n (t)+cosθr^n (t)]²

  將所有的由橢球基元散射產生的 NLoS 信道沖激響應相加,目標相關信道沖激響應可以表示為:

  u (τ,t)=∑(n=1 到 N) un (τ,t)

  3.2 目標無關信道建模

  如前文所述,目標無關信道可以借助現有的無線信道模型。本文將室內環境建模為 K 個靜止的散射點。令第 k 個散射點的雙基地雷達截面面積,發射機天線增益,接收機天線增益,到發射機的距離,到接收機的距離分別表示為 σk,Gt^k,Gr^k,Rt^k,Rr^k。目標無關信道的 NLoS 信道沖激響應可以表示為:

  vNLoS (τ)=∑(k=1 到 K)λ√[σkGt^kGr^k/(4π)³(Rt^kRr^k)²] e^−jφkδ(τ−τk)

  其中,τk=(Rt^k+Rr^k)/c 和 φk=2πfcτk 分別代表第 k 條 NLoS 徑的傳輸時延及相位。

  令沿著 LoS 徑方向發射和接收的天線增益分別為 Gt,LoS 和 Gr,LoS,發射機與接收機之間的距離為 RLoS。基于此,目標無關信道的 LoS 信道沖激響應可以通過自由空間傳輸模型表示為:

  vLoS (τ)=λ√(Gt,LoSGr,LoS)/(4πRLoS) e^−jφlosδ(τ−τLoS)

  其中,τLoS=RLoS/c 和 φLoS=2πfcτLoS 分別表示 LoS 徑的傳輸時延及相位。根據文獻所定義的信道模型,則有 v (τ)=vLoS (τ)+vNLoS (τ)

  4 人體動作捕捉器

  我們可以把一個完整的人體動作表示成為一系列等間距(Δts)時間戳上人體三維關鍵點的位置。人體動作捕捉器利用 ZED 2i 深度相機獲取上述關鍵點位置。ZED 2i 深度相機錄制視頻的幀率一般處于 30~120 幀 /s。該相機內置工具或其他的計算機視覺處理軟件可以直接識別并提取每個視頻幀中各個人體三維關鍵點的位置。然而,上述幀率不足以用于信道的微多普勒仿真。例如,在 60GHz 頻段上,4m/s 的人體運動最大速率產生的多普勒頻率最大可以達到 800Hz。這意味著每秒至少需要仿真 1600 個等間隔時間戳上的信道(即幀率大于 1600),大大高于 ZED 2i 深度相機所能夠提供的幀率。

  為解決上述問題,本文在相鄰的兩個視頻幀之間插入 Δtv/Δts−1 個時間戳(Δtv 代表視頻幀的時間間隔),并利用 3 次樣條插值方法計算新插入時間戳上各個人體三維關鍵點的位置。以此為基礎,可以依據上文介紹的方法計算每個時間戳上的信道沖激響應。

  5 “仿真到真實” 的無監督遷移推理

  基于上文介紹的信道仿真器和人體動作捕捉器,我們可以構建一個人體動作微多普勒譜的仿真數據集。該數據集可用于訓練人體動作識別的機器學習模型,并在對實際測量的人體動作微多普勒譜進行識別,即實現 “仿真到真實” 的推理(Simulation-to-reality inference)。然而,由于仿真和實測的微多普勒譜在圖像特征上有一定的差異,直接進行 “仿真到真實” 的推理可能導致較大的誤判概率。遷移學習工具可以用來解決這一類問題。本節將提出一種無監督遷移學習方法,以提高 “仿真到真實” 推理的準確率。

  記帶有動作標簽的仿真微多普勒譜的集合為源域。以 Xs 和 Ys 分別代表源域中仿真微多普勒譜的集合與其一一對應的標簽集合,以 Nc 代表人體動作的類別數。記少量無標簽實測微多普勒譜的集合 Xt 為目標域。本文所提出的無監督遷移學習可以分為 3 個階段:

  (1)基于殘差神經網絡(即 ResNet18)在源域上預訓練人體動作識別模型。ResNet18 可以劃分為特征提取器 Ms (・) 及分類器 C (・) 兩部分。特征提取器 Ms 包含 ResNet18 的 17 個卷積層,其輸入為微多普勒譜 xs∈Xs,輸出為 512 維特征向量。分類器 C 包含 ResNet18 的全連接層部分,其輸入則為 512 維特征向量,輸出為預測的標量標簽(n=1,2,⋯,Nc)。ResNet18 預訓練部分可總結為優化以下交叉熵損失函數:

  min (Ms,C) Lcls (Xs,Ys)=−E [(xs,ys)∈(Xs,Ys)]∑(n=1 到 Nc) 1 [n=ys]・logC (Ms (xs))

  其中,E 代表數值期望操作,1 [n=ys] 是一個指示函數(在 n=ys 時值為 1,反之為 0)

  (2)使用無標簽實測數據 Xt 結合對抗性判別領域自適應(ADDA)方法對第 1 階段的預訓練 ResNet18 模型進行微調。

  6 人體動作識別實驗驗證

  6.1 仿真與實測數據集

  本文所構建的實測與仿真數據集分別包含由兩名不同體型的志愿者所完成的 4 種人體動作,每種人體動作分別包含 100 個樣本。4 種動作分別為:(1)步行靠近或遠離收發機鏈路;(2)跑步靠近或遠離收發機鏈路;(3)跌倒;(4)坐下。

  為了采集實測微多普勒譜(時間頻率譜)的數據集,本文構建了一個工作在 60 GHz 毫米波頻段的被動感知與通信系統。在發射機端,本文使用軟件無線電平臺 NI USRP-2954R 產生 500 MHz 的中頻信號,隨后通過毫米波相控陣 Sivers 將其上變頻到 60 GHz 進行傳輸。在接收機端,我們使用兩個 Sivers 相控陣連接單個 USRP 設備,分別用于接收參考道及監視信道的信號,并通過互相關模糊函數(CAF)計算人體動作微多普勒譜。傳輸的毫米波信號通過正交頻分復用(OFDM)的方式進行調制,其載波頻率為 60 GHz,帶寬為 2 MHz。

  6.2 仿真微多普勒數據集保真度分析

  可以看出,仿真和實測的人體運動微多普勒譜在總體幅度上基本一致,但在小尺度特征形狀和背景噪聲上存在一定差異。造成這些差異的原因有 3 點:(1)通過橢球雷達截面面積來模擬人體基元是一種對復雜人體散射模型的簡化表達,這種簡化能維持人體關鍵點運動帶來的核心多普勒特征,但忽略了人體衣物褶皺、肌肉收縮和呼吸等生命體征的影響。(2)信道仿真難以精確模擬室內反射、散射、衍射等電磁波傳播現象帶來的多徑效應和小尺度衰落。(3)另外,由于收發機硬件設備不完美導致的物理噪聲也同樣難以精確模擬。

  為了量化仿真與實測時頻譜的差異及進一步刻畫本文所提出的信道仿真方法的高保真度,我們使用結構相似性指數(SSIM)來描述任意兩張仿真與實測微多普勒譜的相似性。SSIM 的取值范圍是 0~1,其中 1 表示兩幅圖像完全相同,0 表示沒有相似性。值越接近 1,表示圖像相似度越高。結構相似性指數 SSIM 的計算公式在文獻中詳細敘述,在此不再贅述。為了保證 SSIM 驗證的一般性,對于 “步行”“跑步”“跌倒”“坐下” 這 4 種人體動作,我們將 100 張仿真數據集中的微多普勒時頻譜與 100 張實測數據集中的微多普勒時頻譜一一對應并計算 SSIM,最終得到每個動作 SSIM 的累積分布函數(CDF)曲線。

  約 90% 的步行動作樣本組合 SSIM 大于 0.6638;約 90% 的跑步動作樣本 SSIM 大于 0.6716;約 90% 的跌倒樣本組合 SSIM 大于 0.7602;約 90% 的坐下動作樣本 SSIM 大于 0.8296。結果顯示,本文提出的信道仿真方法對 4 種不同人體動作的保真度有所不同,其中原地動作 “跌倒” 和 “坐下” 具有較高的保真度,而位移動作 “步行” 和 “跑步” 的保真度相對較低。與文獻 RFDiffusion 提出的基于生成式人工智能模型的微多普勒時頻譜仿真方法相比,本文所提出仿真方法的 SSIM 處于相近的較高水平。然而,生成式人工智能可能會生成約 5% 的 SSIM 值在 0~0.6 的微多普勒時頻譜,而本文采用的仿真方法則將 SSIM 值集中在 0.6~0.9,從而確保了信道仿真在保真度下界上處于較高的水平。

  6.3 人體動作識別

  6.2 節論證了仿真微多普勒數據集的高保真度,以及基于仿真數據集訓練人體動作識別模型并實現 “仿真到真實” 推理的可行性。為了進一步驗證本文所提出的仿真方法的高保真性以及 “仿真到真實” 推理效果,本文測試了以下 4 個人體動作識別的訓練和測試方案:

  方案 1:仿真數據集訓練,實測數據集測試。訓練集中每個動作 60 個仿真微多普勒譜,測試集中每個動作 40 個實測微多普勒譜。

  方案 2:仿真數據集訓練 + 遷移學習,實測數據集測試。以方案 1 中的模型為源域預訓練模型,利用 40 個額外的無標簽實測微多普勒譜進行微調,再次對方案 1 中的測試集進行測試。

  方案 3:實測數據集域內訓練及測試。訓練集中每個動作 60 個實測微多普勒譜,測試集中每個動作 40 個實測微多普勒譜。

  方案 4:仿真數據集域內訓練及測試。訓練集中每個動作 60 個仿真微多普勒譜,測試集中每個動作 40 個仿真微多普勒譜。

  4 個人體動作識別方案的準確率分別為 73%,93.75%,100%,100%。可以看出,對于方案 3 和方案 4(仿真數據集或實測數據集域內訓練及測試)而言,經過 ResNet18 訓練之后的人體動作識別準確率可達到 100%。這說明 4 種人體動作可以通過微多普勒譜得到有效的區分。另外,方案 1(仿真數據集訓練,實測數據集測試)的人體動作識別準確率為 73%,其中步行與坐下,跑步與跌倒存在著 40% 與 17.5% 的較大混淆概率。仿真與實測微多普勒譜的固有特征差異,可能是造成這種動作模糊的原因之一。最后,方案 2 的人體動作識別準確率可達到 93.75%,且各個動作之間的混淆較之方案 1 都有不同程度的減小。這體現了遷移學習在本文所提出的方案中的必要性。

  另一個導致動作之間混淆的原因可能是微多普勒譜觀察時間窗口的長度過短。本文現有的仿真及實測數據集的動作時間長度僅有 2 s,這導致部分動作在一個較短的時間窗口內觀察時顯得過于相似。延長時間窗口長度至 5 s 可更有效區分長期動作(如步行和跑步)與瞬時動作(如跌倒和坐下)。另外,延長時間窗口后的 “步行”“跑步”“跌倒”“坐下” 4 組動作的 SSIM 分別為 0.7408,0.8000,0.8972,0.8511;相較于圖 7 SSIM 平均值(0.7104,0.7215,0.8226,0.8501),顯示出更高的保真度。這表明延長時間窗口有望減少人體動作識別中的混淆。此外,設計一個對微多普勒時間窗口敏感的動作識別神經網絡架構有望進一步提升人體動作識別的效果。

  7 結語

  本文提出了一種利用計算機視覺技術輔助實現包含運動人體散射特征的毫米波無線信道仿真的方法,以及一種無監督遷移學習方案。首先,利用錄制的人體運動視頻捕捉三維關鍵點,計算人體動作微多普勒譜的仿真數據集。其次,使用毫米波被動感知平臺采集人體動作微多普勒譜的實測數據集。通過使用大量帶標簽的仿真數據進行動作識別模型的預訓練,再用少量無標簽的實測數據進行微調,獲得最終動作識別模型。實驗表明,預訓練的人體動作識別模型在 “仿真到真實” 推理中的準確率為 73%,而經過無監督遷移學習微調后,準確率提升至 93.75%。

任振裕;吉辰卿;余 潮;陳萬里;王 銳,南方科技大學電子與電氣工程系;深圳技術大學,202501