時間: 分類:推薦論文 瀏覽次數:
內容提要:我國城鎮登記失業率指標穩定在4%左右,難以較為準確反映就業動態;而勞動力調查樣本量有限,城鎮調查失業率對省以下各級行政區域代表性不足。本文將針對大數據的機器學習算法與針對傳統統計數據的核算思想結合起來,基于某四百萬人口城市2016—2018年的全樣本行政大數據,利用機器學習算法,對每個城鎮居民每個月的就業狀態進行預測,再利用統計核算方法,估計出該城市的失業率。在個人層面,本文的模型在樣本外測試集上的準確率達到96.7%。經過統計核算加總,本文估計的當地失業率在合理區間范圍內,并表現出明顯的周期性特征,對就業形勢動態變化的刻畫明顯優于當地一年發布一次的登記失業率數據。本文基于個人層面的預測結果,進一步探討了當地失業人口的性別與文化程度特征,以及再就業的時間規律。本文針對如何使用行政大數據輔助經濟決策提出了新的范式,對大數據時代如何理解經濟與制定政策具有參考意義。
關鍵詞:行政大數據;機器學習;統計核算;失業率
一、引言和文獻綜述
充分就業與經濟增長、物價穩定和國際收支平衡是宏觀經濟發展的四大目標。其中,就業是民生之本,是“六穩”“六保”之首。2018年以前,我國政府部門發布的失業率指標中最主要的是城鎮登記失業率,其與國際通行的失業率定義相差較大,并且數值長期穩定在4%左右,很難反映我國真實的失業水平(Feng等,2017)。2018年以來,國家統計局按月發布全國城鎮調查失業率,是失業統計數據發布的重大進步,彌補了長期以來我國四大宏觀經濟指標的缺失,數據得到了社會各界的普遍認可。但由于勞動力調查樣本量有限,城鎮調查失業率對省以下各級行政區域代表性不足①。2021年,全國勞動力調查根據第七次全國人口普查進行新一輪抽樣,適當擴大樣本量,以滿足城鎮調查失業率等主要指標數據對國家及分省(區、市)有較好代表性。
許多學者使用其他數據對我國勞動力市場狀況進行了估計。Giles等(2005)使用5個主要城市的住戶調查數據對我國1996—2002年的失業率進行了估算;Feng等(2017)使用城市住戶調查(UrbanHouseholdSurvey,UHS)數據對我國1988—2002年的失業率進行了計算。但由于我國具有代表性的勞動力調查較少,目前僅能回顧性計算部分年份的失業率數據,難以刻畫最近若干年尤其是進入新時代以來我國的失業率動態。
近年來,隨著大數據時代的到來,一些學者開始使用各種來源的旁證大數據構建指標,度量我國勞動力市場的運行動態。例如,使用互聯網招聘數據(中國人民大學中國就業研究所和智聯招聘,2019)、社交媒體數據(Bailliu等,2019)、網絡搜索數據(任澤平等,2019)等,基于非統計核算的方法構建經濟指標,可以實時反映勞動力整體以及細分市場的動態。但這些指標在核算意義上缺乏明確定義,依賴研究者的個人經驗,其科學性與可靠性受到質疑。
本文從以上問題出發,將針對大數據的機器學習算法與針對傳統統計數據的核算思想結合起來,使用某四百萬人口城市2016—2018年的全樣本行政大數據,構建基于行政大數據的高維個人特征,再使用機器學習算法,對每個城鎮居民每個月的就業、失業狀態進行預測,然后基于統計核算方法,估計出該城市的失業率。在已有的研究中,基于大數據的宏觀經濟研究主要使用旁證數據,如對GDP的分析(Giannone等,2008;徐康寧等,2015;Kapetanios和Papailias,2018;Yang等,2019)、對物價的分析(Cavallo和Rigobon,2016;姜婷鳳等,2020;Yang等,2020)、對勞動力市場的分析(Toole等,2015;D’Amuri和Marcucci,2017;Simonescu和Zimmermann,2017;Cajner等,2018;Moriwaki,2020);行政大數據作為最常用的旁證大數據之一,已有文獻展望了將其融入到政府統計工作和宏觀研究中的諸多可能性(程開明和莊燕杰,2014;趙彥云,2015;黃恒君,2019;Cajner等,2019)。
在對失業率的研究中,計算或估計失業率的方法主要有4種:一是基于大量統計調查與核算的官方計算方法(曾湘泉,2018),二是基于小規模調查數據的估算(Feng等,2017),三是使用與就業數據相關的宏觀指標構建向量自回歸(VAR)等模型估算(Chang等,2021),四是使用旁證大數據進行回歸估計(Bailliu等,2019)。本文在已有宏觀經濟大數據研究方法的基礎上,對使用大數據預測、分析、理解宏觀經濟動態貢獻了基于行政大數據與統計方法相結合的新案例,具有一定現實意義。在對失業率的估計中,本文所使用的方法與先前的方法均不相同,本文結合了針對大數據的機器學習算法與針對傳統統計數據的核算思想,基于個人樣本層面的機器學習模型輸出對整體失業率進行核算。
此外,本文對理解我國勞動力市場變化提出了新的視角,并發現我國結構性失業人群中,女性所占的比重明顯高于男性,這背后可能體現了勞動力市場中的性別歧視(遲巍,2008;Zhang等,2008;Kuhn和Shen,2013),對相關政策的制定有啟發意義。本文的結構如下:第二部分將介紹文章所使用的數據,如何基于這些數據構建個人層面的基本特征,以及如何構建模型響應變量標簽(失業/就業);第三部分對模型構建的過程進行詳細介紹,包括模型算法、平衡樣本構建和特征工程;第四部分介紹個人層面的模型結果,以及加總到城市層面的失業率估計結果,并對結果背后的機制進行分析;最后總結全文并提出未來的研究方向。
二、數據與描述性統計
(一)個人層面的全樣本行政數據
本文為了對個人層面每個月的狀態進行預測分析,使用了某四百萬人口城市全部戶籍人口和大部分外來常住人口在2016—2018年間的行政大數據。這一數據包括該市戶籍和常住人口的身份信息,戶籍住址信息,父母、子女、婚姻、出生死亡信息;全部的勞動合同備案①,社保的繳納、報銷、消費信息,入學信息,學生家庭學籍檔案信息。
另外,本文還使用該市包含個體戶在內的全部企業基本信息、組織職工信息以及企業為職工繳納社保的信息。該市戶籍與常住人口約400萬,其中城鎮常住居民約有240萬人,篩選出符合勞動力年齡、非重度殘疾、非在校學生的樣本,在結合勞動意愿②對樣本進行調整后,得到每月約142萬城鎮常住經濟活動人口,后續的建模分析將基于這142萬樣本進行。
(二)數據的預處理
1.響應變量的構造。
使用企業匹配到個人的勞動合同備案,工作單位為員工繳納五險一金記錄以及個體戶法人記錄,在當月有這些記錄中至少一條的樣本被標記為當月就業;使用失業保險領取記錄和教育局學籍檔案中的父母失業信息標記失業樣本,對于失業保險領取記錄,當月、下月或下下月有則標記為失業,學籍檔案的父母失業信息則只在該信息的登記時間標記為失業(一般為每年9月)。通過以上方法,得到了該城市部分樣本的就業/失業標簽,其中就業標簽每月約為40萬條,失業標簽每月約為7000條。顯然,這是一個非常不平衡的樣本。在后續建模的訓練集構造中,本文根據樣本的就業失業分布調整了樣本的平衡度,詳見第三部分第二節。
2.協變量的構造。
本人相關人口特征。本人相關特征包括性別、年齡、宗教信仰、文化程度、政治面貌、居住區劃、殘疾等級、是否問題少年、是否有犯罪記錄、是否涉毒、車輛總數、駕駛證扣分數、最近一次結婚距今時長③、最近一次離婚距今時長、當前婚姻狀態、首次結婚年齡、初次結婚距今時長、首次離婚距今時長、首次離婚時年齡、首次勞動合同登記距今時長、最近一次勞動合同失效距今時長等。親屬相關特征。
親屬相關特征包括子女個數、最年長子女年齡、最年長子女性別、最年長子女文化程度、最年輕子女年齡、最年輕子女性別、最年輕子女文化程度、父親年齡、父親文化程度、父親婚姻狀況、母親年齡、母親文化程度、母親婚姻狀況、配偶年齡、配偶車輛總數、配偶工作狀態、配偶最后一次統籌賬戶支付金額、配偶最后一次個人醫保支付金額等。
本人社保相關特征。社保五險一金相關原始特征包括公積金繳納總額、公積金最后繳納月份、公積金最后繳納次數、公積金支出總額、養老保險繳納總額、醫療保險繳納總額、失業保險繳納總額、工傷保險繳納總額、生育保險繳納總額、居民醫保保險繳納總額、養老保險最后繳納月份、醫療保險最后繳納月份、失業保險最后繳納月份、工傷保險最后繳納月份、生育保險最后繳納月份、居民醫保最后繳納月份、養老保險最后繳納次數、醫療保險最后繳納次數、失業保險最后繳納次數、工傷保險最后繳納次數、生育保險最后繳納次數、居民醫保最后繳納次數等。基于這些原始特征,本文進一步使用特征工程構造新特征,以挖掘社保繳納的狀態和歷史變化信息。
三、模型構建
(一)模型算法
在對就業/失業樣本進行建模時,本文使用了隨機森林、支持向量機、Lasso-Logit、KNN等多種方法(Hastie等,2009)。在各類方法中,隨機森林算法在交叉驗證中的表現最好,所以最終選擇隨機森林方法進行建模。隨機森林是Bagging的一個擴展算法(Breiman,2001)。
隨機森林算法使用決策樹作為基學習器,構建了Bagging集成,并進一步在決策樹的訓練過程中引入了隨機屬性選擇。在隨機森林中,對基學習器決策樹的每一個節點,先從該結點的特征集合中隨機選擇一部分特征子集,然后在特征子集中選擇一個最優屬性進行劃分,從而完成基學習器的構建。在使用隨機森林建模過程中,如果用同一個模型對所有樣本進行預測,基于五險一金繳費記錄構造的特征對模型的預測結果最為重要。然而在本文的數據中,有相當一部分樣本在五險一金繳費記錄方面特征缺失非常嚴重,導致這部分樣本使用整體模型的預測結果一直不變,預測準確率也較低。因此,本文將這部分樣本單獨分開進行建模。
具體來說,將全部樣本按照五險一金的歷史繳納種數拆分,將五險一金歷史繳納種數大于2的視為繳納較全,將小于等于2的視為繳納不全。對樣本進行分類后,使用隨機森林算法對兩類樣本分別進行建模和預測,再將兩部分結果合并,即得到了全部樣本的建模結果。針對五險一金繳納較全和繳納不全樣本構建隨機森林模型,模型參數如下。對于兩個模型,決策樹的個數均選擇300,損失函數使用Gini不純度,因為訓練集中就業樣本遠多于失業樣本,存在類別不平衡問題,所以本文在損失函數的計算中設置17∶1為就業樣本比失業樣本的權重,該權重是通過4折交叉驗證選擇的使得驗證集precision和recall最平衡的參數。
對于基學習器決策樹的最大深度,未設直接限制,而是使用節點分裂時的樣本最小值作為正則方法:對于決策樹節點分裂時節點中的樣本數最小值,設定為10,即只有決策樹節點中的樣本數量大于10,決策樹才會繼續分裂;對于每顆決策樹,使用Bootstrap方法從全部訓練樣本中選取1-1/e≈63.2%的樣本作為該基學習器決策樹的訓練數據;在決策樹每次分裂時。
在實際建模中,使用隨機森林算法構建模型,并輸出每個樣本每個月處于就業狀態的概率,其中繳納較全樣本的概率閾值為0.5,即高于或等于0.5判定為就業,低于0.5判定為失業;繳納不全模型所使用樣本受訓練集的就業和失業樣本比例影響較大,有標簽的就業樣本數量遠多于失業樣本數量,造成嚴重的類別不平衡問題,所以對于繳納不全樣本,本文設置概率閾值為0.8,即樣本就業概率高于或等于0.8判定為就業,低于0.8判定為失業。
(二)樣本構建
由于本文有標簽的樣本存在明顯的樣本不平衡問題,即樣本中的就業標簽遠多于失業標簽,為處理這一問題,在訓練集的構造上調整了就業樣本和失業樣本比例。此外,本文在建模時增大了失業樣本的權重,從而減輕了數據不平衡對算法精度的影響。在具體建模過程中,針對繳納較全的樣本,使用2017年1—12月與2016年9月繳納較全的有標簽樣本數據,隨機選取25%就業樣本與全部失業樣本作為訓練集。對于繳納不全的樣本,使用2017年1—12月與2016年9月全部有標簽樣本數據,并隨機選取25%就業樣本與全部失業樣本,作為訓練集。因為繳納不全樣本的五險一金相關特征十分稀疏,所以在建模時沒有使用五險一金特征。
四、模型結果與分析
(一)個人就業狀態預測結果
本文使用基于隨機森林算法的模型對該市全部樣本預測了其就業/失業狀態,展示了針對繳納較全樣本的模型和針對繳納不全樣本的模型在驗證集上的混淆矩陣(ConfusionMatrix)。混淆矩陣由TruePositive(TP)、FalseNegative(FN)、FalsePositive(FP)、TrueNegative(TN)組成,在個人層面就業狀態的預測建模中,分別代表預測為就業且實際為就業、預測為失業但實際為就業、預測為就業但實際為失業、預測為失業且實際為失業。
五、結論
本文將機器學習算法與統計核算思想結合起來,使用某四百萬人口城市2016—2018年的全樣本行政大數據,先利用機器學習算法,對每個城鎮居民每個月的就業狀態進行預測,再基于統計核算方法,估計出該城市的失業率,并對勞動力市場變化背后的原因進行了分析。
在個人層面,本文的模型在樣本外測試集上的準確率達到96.7%,平均F1值達到0.885。經過統計核算加總,估算的當地2016—2018年月度失業率始終處于與國際上正常的失業率水平一致的區間范圍內,并表現出明顯的周期性波動,對就業動態的刻畫明顯優于當地一年發布一次的登記失業率數據。除了進行加總分析之外,也從個體樣本的預測結果出發,理解勞動力市場變化背后的經濟學因素。
從對失業人口的動態追蹤來看,該城市大多數新增失業人口會在失業后兩個月內找到新工作,說明勞動力市場整體比較健康;從對失業人群的結構性特征分析來看,女性、中年勞動力以及初中及以下學歷人口的失業問題值得有關部門進行針對性的關注。總之,本文的研究對如何使用行政大數據輔助經濟決策提出了新的范式,對大數據時代如何理解經濟與制定政策具有參考意義。
參考文獻
[1]程開明,莊燕杰.大數據背景下的統計:第十七次全國統計科學討論會綜述[J].統計研究,2014,31(1):106-112.[2]遲巍.中國城市性別收入差距研究[J].統計研究,2008,25(8):54-58.
[3]黃恒君.政府統計生產體系中的大數據融入探討:基于數據源與數據質量的分析[J].統計研究,2019,36(7):3-12.
[4]姜婷鳳,湯珂,劉濤雄.基于在線大數據的中國商品價格粘性研究[J].經濟研究,2020(6):56-72.
[5]任澤平,熊柴,周哲.中國就業形勢報告[R/OL].
[6]徐康寧,陳豐龍,劉修巖.中國經濟增長的真實性:基于全球夜間燈光數據的檢驗[J].經濟研究,2015,50(9):17-29.
[7]曾湘泉.調查失業率統計是促進更高質量和更充分就業的科學舉措[EB/OL].
級別:北大核心,JST,CSCD,CSSCI,WJCI
ISSN:1002-2104
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:2045-2322
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:0284-1851
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:2352-4928
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:0169-4332
刊期:進入查看
格式:咨詢顧問
數據庫:SCI
ISSN:0960-7412
刊期:進入查看
格式:咨詢顧問