時(shí)間: 分類:經(jīng)濟(jì)論文 瀏覽次數(shù):
摘要:健康作為重要的人力資本,不僅是人們擁有美好生活的基礎(chǔ),更是一項(xiàng)基本的生活需求,對個(gè)人、家庭和社會(huì)的發(fā)展都具有十分重要的意義。因果推斷方法作為研究個(gè)體健康影響機(jī)制的重要手段,有助于促進(jìn)健康相關(guān)政策制定的科學(xué)化、合理化,為個(gè)體健康提供更為可靠的社會(huì)保障,對提高居民健康水平具有十分重要的社會(huì)意義。從個(gè)體健康研究中的常見問題、因果推斷理論框架、實(shí)證研究中的因果推斷三個(gè)方面對現(xiàn)有文獻(xiàn)進(jìn)行分析和評價(jià)。作為涵蓋范圍最廣泛的研究領(lǐng)域,個(gè)體健康水平受到社會(huì)資本、收入、教育、保險(xiǎn)、遷移、退休、工作等多類因素的影響,同時(shí),實(shí)證研究中主要存在測量偏誤、遺漏變量、互為因果、共同原因和選擇偏差五類問題,解決這些問題常用的因果推斷方法主要包括隨機(jī)控制實(shí)驗(yàn)、傾向得分匹配、工具變量法、雙重差分法、斷點(diǎn)回歸設(shè)計(jì)以及個(gè)體固定效應(yīng)模型。研究闡述了這些因果推斷模型的適用條件及優(yōu)缺點(diǎn),并對各類模型在個(gè)體健康實(shí)證研究中的應(yīng)用作了簡要的總結(jié)和分析。研究還有助于學(xué)者在個(gè)體健康研究領(lǐng)域中選擇合適的因果推斷方法,或進(jìn)一步綜合應(yīng)用已有的方法。隨著大數(shù)據(jù)技術(shù)的發(fā)展和對因果推斷方法的深入了解,未來應(yīng)加強(qiáng)機(jī)器學(xué)習(xí)和因果推斷方法的結(jié)合,豐富已有的因果推斷工具,保障研究結(jié)果的穩(wěn)健性。
關(guān)鍵詞:個(gè)體健康;內(nèi)生性;混雜因素;因果推斷
一、引言
健康不僅是人類的普遍愿望和基本需求,而且作為人力資本的重要組成部分,對個(gè)體、家庭和社會(huì)都會(huì)產(chǎn)生重要的影響。從個(gè)體角度來看,健康可以促進(jìn)教育水平的提高和社會(huì)資本的形成,從而影響就業(yè)狀態(tài)、就業(yè)類型,進(jìn)而影響就業(yè)收入和社會(huì)階層地位[1];從家庭角度來看,健康可以增加家庭的收入,減少醫(yī)療費(fèi)用的支出,促進(jìn)家庭幸福[2];從社會(huì)經(jīng)濟(jì)角度來看,健康有利于促進(jìn)勞動(dòng)力供給,延長就業(yè)者的工作年限,促進(jìn)勞動(dòng)生產(chǎn)率,從而促進(jìn)經(jīng)濟(jì)增長[3]。
正是由于健康的重要性,對健康的研究一直是學(xué)術(shù)界研究的熱點(diǎn),以“allintitle:health”作為搜索條件用谷歌學(xué)術(shù)進(jìn)行搜索,搜索結(jié)果達(dá)到142萬余條,再加上以各種疾病研究為論文標(biāo)題的文獻(xiàn)就更多。我們在WebofScience數(shù)據(jù)庫中在標(biāo)題、摘要、關(guān)鍵詞中搜索“causal&health”,然后再分別檢索各個(gè)因果推斷方法和健康(例如:“PropensityScore&health”),共得到了七萬余條檢索記錄,盡管其中可能有重復(fù)文獻(xiàn),但即使剔除這些文獻(xiàn)仍有大量檢索記錄,不難看出,因果推斷方法在健康領(lǐng)域得到了廣泛的應(yīng)用。
該領(lǐng)域的研究早在20世紀(jì)90年代就進(jìn)入了大眾視野,2010年前后得到了更多的關(guān)注,如今更是蓬勃發(fā)展,研究范圍也逐步從公共環(huán)境衛(wèi)生、臨床醫(yī)學(xué)、生物學(xué)等領(lǐng)域,開始擴(kuò)大至經(jīng)濟(jì)學(xué)、社會(huì)學(xué)的范疇,而影響個(gè)體健康的相關(guān)因素除了作為控制異質(zhì)性的個(gè)人人口學(xué)特征以外,還包括了教育、工作、收入和社會(huì)資本等個(gè)人因素,以及諸如遷移、退休和保險(xiǎn)等政策性因素。本文的研究就是從經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、人口學(xué)等領(lǐng)域入手,以期從多角度考慮各領(lǐng)域因素對個(gè)體健康的影響研究。盡管健康很重要,研究的成果又非常豐富,但是由于其內(nèi)在復(fù)雜性,健康研究仍然存在很多問題,主要表現(xiàn)在以下幾個(gè)方面:
一是被解釋變量—健康的測量誤差,很多研究采用自評健康作為研究對象,對健康狀態(tài)的回答主要根據(jù)個(gè)體主觀判斷,而個(gè)體由于認(rèn)知能力的差別,往往做不到完全理性,因此回答的結(jié)果和自己真實(shí)的健康狀況通常有一定的差別;二是遺漏變量的存在會(huì)對結(jié)果造成干擾,使得解釋變量的估計(jì)結(jié)果不準(zhǔn)確,例如在研究教育對健康的影響時(shí),由于無法準(zhǔn)確衡量身體稟賦這一不可觀測變量,回歸時(shí)往往遺漏該變量,從而過高估計(jì)了教育對健康的影響。
三是解釋變量和被解釋變量之間可能互為因果,比如工作時(shí)間過長會(huì)可能會(huì)導(dǎo)致健康狀況下降,反之良好的健康狀況又會(huì)讓勞動(dòng)者有更多的精力投身于工作[4];四是存在同時(shí)影響解釋變量和結(jié)果的第三方變量,比如教育水平越高相應(yīng)的收入水平也越高,健康狀況可能也越好,而收入對健康也有直接的影響,所以教育就是影響收入和健康的共同原因;五是樣本自選擇偏差,以遷移對健康的影響為例,遷移的個(gè)體往往比不遷移個(gè)體更健康,但是這個(gè)結(jié)果并不一定是遷移政策造成的,可能是遷移的個(gè)體的健康狀況往往更好,因?yàn)閭(gè)人健康狀況的好壞決定著其流動(dòng)機(jī)會(huì)和流動(dòng)決策。
為了解決上述健康研究中存在的問題,學(xué)者們采用了相應(yīng)的因果推斷方法作為分析工具。例如在研究退休對健康的因果效應(yīng)時(shí),可以工具變量的方法最大限度地減少對測量誤差的擔(dān)憂[5];與之類似,庫魯克利斯(Kourouklis)等人在研究收入對健康的影響時(shí),使用工具變量方法更好地處理了因?yàn)檫z漏變量所帶來的潛在偏差[6];阿塔萊(Atalay)和朱(Zhu)為解決雙向因果關(guān)系和測量誤差,使用固定效應(yīng)模型研究了妻子退休對丈夫心理健康的影響[7];龍(Long)等人利用傾向得分匹配與雙重差分相結(jié)合的方法對遷移和健康之間的因果關(guān)系展開了深入研究,解決了選擇偏差和互為因果帶來的問題[8]。這些方法已經(jīng)被廣泛應(yīng)用于個(gè)體健康研究,用來解決研究過程中產(chǎn)生的一系列問題。
當(dāng)然對同一類問題的研究根據(jù)數(shù)據(jù)特征和研究背景的不同,可以采用多種因果推斷的方法。個(gè)體健康研究文獻(xiàn)中,由于采用的研究方法存在缺陷,許多文獻(xiàn)所指出的影響因素與健康之間的關(guān)系是相關(guān)而非因果關(guān)系,而影響因素與健康之間的因果關(guān)系對政策的制定和實(shí)施至關(guān)重要,因此如何確定影響因素與健康之間的因果關(guān)系就顯得尤為重要。盡管現(xiàn)在有很多學(xué)者采用了因果推斷的方法來研究影響因素和健康之間的因果關(guān)系,也有一些學(xué)者從公共健康的角度對相關(guān)研究進(jìn)行歸納[9],但是鮮有從健康的社會(huì)經(jīng)濟(jì)決定方面對個(gè)體健康研究中的因果推斷問題進(jìn)行歸納、總結(jié)。
本文的目的在于通過識(shí)別個(gè)體健康研究中的常見問題,評價(jià)常用的因果推斷方法及其在個(gè)體健康研究中的應(yīng)用。由于現(xiàn)有個(gè)體健康研究的文獻(xiàn)過多,因此我們盡量選擇最新的文獻(xiàn)進(jìn)行分析,盡可能涵蓋多個(gè)方面,但研究文獻(xiàn)中未包括臨床醫(yī)學(xué)方面的研究。研究結(jié)果表明,個(gè)體健康研究中存在諸如測量偏誤、遺漏變量、互為因果、共同原因和選擇偏差等問題,為解決這些問題學(xué)者們采用了隨機(jī)控制實(shí)驗(yàn)、傾向得分匹配、工具變量、雙重差分、斷點(diǎn)回歸設(shè)計(jì)、固定效應(yīng)模型等方法,對包括社會(huì)資本、收入、教育、保險(xiǎn)、遷移、退休和工作等多類健康影響因素對健康的因果效應(yīng)進(jìn)行了深入研究。
二、個(gè)體健康研究的常見問題
個(gè)體健康研究中常見的問題主要來源于被解釋變量、解釋變量、解釋變量和被解釋變量關(guān)系、混雜因素以及研究樣本的選擇五個(gè)方面。在進(jìn)行健康研究時(shí),作為被解釋變量的健康除了可以采用發(fā)病率指數(shù)[10,11]、身體質(zhì)量指數(shù)BMI[12]和特定疾病診斷[13]等客觀指標(biāo)外,還會(huì)采用自評健康(Self-ReportedHealth,簡寫為SRH)[14]和心理健康[15]等主觀指標(biāo)。當(dāng)使用像SRH這樣有序的主觀測量作為客觀健康的代理時(shí),研究者必須假設(shè)SRH是對個(gè)體健康狀態(tài)的真實(shí)反映。無論我們是根據(jù)性別、種族、年齡還是社會(huì)經(jīng)濟(jì)地位來定義群體,當(dāng)不同的群體以不同的方式自我報(bào)告他們的健康狀況時(shí),都有可能會(huì)造成較大的測度誤差[16]。
SRH的測度誤差可能會(huì)對研究結(jié)果產(chǎn)生不利的影響,一方面是影響結(jié)果的可靠性,另一方面對自評健康的過高評價(jià)可能導(dǎo)致風(fēng)險(xiǎn)健康行為[17]。盡管對報(bào)告偏差和解釋存在擔(dān)憂,但是由于其易于收集的特點(diǎn),SRH仍然是研究人員最常用的健康衡量標(biāo)準(zhǔn),一些研究結(jié)果也表明SRH不僅與客觀健康指標(biāo)具有較強(qiáng)的相關(guān)性,而且確實(shí)可以預(yù)測未來的客觀健康狀況[16]。
雖然學(xué)術(shù)界對SRH是不是可靠的健康指標(biāo)并沒有達(dá)成一致,我們還是希望SRH越可靠越好,一個(gè)可選擇的方案是對自我健康狀況進(jìn)行多次評估。以中國健康與養(yǎng)老追蹤調(diào)查(CHARLS)數(shù)據(jù)為例,CHARLS問卷有兩次關(guān)于自評健康狀況的調(diào)查,第一次受訪者未經(jīng)任何準(zhǔn)備直接被詢問健康狀況,回答可能過于主觀,第二次則是在被詢問有關(guān)慢性病等客觀指標(biāo)的相關(guān)問題之后,一部分受訪者的自評健康水平發(fā)生了變化,所以受訪者第二次的自評答案更加真實(shí)可靠。
個(gè)體健康研究中解釋變量方面存在的問題主要是由遺漏變量所造成的。由于遺漏變量使得殘差項(xiàng)與解釋變量相關(guān),導(dǎo)致解釋變量的回歸系數(shù)是有偏的。但是在進(jìn)行計(jì)量分析時(shí),我們很難做到不遺漏變量,一方面我們很難判斷哪些變量要加入控制變量集,即使我們知道某個(gè)變量應(yīng)該加入控制變量中,實(shí)際上也可能無法測度(如天賦和能力),另一方面是可能存在未知的控制變量。以保險(xiǎn)和健康的關(guān)系為例,董(Dong)指出,保險(xiǎn)與健康之間存在一些不可觀察的變量,主要包括:①個(gè)人的健康意識(shí)。
個(gè)人的健康意識(shí)越強(qiáng),越可能擁有健康的生活方式,也越可能參加醫(yī)療保險(xiǎn)以預(yù)防和治療疾病;②個(gè)人的風(fēng)險(xiǎn)偏好。風(fēng)險(xiǎn)規(guī)避者往往傾向于參加醫(yī)療保險(xiǎn),同時(shí)更注重采取預(yù)防保健措施和避免危害健康的行為,這些無法度量的變量使得研究者很難建立起醫(yī)療保險(xiǎn)與健康狀況之間真正的因果關(guān)系[18]。被解釋變量與解釋變量之間可能會(huì)存在雙向因果關(guān)系。如果兩個(gè)變量互為因果,任何一方都可以作為對方的解釋變量,那么任何一個(gè)單方面的回歸都可能帶來內(nèi)生性問題。
許多健康的影響因素和健康之間存在雙向因果關(guān)系,例如收入與健康之間的關(guān)系、工作時(shí)長與健康之間的關(guān)系等。以收入與健康之間的關(guān)系為例加以說明,很多學(xué)者認(rèn)為較高的收入會(huì)帶來較高的健康水平,較好的健康也會(huì)使得收入增加,但這并不能說明二者之間的因果關(guān)系,要分析收入對健康的因果影響,一定要保證收入變量是外生的,但在實(shí)證研究中卻很難做到,一方面,可以有力預(yù)測收入的因素往往也直接影響健康,如教育水平、失業(yè)和工作經(jīng)驗(yàn);另一方面,存在不可觀測的因素,如遺傳、風(fēng)險(xiǎn)偏好和社會(huì)背景等,可能與收入和健康有關(guān)[19]。
為此諸多文獻(xiàn)已經(jīng)轉(zhuǎn)向使用各種類型的收入沖擊來估計(jì)收入對健康變動(dòng)的影響,例如有學(xué)者通過利用彩票中獎(jiǎng)金額的隨機(jī)變化來估計(jì)家庭收入對自我報(bào)告的健康狀況的因果影響,確實(shí)發(fā)現(xiàn)了收入和健康之間的因果關(guān)系[20]。與收入對健康的影響類似,健康對收入的影響也可能由于存在諸如教育、能力、工作經(jīng)驗(yàn)等混雜因素而嚴(yán)重偏離,那么什么樣的變量既與健康密切相關(guān),又是外生的呢?有些學(xué)者嘗試用和遺傳有關(guān)的變量作為工具變量來分析健康對收入的影響,采用孟德爾隨機(jī)化研究分析表明健康和收入之間確實(shí)存在因果關(guān)系[1]。
個(gè)體健康研究中還有一個(gè)常見問題是存在混雜因素同時(shí)影響解釋變量(也叫處理或暴露)和結(jié)果,因此也被稱為處理和結(jié)果的共同原因,混雜因素可能會(huì)導(dǎo)致解釋變量對健康的有偏估計(jì)。例如前面分析收入對健康的因果關(guān)系時(shí),教育往往就是一個(gè)混雜因素,人力資本理論認(rèn)為教育會(huì)對收入產(chǎn)生顯著的正向影響,受教育水平越高的個(gè)體相應(yīng)的收入水平也越高;很多實(shí)證分析也表明教育和健康之間有顯著的因果關(guān)系[21,22],所以教育水平會(huì)同時(shí)影響收入和健康的變動(dòng)。而減少混雜的策略則是側(cè)重于打破混雜因素與結(jié)果的關(guān)聯(lián)(如回歸調(diào)整);打破混雜因素與處理的關(guān)聯(lián)(例如,基于傾向分?jǐn)?shù)的匹配、調(diào)整或加權(quán));或者同時(shí)打破與處理和結(jié)果的關(guān)聯(lián)(例如,雙重穩(wěn)健方法)[9]。樣本的自選擇偏差在個(gè)體健康研究中也頗為常見。
在自選擇問題中,被解釋變量在每個(gè)子樣本中都可觀測,但此時(shí)個(gè)體的選擇行為存在非隨機(jī)性。例如是否選擇遷移,是否選擇購買醫(yī)療保險(xiǎn),或者決定是否繼續(xù)接受高等教育等行為都是內(nèi)生的,因?yàn)椴豢捎^測的因素(如個(gè)人意識(shí)偏好,天賦智力等)會(huì)影響人們的決定,這是自我選擇的結(jié)果。格拉夫娃(Grafova)等人重點(diǎn)關(guān)注了鄰里環(huán)境的自我選擇對健康影響的估計(jì)產(chǎn)生向下偏差的問題,具體來說,健康每況愈下的老人更有可能會(huì)選擇改變他們的生活方式,改善生活環(huán)境,以便為自己的健康投資,這就可能會(huì)導(dǎo)致鄰里環(huán)境對健康影響的結(jié)果偏差[23]。
學(xué)者們采用了很多方法來解決個(gè)體健康研究中存在的上述問題,這些方法有些是因果推斷的方法,有些是常用的計(jì)量經(jīng)濟(jì)學(xué)方法[24,25]。我們歸納了個(gè)體健康研究中的諸多文獻(xiàn),包括準(zhǔn)自然實(shí)驗(yàn)[26]以及混雜控制[9]等方面,還有一些雖然研究對象不是個(gè)體健康,但是有關(guān)內(nèi)生性的文獻(xiàn)[27],得到個(gè)體健康研究中常見問題及解決辦法的綜合圖。
上述分析表明,個(gè)體健康研究中存在的問題往往并不是單一的,可能涉及上述問題中的多個(gè),各類問題綜合作用的結(jié)果使得探究個(gè)體健康研究中的因果關(guān)系變得尤為困難。對個(gè)體健康研究中出現(xiàn)的同一問題,可以采用不同的因果推斷方法,那么如何根據(jù)研究主題、背景和數(shù)據(jù)等條件選擇合適的因果推斷方法,也是研究者亟待解決的問題。因此有必要對個(gè)體健康研究中常用的因果推斷方法進(jìn)行歸納、總結(jié),對未來研究提供有益的幫助。
三、因果推斷方法
因果推斷方法在經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)、統(tǒng)計(jì)學(xué)、流行病學(xué)和計(jì)算機(jī)科學(xué)中均得到了廣泛應(yīng)用,很多學(xué)者致力于探討變量之間的因果關(guān)系并估計(jì)因果效應(yīng),以期根據(jù)因果關(guān)系給出合理的政策建議。在本節(jié)中,作者主要介紹了潛在結(jié)果模型和因果效應(yīng),以便為后續(xù)分析個(gè)體健康研究中的因果推斷建立更好的理論基礎(chǔ)。
四、個(gè)體健康研究中的準(zhǔn)自然實(shí)驗(yàn)評估方法與應(yīng)用
近年來,準(zhǔn)自然實(shí)驗(yàn)在社會(huì)科學(xué)研究中具有越來越重要的地位[26]。相較于隨機(jī)實(shí)驗(yàn)而言,其在實(shí)驗(yàn)倫理上具有極為重要的優(yōu)勢,如在研究吸煙對健康影響的過程中,實(shí)驗(yàn)者在明知吸煙行為的成癮性與危害性的條件下,強(qiáng)行從樣本中選取個(gè)體要求其接受處理(即吸煙)是不道德的;但可以選取準(zhǔn)自然實(shí)驗(yàn)的方式,從社會(huì)中選取吸煙者群體與不吸煙者群體,研究其健康差異,但要考慮到兩個(gè)群體間是否具有樣本自選擇問題,如是否較低健康水平的群體更傾向于不吸煙以維護(hù)自身健康。準(zhǔn)自然實(shí)驗(yàn)的常用評估方法及其在健康領(lǐng)域的經(jīng)典研究總結(jié)如下。
1.傾向得分匹配早在1983年羅森鮑姆(Rosenbaum)和魯賓(Rubin)就提出了傾向得分匹配(PropensityScoreMethods,PSM)方法,作為一種近似實(shí)驗(yàn)的方法,PSM常被用于克服橫截面人群研究中樣本的非隨機(jī)性質(zhì)[44],尤其是在臨床生物醫(yī)學(xué)領(lǐng)域應(yīng)用更為廣泛[45]。
它的基本原理是,對于接受處理的個(gè)體,找到可觀測相同特征的未被處理的個(gè)體,通過逆概率加權(quán)[46–49]、偏差矯正匹配[50]等方法,比較他們的觀測結(jié)果差異,達(dá)到估計(jì)處理效應(yīng)的目的。使用PSM有一個(gè)前提的關(guān)鍵限制,即“強(qiáng)可忽略性處理分配”,該方法假定,控制協(xié)變量之后,具有相同特征的個(gè)體對政策具有相同的反應(yīng)。換句話說,不可觀測因素不影響個(gè)體是否接受政策干預(yù)的決策,只有在估計(jì)傾向得分的回歸方程中包含的可觀測變量才能影響被暴露于政策的概率。如果存在樣本選擇偏差,一般可以采用PSM方法來估計(jì)因果效應(yīng),該方法廣泛應(yīng)用于研究遷移[51]、退休[52]、收入[53]、低保參與[25]、工作場所的健康促進(jìn)措施[54]等多方面因素對健康的影響。
PSM估計(jì)因果效應(yīng)分為三個(gè)步驟:首先用所有匹配的協(xié)變量估計(jì)處理變量的傾向得分,估計(jì)方法為二元或多元Logit回歸;然后根據(jù)得分進(jìn)行匹配;最后根據(jù)研究目的計(jì)算平均處理效應(yīng),或者對剔除未匹配樣本后的新數(shù)據(jù)集進(jìn)行回歸分析。我們以遷移和低保參與對健康的影響為例加以說明。王(Wang)和胡(Hu)以遷移作為處理變量,采用二元Logit回歸計(jì)算傾向得分,然后利用局部線性回歸匹配方法進(jìn)行傾向得分匹配,同時(shí)使用近鄰匹配和半徑匹配作為穩(wěn)健性檢驗(yàn),最終的平均處理效應(yīng)表明遷移者的健康狀況要優(yōu)于未遷移者[51]。
霍(Huo)等人采用PSM方法,研究了低保參與和青少年心理健康之間的因果關(guān)系,處理變量是享受低保的狀態(tài):進(jìn)入、離開和保持,研究分為三個(gè)階段,首先,使用青少年的個(gè)人和家庭等特征以及心理健康得分,采用多元Logit模型來預(yù)測獲得相應(yīng)福利狀態(tài)的概率,即傾向得分;然后使用半徑匹配方法將每一個(gè)在特定處理組的青少年與未接受低保但有相同傾向分?jǐn)?shù)的人進(jìn)行匹配;最后是使用PSM過程中產(chǎn)生的權(quán)重回歸調(diào)整模型來估計(jì)各種低保參與狀態(tài)對心理健康的可能影響,這樣的處理過程很好地解決了選擇偏差問題[25]。但是由于PSM沒有處理未觀察到的混雜因素,該方法有可能導(dǎo)致有偏差的效果估計(jì)。與此同時(shí),如果在使用匹配方法時(shí)把樣本局限在共同支撐域范圍,匹配方法得到的結(jié)論僅適用于共同支撐域范圍里的樣本,而不適用于所有樣本。如果共同支撐域樣本比較小,那么我們得到的結(jié)論普遍性就相對較差。
五、未來研究的方向
21世紀(jì)以來,以“實(shí)驗(yàn)”思想為基礎(chǔ)的定量實(shí)證分析方法已經(jīng)成為健康領(lǐng)域定量研究的前沿?zé)狳c(diǎn)。不管是建立有針對性設(shè)計(jì)的“隨機(jī)控制實(shí)驗(yàn)”,還是對基于政策變動(dòng)或外生事件所產(chǎn)生的“準(zhǔn)自然實(shí)驗(yàn)”進(jìn)行的研究,其共同目標(biāo)都是對健康相關(guān)政策的有效性和科學(xué)性做出準(zhǔn)確的評估,這一類典型的因果推斷研究方法也進(jìn)一步證實(shí)了諸多影響因素與個(gè)體健康之間的因果關(guān)系而非簡單的相關(guān)關(guān)系。
從WebofScience的檢索結(jié)果和我們的研究分析中可以看出,因果推斷方法在現(xiàn)今及未來較長的時(shí)間內(nèi),仍然是主流的健康政策評估方法,這一點(diǎn)也得到了眾多學(xué)者的肯定。盡管因果推斷方法在個(gè)體健康研究中得到了廣泛的應(yīng)用,但是該方法在實(shí)際應(yīng)用階段仍然存在一定的局限性,主要表現(xiàn)在兩個(gè)方面:
一方面是由樣本數(shù)據(jù)的質(zhì)量和數(shù)量帶來的可靠性和外部有效性問題,無論是隨機(jī)控制實(shí)驗(yàn),還是準(zhǔn)自然實(shí)驗(yàn),都需要滿足一定的前提條件,例如樣本的隨機(jī)分配、平行趨勢假設(shè)、共同支撐假設(shè)等,但是現(xiàn)有的數(shù)據(jù)未必能滿足這些條件,即使變量之間存在因果關(guān)系,也未必能得到驗(yàn)證,或者盡管我們可以在樣本范圍內(nèi)得到明確的因果關(guān)系,也通過了異質(zhì)性和穩(wěn)健性檢驗(yàn),由于樣本數(shù)量較小,估計(jì)結(jié)果的外部有效性也會(huì)令人質(zhì)疑;另一方面是分析過程中存在的問題,在實(shí)證研究中,我們通常是假設(shè)某一因素和健康之間存在因果關(guān)系,然后使用因果推斷的方法進(jìn)行驗(yàn)證,這些因果關(guān)系可能來源于學(xué)者們已有的研究經(jīng)驗(yàn),然而可能還存在一些我們經(jīng)驗(yàn)之外的因果關(guān)系,也就是說,因果推斷方法更側(cè)重于驗(yàn)證因果關(guān)系。
因此,未來研究中我們首先要著重關(guān)注數(shù)據(jù)的質(zhì)量和數(shù)量,為將來的研究奠定堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),然后采用機(jī)器學(xué)習(xí)與因果推斷相結(jié)合的方法,解決傳統(tǒng)因果推斷中存在的問題,F(xiàn)有的研究一般基于調(diào)查數(shù)據(jù),樣本量往往只有幾千或者幾萬,十幾萬的數(shù)據(jù)集都比較少見,但是一個(gè)政策可能會(huì)涉及幾千萬,甚至上億人,通過少量樣本推斷出的因果效應(yīng)在整個(gè)受眾群體上未必是成立的,也就是說很難滿足外部有效性。
隨著信息技術(shù)和大數(shù)據(jù)技術(shù)的發(fā)展,居民健康相關(guān)的信息正以前所未有的速度產(chǎn)生和儲(chǔ)存,這些信息可能來自醫(yī)療、社會(huì)保險(xiǎn)、就業(yè)和收入、稅收、社交數(shù)據(jù)等,還有政府和機(jī)構(gòu)組織的各種調(diào)查和普查數(shù)據(jù),每類數(shù)據(jù)只包含健康及健康影響因素的某一局部方面,例如稅務(wù)局掌控著每個(gè)納稅人的納稅記錄,是研究個(gè)人所得稅改革對健康影響的理想的解釋變量來源,但是納稅人的健康數(shù)據(jù)由醫(yī)療部門管理,這兩者沒有交集,因此不能合并為一個(gè)可供研究的數(shù)據(jù)集,只能通過問卷調(diào)查進(jìn)行分析,使研究的可靠性大大降低。由于這些數(shù)據(jù)分別被不同的機(jī)構(gòu)儲(chǔ)存,各機(jī)構(gòu)之間的信息相互獨(dú)立,沒有形成有效的數(shù)據(jù)共享機(jī)制,使得不同的人只能看到健康及其影響因素的某個(gè)側(cè)面,難以對健康及健康相關(guān)因素進(jìn)行全局把握。
為此,政府應(yīng)該在保障居民個(gè)人信息安全性、私密性的前提下,合理整合居民健康及影響因素的相關(guān)數(shù)據(jù),形成健康大數(shù)據(jù),為科學(xué)研究提供數(shù)據(jù)支持,通過研究影響健康的諸多因素和健康之間的因果效應(yīng),為政府出臺(tái)科學(xué)的健康政策提供依據(jù)。如果有健康大數(shù)據(jù)作為數(shù)據(jù)支持,那么很多機(jī)器學(xué)習(xí)的分析方法就可以應(yīng)用于個(gè)體健康研究中的因果推斷。不同于傳統(tǒng)因果推斷方法需要基于反事實(shí)的潛在結(jié)果來定義因果關(guān)系,機(jī)器學(xué)習(xí)以數(shù)據(jù)為基礎(chǔ),通過精準(zhǔn)的預(yù)測或干預(yù),將“非隨機(jī)化”的觀測樣本盡可能向“隨機(jī)化”實(shí)驗(yàn)靠攏,由此可以從傳統(tǒng)數(shù)據(jù)中發(fā)現(xiàn)不易察覺的因果關(guān)系[106]。
其次,機(jī)器學(xué)習(xí)還具有優(yōu)秀的樣本和變量選擇能力,例如:①在處理組和對照組之間建立平衡,包括三種方法,傾向得分匹配方法平衡處理組和對照組之間的分布混雜;逆概率加權(quán),即直接優(yōu)化觀察值的權(quán)重,從而導(dǎo)致處理組和對照組的協(xié)變量的平均值相同[107];直接生成處理組和對照組,并使其協(xié)變量自動(dòng)平衡,算法包括“遺傳匹配”算法[108]、和整數(shù)規(guī)劃優(yōu)化算法[109,110];②評估所謂的干擾模型(如傾向得分,或結(jié)果的條件期望),用機(jī)器學(xué)習(xí)方法可以分別估計(jì)傾向得分[111]或潛在結(jié)果[112],還可以采用雙穩(wěn)健方法把條件結(jié)果期望的估計(jì)與傾向得分的估計(jì)相結(jié)合[113],以及將條件結(jié)果期望的估計(jì)與協(xié)變量平衡相結(jié)合的方法[114];③在具有大量協(xié)變量的情況下使用機(jī)器學(xué)習(xí)進(jìn)行變量選擇,貝洛尼(Belloni)等人提出了一種提供原則性變量選擇的解決方案—“雙重套索”,同時(shí)考慮了協(xié)變量結(jié)果和協(xié)變量處理分配關(guān)聯(lián)[115]。除此之外,還可以利用機(jī)器學(xué)習(xí)交叉驗(yàn)證的思想,將數(shù)據(jù)集分為訓(xùn)練集和測試集,在訓(xùn)練集中使用傳統(tǒng)因果推斷方法識(shí)別因果效應(yīng),然后在測試集中進(jìn)行多次重復(fù)測試,進(jìn)一步驗(yàn)證識(shí)別結(jié)果的外部有效應(yīng)。
六、結(jié)論
本文以個(gè)體健康研究為主題,通過對已有文獻(xiàn)的分析和總結(jié),發(fā)現(xiàn)個(gè)體健康研究中存在著測量偏誤、遺漏變量、互為因果、共同原因和選擇偏差等諸多問題,隨機(jī)控制實(shí)驗(yàn)、傾向得分匹配、工具變量、雙重差分、斷點(diǎn)回歸設(shè)計(jì)、固定效應(yīng)模型等因果推斷方法,在社會(huì)資本、收入、教育、保險(xiǎn)、遷移、退休、工作等因素對個(gè)體健康的因果效應(yīng)研究中均得到了廣泛的應(yīng)用,每一種方法都有其優(yōu)缺點(diǎn),在實(shí)證研究中應(yīng)根據(jù)研究主題和應(yīng)用條件進(jìn)行合理選擇,有時(shí)需要綜合應(yīng)用多種因果推斷方法。
我們的研究為健康政策制定者提供了更加科學(xué)合理的決策依據(jù),對于提高居民健康水平具有十分重要的社會(huì)意義,還有助于研究者在個(gè)體健康研究領(lǐng)域中選擇合適的因果推斷方法,或綜合應(yīng)用已有的方法。隨著大數(shù)據(jù)技術(shù)的發(fā)展,在未來的研究中,應(yīng)加強(qiáng)機(jī)器學(xué)習(xí)和因果推斷方法的結(jié)合,豐富已有的因果推斷工具,保障研究結(jié)果的穩(wěn)健性。
參考文獻(xiàn):
[1]HARRISONS,DAVIESAR,DICKSONM.Thecausaleffectsofhealthconditionsandriskfactorsonsocialandsocioeconomicoutcomes:MendelianrandomizationinUKBiobank[J].InternationalJournalofEpidemiology,OxfordUniversityPress,2020,49(5):1661–1681.
[2]LAMUAN,OLSENJA.Yes,healthisimportant,butasmuchforitsimportanceviasociallife:Thedirectandindirecteffectsofhealthonsubjectivewell-beinginchronicallyillindividuals[J].HealthEconomics(UnitedKingdom),JohnWileyandSonsLtd,2018,27(1):209–222
作者:任國強(qiáng)1,王于丹1,周云波2
級別:北大核心,CSSCI,AMI擴(kuò)展
ISSN:1002-6487
刊期:進(jìn)入查看
格式:咨詢顧問
級別:北大核心,JST,CSSCI,WJCI,AMI權(quán)威
ISSN:1002-4565
刊期:進(jìn)入查看
格式:咨詢顧問
級別:北大核心,JST,CSCD,CSSCI,WJCI
ISSN:1002-2104
刊期:進(jìn)入查看
格式:咨詢顧問
級別:北大核心,CSSCI,AMI權(quán)威,社科基金資助期刊,
ISSN:1003-1707
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2045-2322
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0284-1851
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:2352-4928
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0169-4332
刊期:進(jìn)入查看
格式:咨詢顧問
數(shù)據(jù)庫:SCI
ISSN:0960-7412
刊期:進(jìn)入查看
格式:咨詢顧問