摘要:復制研究是將原始研究在具有差異性的情境中進行復制的科學研究方法,能加強理論的外部效度,使理論得到泛化和發展,是科學知識前進的核心動力。然而,在公共管理學科中,復制實驗仍不發達,尤其缺少過程規約與評價指標。本研究基于華樂勤等人在 2018 年發起的復制研究 “七個決策點” 理論框架,開發出量化編碼薄,對公共管理學科中的 17 篇復制實驗進行系統回顧與討論,并解釋如何穩健有效地進行復制實驗。研究發現,現有復制實驗在內部效度、外部效度、建構效度,復制具體方法和實驗基本規約三大方面均有欠缺。基于本次編碼實踐和文獻回顧,本文提出了可供未來學界參考的復制實驗議程:其一,將產生并發展于西方社會與文化背景下的管理學理論假說復制于中國情景下;其二,開展比較復制實驗,以期加強或證偽理論、識別理論邊界條件,推進理論的泛化。本研究為公共管理學科中的復制實驗提供翔實的操作步驟,以期與同仁共同提高復制實驗研究的科學屬性。
">時間:
一、前言
科學家將復制研究視為推動科學進步的核心手段。比如,華樂勤等人認為,在差異化的場景中開展復制研究有助于建立知識的外部效度,從而論證研究結果是否具備普世價值。吉爾克等人進一步將復制研究的意義概括為三方面:首先,復制研究有助于推廣早期研究結果并論證其普遍性;其次,復制研究有助于減少統計中 “一類錯誤” 發生的概率;最后,復制研究推動了對不同 “場景” 的分析。盡管復制研究是一種重要的科學方法,但復制實驗在公共管理學科中尚未得到充分發展,加強復制研究迫在眉睫。基于此,本文建立了復制實驗的具體操作步驟和評價指標,并對已有復制實驗進行系統性分類評價,期望為使用復制實驗方法的科研人員提供操作指南,以加強公共管理學科中復制實驗方法的規范性,共同推動行為公共管理學科的進步。
本研究的開展基于雙重理論動機:(1) 公共管理學是一門設計科學,對公共管理研究的復制是檢驗理論假設和實證結果的重要方法,但迄今為止,公共管理學科對復制研究的關注和討論還比較匱乏;(2) 國內外零星的復制研究尚未對經典實驗的可復制性和復制實驗的有效性制定標準和操作規范。基于此,我們量化了華樂勤等人提出的公共管理學科復制實驗的理論,對公共管理學科中的現有復制實驗進行了系統分類探討,以期構建科學透明的復制實驗程序和評價標準。本研究的文獻數據收集和編碼步驟如下:
第一,從科學網科研搜索引擎中識別目標文章,建立目標文獻數據庫。首先,分別使用 “replicat*” 和 “replication” 作為主題詞搜索 “公共管理” 類別下的文章,識別出 161 項研究;其次,對 161 項研究進行文本評估,排除非實驗的復制研究,最終排除了 145 項;隨后在谷歌學術數據庫中進行補充搜索,作為對科學網文獻選擇的穩健性檢驗,最終確定了 17 項英文復制實驗研究,并形成本文目標文獻數據庫。
第二,借鑒華樂勤等人提出的 “七個決策點” 復制理論框架,開發了由 7 個主類別構成的量化編碼簿:可復制性、內部效度、統計效力、情景選擇、邊界條件、建構效度,以及實證結果的比較。此外,根據實驗研究的基本操作規范,補充三個類別以進一步檢查復制實驗的倫理與透明度,涵蓋倫理審查、前導實驗以及預注冊,最終構建了 26 個子類別的評價指標。
作者中的兩位對 17 項英文研究進行了雙盲編碼,基于編碼結果,討論了每篇復制實驗中原始實驗的可復制性,復制實驗自身的有效性和穩健性,最后匯總并討論了復制實驗中的常見偏誤和現有缺憾,明確提出了復制實驗中的步驟和策略。
在接下來的章節中,將在第二部分介紹文獻數據庫的建立過程;在第三部分說明編碼簿的開發與擬定過程;在第四部分逐條對比和評估 17 項復制實驗;在第五部分總結現有復制實驗的偏誤;最后提出復制實驗新議程。
二、建立文獻數據庫
在研究起步時,中文的公共管理學學界尚未出現復制實驗的概念,因此本研究所涵蓋的實證文獻均來自英文數據庫。鑒于科學網包含社會科學引文索引期刊的完整列表,結合前輩同仁綜述類研究的數據搜索經驗,以科學網為主要搜索引擎查找復制實驗文獻,將本研究文獻數據庫的搜索過程報告如圖 1 所示。
首先,以關鍵字 “replica*” 來識別科學網中 “公共管理” 類別下的文章,共獲得 59 篇英文研究;其次,以 “復制”(replication) 主題來搜索 “公共管理” 類別下的文章,共獲得 102 篇英文研究。通過全文評估這兩個集合,排除了 144 條記錄,這其中包含復制研究的理論和評論論文,以及復制調查研究。此外,在谷歌學術搜索引擎中,以 “replica *” 和 “experiment” 為關鍵詞在公開資源中進行補充搜索,識別了 80 項研究,在核查后,確定并未發現新的研究,該補充搜索結果可以作為科學網中搜索到文獻的穩健性檢查。其后于 2023 年 11 月,根據審稿人建議,對公共政策研究進行了一次補充搜索以后三位作者獨立深讀和檢驗,證明無所遺漏。基于上述步驟,最終將 17 篇英文文獻納入本項研究。
從表 1 可以明悉現有復制實驗的三大特征:(1) 外國學者對復制實驗更加關注,代表學者相對集中,中國學者實踐較少;(2) 發表復制實驗文章的期刊相對集中,以《公共管理評論》(PMR) 為代表期刊;(3) 復制實驗考查的話題多基于公民與公共組織、公民與政府互動的經典理論和假說產生。
將 17 篇復制實驗的發表時間分布繪制如圖 2 所示,公共管理學科的復制實驗最早出現在 2015 年,并隨時間呈現波動趨勢,發表數量在 2017 年達到頂峰,這是由于 PMR 期刊在 2017 年發起了一個有關復制實驗的專刊 (第 19 卷第 9 期),因此當年發表數量多達 6 篇,在 2018—2020 年,復制實驗的數量波動在 1—2 篇,并在 2021 年增加為 4 篇。
將公共管理復制實驗的發表趨勢與公共管理實驗的發表趨勢進行對比,直觀可見:復制實驗起源較晚,排除專刊這一特殊數據來源,相關研究數量較為平緩,于 2019 年之后呈現逐步上升趨勢;實驗研究則在 1978—2011 年處于穩定狀態,在 2011 年之后開始激增,年發表數量從 2 篇左右增長至 65 篇左右,實驗研究在激增前經歷了長達 30 余年的醞釀期,或能夠為預測復制實驗的發展趨勢提供參考。
從復制實驗的發表期刊來看,17 篇研究集中分布于 6 本期刊,其中 PMR 排名第一,發表論文數量為 10 篇,均來自復制實驗專刊;《公共行政評論》(PAR) 排名第二,發表論文數量為 4 篇;《公共行政》(PA)、《國際公共管理期刊》(IPMJ)、《公共行政研究和理論期刊》(JPART) 與《公共績效和管理評論》(PP&MR) 均發表 1 篇。
三、編碼簿的開發
我們使用華樂勤等人發起的 “七個決策點” 理論框架來開發本研究的編碼簿,選擇 “七個決策點” 理論框架為分析基礎的原因有二:其一,“七個決策點” 理論框架完整性較高,該框架包含復制研究的計劃、實施和結果匯報全過程,能夠為分析復制研究提供完整流程標準;其二,“七個決策點” 理論框架具有學科領域內的開創貢獻,誠如華樂勤等學者在論文中提到的,“我們為復制過程提供了一個概覽:將這些內容精粹為七個決策點,為在公共管理領域設計和開展復制研究提供一個最佳實踐的行動集”,對最佳實踐的總結能夠為分辨復制研究的優劣提供標準。
華樂勤等學者在 2018 年提出的 “七個決策點” 理論框架回應了復制理論的欠缺,“七個決策點” 理論框架旨在對公共管理領域中的復制研究提出科學合法的理論,使之成為規范科學進程中的一部分,而本研究則對 “七個決策點” 理論框架進行概念化,制作規范化的編碼簿,形成 “復制操作指南”。首先,一級編碼分為八大類:(1) 可復制性;(2) 內部效度;(3) 統計效力;(4) 情景選擇;(5) 邊界條件;(6) 建構效度,以及 (7) 實證結果的比較;此外,根據實驗研究的性質,添加了三個補充編碼來進一步檢查 (8) 實驗復制的基本要素,包括是否進行倫理審批、前導試驗和實驗預注冊,我們隨后基于 8 個一級編碼和 26 個二級編碼評估了復制實驗研究,其中有 8 個 a/b 雙向指標:分別在原始研究 (a) 和復制研究 (b) 中討論相同的問題,因為該問題是否在原始研究中得到披露或討論將直接影響復制研究的科學性和有效性。
在正式編碼前,兩位作者多次討論并確定了編碼方案,這 17 篇文章由兩位作者獨立編碼,在分別進行初次編碼后,兩套編碼的一致性達到 86%,優于 75% 的一致性要求,在編碼結束后,三位作者就不一致的編碼進行了焦點討論,并最終確定了編碼結果。
四、對 17 項復制實驗的評估與討論
響應學界對追求 “足夠好” 的復制研究的呼吁,我們采用基于 “七個決策點” 理論框架開發的編碼簿,對 17 篇公共管理領域的復制實驗進行逐一編碼和評估。
(一)決策點 1:可復制性
華樂勤等人明確指出:復制實驗的第一步是確定要復制的原始實驗是否具備可復制性,如果原始研究的資料難以獲得或來源不足,則可能無法開展復制研究,華樂勤等學者列出了開展復制研究所需的必要信息,包括:參與者招募、說明、測量、實驗程序和數據分析方法,一般來說,有關原始材料的信息可從原始研究的作者處獲得,如果有學者就研究資料的來源咨詢原始研究的作者,原始研究的作者有必要考慮是否加盟復制實驗,事實上,復制實驗中是否包含原始研究的作者具有爭議,一方面,復制研究中有原始團隊成員可以帶來好處:有助于獲得有關原始研究的詳細信息;另一方面,不包括原作者能確保復制中的發現是客觀和公正的,教育學和心理學的復制研究結果顯示:讓原作者參與復制研究會增加與原始文章相似結果的可能性,簡而言之,決策點 1 強調原始實驗的資料不僅應該 “可得”,而且應該 “充足”。
基于決策點 1,我們構建了如下 6 組二級編碼來測量復制實驗的可行性:
1a. 原始研究的假設提出:在進行編碼時,如果復制研究提到原始研究的理論假設或者研究問題時,編碼為 1,否則為 0;
1b. 復制研究的假設提出:采用與 1a 相同的標準來識別復制研究是否明確提出了研究假設或者給出研究問題,若復制研究明確地說明了理論假設或者研究問題,編碼為 1,否則為 0;
2. 實驗方案:實驗方案是說明實驗的設置過程和實施程序,是生成實驗結果的重要部分,如果復制研究詳細描述了實驗程序,編碼為 1,否則為 0;
3a. 原始研究的研究材料:如果原始研究提供了問卷材料,編碼為 1,否則為 0;
3b. 復制研究的研究材料:如果復制研究提供了問卷材料,編碼為 1,否則為 0;
4. 數據描述:如果復制研究對自身收回的數據進行了描述性分析,編碼為 1,否則為 0;
5a. 原始研究的數據方法:如果復制研究羅列了原始研究的數據模型,編碼為 1,否則為 0;
5b. 復制研究的數據方法:如果復制研究羅列了自身的數據模型,編碼為 1,否則為 0;
6a. 共同作者:如果復制研究與原始研究有相同作者,編碼為 1,否則為 0;
6b. 共同作者數量:如果 6a 編碼為 1,記錄共同作者的具體數量。
17 項復制研究均包括以下四項信息:復制研究的假設、實驗方案、數據描述和復制研究的統計方法,事實上,這些是定量研究所需的基本要素,此外,17 項研究均提到了原始研究的假設或研究問題,多數原始研究的問卷資料的可得性也在復制研究中被提及 (占比 70.59%),與復制研究自身問卷資料的公開性 (占比 88.24%) 達到 4∶5 的相對比例,因此,基本可以判斷絕大多數原始研究的問卷資料可以被復制研究者獲取,實驗資料的公開性和透明度表現良好。
不符合預期的是,原始研究的統計方法并不被復制人員關注:17 項研究中只有 58.82% 的復制研究討論了原始研究的統計方法或模型,一般來說,統計方法對于任何實證研究都是非常重要的部分,而在許多復制實驗中,這部分必要信息似乎沒有得到應有的重視,另一個有趣的發現是,很少有人復制他 / 她自己過去的實驗作品,在 17 項研究中,只有兩項復制實驗包含了原作作者,一篇含 1 位,另一篇含 3 位。
(二)決策點 2:內部效度
華樂勤等人明確指出:具有較高內部效度的原始實驗才值得復制,即要求原始實驗:研究假設應出自明確的理論觀點,以及設置了與理論假設相匹配的測量和干預方法,因此,對原始實驗的設計、程序和分析進行系統性評估非常重要,另外,在開展復制研究時,應采取措施提升實驗的內部效度,才能生產出令人信服的復制結果,在報告復制研究的結果時,應將所有威脅內部效度的因素一并報告。
基于決策點 2,我們構建了兩個二級編碼來測量原始實驗和復制實驗的內部效度:
7a. 原始研究的內部效度:若復制研究提到了原始實驗的內部效度,即同時包括 (1) 出自明確理論觀點的研究假設以及 (2) 對于變量操縱與測量的適當性的討論,則編碼為 1,否則為 0;
7b. 復制研究的內部效度:若復制研究提到了其自身的內部效度,即同時包括 (1) 出自明確理論觀點的研究假設以及 (2) 對于變量操縱與測量的適當性的討論,則編碼為 1,否則為 0。
略微過半的復制實驗討論了原始實驗的內部有效性,但近半 (48.06%) 沒有討論這個問題,欣慰的是大多數復制研究 (88.24%) 討論了自身的內部效度,然而原始實驗的高內部效度從根本上決定了復制實驗的質量,近半復制研究對原始實驗內部效度的疏忽是不能忽視的復制實驗缺陷,我們會在討論部分展開論證內部效度的意義。
(三)決策點 3:統計效力
統計效力是開展復制實驗需要考慮的重要因素,統計效力的定義是一個統計檢驗 (在統計顯著性水平 α,由研究人員指定) 總體中存在的效應大小 (δ,也由研究人員指定) 的能力,低效說明結論并不顯著,提高統計效力的方法有增加被試的數量,或將受試者優化分配至實驗場景中,除此之外,其他提高統計效力的策略還有減少方差,對于復制研究而言,結果的差異性可以從原始研究的統計數據中估計得到,但這建立在對原始研究的結果進行效力分析的基礎上,在設計復制研究時應密切關注原實驗的統計效力,這是復制實驗獲得最大化收益的關鍵。
基于決策點 3,我們構建了三個二級編碼來測量原始實驗和復制實驗的統計效力:
8a. 原始研究的樣本量:記錄了原始研究的樣本量,編碼為 1,否則為 0;
8b. 復制研究的樣本量:記錄了復制研究的樣本量,編碼為 1,否則為 0;
9. 效力分析 (Power Analysis):如果復制研究通過統計效力分析計算出了樣本量,編碼為 1,否則為 0。
將決策點 3 的編碼結果匯總至表 6 中,17 篇研究均討論了復制研究的樣本量,樣本量分布在 178—4743,但從表 6 可以看出,17 篇作品中只有 35.29% 討論了原始研究的樣本量,另只有 3 篇 (17.65%) 進行了統計效力計算,這說明大部分復制實驗在確定被試數量時,并未與原始研究進行對比,也并未遵循科學的統計效力原則,樣本大小選擇不應該是 “拍腦袋” 決策,而應該通過效力分析,科學優化實驗設置和人力物力資源。
然而,效力分析也一直遭到質疑,關于效力大小的假設:功效計算通常需要對效應大小的估計,而在研究之前這是未知的,研究人員通常使用先前研究的效應大小進行的功效計算,但是如果效應大小被高估或低估,可能會產生誤導;忽視不確定性:功效計算通常提供一個單一的數字 (所需的樣本量),但這忽視了效應大小估計中的固有不確定性,可能會給人一種錯誤的精確感;還可能發生 P 值篡改 (P-hacking) 和數據過渡挖掘:如果研究人員嘗試進行多種分析或操縱數據以達到期望的功效或顯著性水平,他們可以錯誤地膨脹 I 型錯誤率,盡管存在上述批評與質疑,效力分析仍是研究設計和理解實驗結果的有用工具,應該被謹慎地使用。
(四)決策點 4:情景選擇
華樂勤等人強調復制實驗需要詳細考慮實驗的實施情景,近年來一些學者嘗試在公共行政學中發展 “情景理論”,情景理論提出的動機源于研究人員發現研究結論在不同情景下模棱兩可,結論的不一致說明研究 “情景” 在發生作用,學者們進一步發現:情境通過與自變量和因變量之間的相互作用而影響
變量之間的關系,從而在不同情景中重塑理論,在應用社會科學中,進行研究的 “情景” 被認為是理論發展的關鍵變量。
基于決策點 4,我們構建了 3 個選項來衡量原始實驗和復制實驗在選擇 “情景” 方面的情況:
10a. 原始研究的情景選擇:如果復制實驗提到原始實驗的實施情景,編碼為 1,否則為 0;
10b. 復制研究的情景選擇:如果復制實驗給出了實驗的實施情景,編碼為 1,否則為 0;
11. 復制實驗的情景選擇論證:如果復制實驗解釋說明實驗情景選擇的合理性,編碼為 1,否則為 0。
我們將決策點 4 的編碼結果匯總至表 7 中,就情景選擇來說,17 篇復制實驗均匯報了原始實驗和復制實驗本身的實驗情景(10a,10b),但對于復制實驗情景的選擇理由,只有 8 篇加以說明論證,不到本文數據庫一半(47.06%),論證較好的文章有 Meier, Johnson 和 An 在 2019 年發表的研究,他們通過強調邊界條件的重要性,明確提供了他們選擇實驗情景的三個原因,復制實驗的情景論證與邊界條件討論密不可分,兩者的討論有助于發展公共行政學的情景理論,尤其當復制實驗在不同的政策領域實施時,先前的實證結果可能不再成立,那么亟須復制實驗者來論證原始實驗結果的邊界條件,并評估原始實驗和復制實驗在不同政策領域的普遍性與適用的邊界條件,這將在決策點 5 中展開討論。
(五)決策點 5:邊界條件(boundary conditions)
在第五個決策點中,華樂勤等人要求研究人員在復制原始實驗中明確說明實驗的邊界條件和實驗的預期結果,復制實驗的情景選擇將影響邊界條件,如果復制策略是在非常相似的情境中復制原始實驗,其復制目的可能是為了進一步確認原始實驗的結果或進一步完善原始實驗對話的理論,但如果復制策略是選擇不同的情景,則表明復制實驗對原始實驗進行了擴展,這些擴展將突破原始實驗的固有界限以發展或調整理論,Busse、Kach 和 Wagner 在 2017 年提出了 “由內而外”(inside-out)和 “由外而內”(outside-in) 的復制方法來探索邊界條件。
在由內而外的探索中,邊界條件的不確定性較低,理論預測的準確性較高,由內而外的復制方法可能會由改變實驗對象(populations)或實驗測量(measures)到改變實驗分析方法(analysis)來完成一場復制,比如 Grimmelikhuijsen 和 Porumbescu 在 2017 年對 Van Ryzin 在 2013 年研究的復制,相反,若采用由外向內的方法,邊界條件具有高度不確定性,理論預測的準確性較低,基于差異性和不確定邊界條件的復制旨在測試和開發適用于新情境的理論,在這種情況下,研究人員會假設原始實驗的結果不會在復制實驗中得到證實,請注意:這一假設并不等于 “復制失敗”,因為這種復制方法的重點不再是 “重現”,而是 “開辟新天地”,由外向內的方法意味著復制實驗 “沒有遵循原始實驗的計劃,但帶來了新的反饋、循環和迭代”,華樂勤等人強調:了解復制實驗中的邊界條件可以讓我們在不同政策情景下設計可靠的行政管理解決方案。
基于決策點 5,我們構建了 4 個項目來衡量原始實驗和復制實驗中的邊界條件的討論情況:
12. 復制方法:復制實驗采用的兩種方法編碼如下:0 = 由內而外的方式,1 = 由外而內的方式;
13. 四種復制類型:華樂勤等對 Tsang and Kwan 的六種復制類型學重新標記并重點關注后四種類型:直接復制、概念復制、實證復制、擴展復制;
14. 三種復制改變:根據 Tsang 和 Kwan 提出的分類,可以把復制過程中發生的變化分為以下三類:(1) 不同實驗人群;(2) 不同測量方式;(3) 不同分析方法;
15. 外部效度:外部效度是指研究的結論是否可以推廣到其他場景中,關于外部效度,華樂勤等人只討論了其在復制實驗中的重要性,未給出具體標準,我們根據其提到的相關研究,擬定以下三個維度對 17 個復制實驗進行外部效度檢驗:(1) 被試是否能夠代表真實世界中的研究群體? (2) 實驗情景是否與真實世界的相關情景類似? (3) 實驗干預是否與真實世界中的干預類似?需要注意的是:只有當以上三個問題同時在復制實驗中得到清晰說明時,編碼才為 1,否則編碼為 0。
在 17 個復制實驗中,無一個實驗明確將自己歸為以上兩種方法之一,說明兩種具體復制方法的差異均被忽略,這是由于這個二分類方法提出的概念較為超前,也使得二者均未在 17 項研究中被人使用。統計表明 4 種類型的復制都有被實踐,其中:直接復制 4 次,概念復制 5 次,實證復制 6 次,擴展復制 7 次,在 17 篇研究中,僅有 2 篇文章采用直接復制路徑,占比 11.76%,這似乎預示公共管理學者有一種傾向,即放棄直接復制,試圖擴展原始研究的發現,追求擴展復制,這一趨勢帶來的潛在挑戰是:當復制過度偏離原始實驗的設計時,很難對比和解釋復制實驗與原始實驗相關結果的異同。在本文選定的 17 個復制實驗中,16 項復制改變了實驗人群,僅有 2 項復制改變了新的測量方法,無復制實驗改變復數分析方法。
結果顯示,17 個復制研究均未同時對其實驗外部效度的三個問題進行論證,在這些實驗中,三個問題中的 (2) 和 (3) 或多或少有復制工作者在文章中加以闡述和說明,但 (1) 均被忽略論證,很多復制研究中的被試與真實世界中的研究對象幾乎沒有相似之處,無法建立實驗對象和目標人群之間的聯系,也未給出解釋,很多實驗中,被試在家里、工作場所或其他可以連接互聯網的地方參與實驗,被試被要求假裝成其他人(比如官員)來做出決定或執行其他動作,在這樣的虛擬背景下,實驗干預是否能類比現實世界中的干預?存疑,綜上所述,對實驗外部效度的忽略表明公共管理的實驗研究員需要加強對外部效度的重視。
(六)決策點 6:建構效度
第六個決策點涉及建構效度問題,這是最近在比較公共行政研究中常被討論的問題,在跨文化研究中,偏差是由測量工具的系統差異引起的,比如,所使用的測量方法在跨文化差異下會發生變化,華樂勤等人提出建構效度在實驗復制中非常關鍵,尤其是當復制研究將原始研究擴展到不同的人群時,研究人員必須確保被測量的概念建構在不同背景中的含義是一致的,并且它可以 “以相同的方式映射在測量指標上”。
這意味著,同一個受訪者在不同的背景下,應該對同一個概念及其解釋持有相同的觀點,在概念復制和擴展復制中,研究人員可以就測量的適用性做出決定,并明確地將適合新研究背景的測量納入他們的研究設計中,如果在復制研究中沒有就建構效度做出討論,該研究可能會受到建構偏差(潛概念在跨國情境下具有差異)、方法偏差(問卷研究過程和方法使用中可能出現的各類偏差)或問題偏差的影響(不同的人對相同調查問題的理解不同),低建構效度會對復制研究過程造成阻礙,簡而言之,在復制原始研究時,不能簡單地復制或直接翻譯原始問卷,因為在不同研究場景中可能存在文化差異。
基于決策點 6,我們構建了五個二級編碼來測量原始研究和復制研究的建構效度:
16. 概念的建構效度:如果復制研究討論了概念的建構效度,編碼為 1,否則為 0;
17a. 原始研究中的概念測量:如果復制研究討論了原始研究的概念測量工具,編碼為 1,否則為 0;
17b. 復制研究中的概念測量:如果復制研究討論了自身的概念測量工具,編碼為 1,否則為 0;
18. 測量一致性檢驗:如果復制研究進行了測量一致性檢驗,編碼為 1,否則為 0;
19. 實驗操縱檢測:如果原始研究對實驗操縱是否成功進行了檢測,編碼為 1,否則為 0。
所有 17 項研究都報告了原始研究和復制研究中使用的測量工具,在 17 項復制研究中,僅有兩項研究討論了實驗測量概念的建構效度,例如,Van Ryzin 的復制實驗很好地解釋了他們如何將管理和營銷文獻中的期望不一致模型(EDM)應用到公共管理研究中,然而絕大多數復制實驗忽視了建構效度的問題,如果一個概念在不同研究場景中具有不同的含義,那么任何統計比較都存在風險,華樂勤等提供了一個例子:“公共服務動機” 的含義似乎因國家而異,在非民主政體和民主政體中具有截然不同的含義。
其次,8 項研究明確說明其進行了測量一致性檢驗,例如,Filtenborg、Gaardboe 和 Sigsgaard-Rasmussen 將測量工具與原始研究進行了比較:“我們使用 10 級里克特量表測量期望不一致模型中的關鍵變量,這與原始研究使用的 7 級里克特量表不同,已有研究表明,與 7 級里克特量表相比,10 級量表產生的相對均值略低”,他們強調,“這意味著在比較兩個實驗的系數大小時應該更加謹慎”,最后,僅有 6 項研究進行了實驗操縱檢測,建構效度的不足將在討論環節進一步論述。
(七)決策點 7:實證結果比較
實證結果的呈現方式也是復制實驗需要關注的重點問題,華樂勤等人建議用更客觀的術語描述復制研究的結果,因為這更符合社會科學的理念,然而,很多研究傾向于使用 “復制成功”“復制失敗” 等詞匯描述復制實驗與原始實驗的關系,華樂勤等建議從復制研究的術語中刪除有關成功和失敗的詞語,這樣可以減少復制研究對原始研究作者的 “威脅”,從而增加開展復制研究的可能性。
基于決策點 7,我們構建了四個二級編碼來測量復制研究的實證結果比較情況,由于復制研究均會匯報自身的實證結果,因此我們不對復制研究的實證結果進行編碼:
20. 原始研究的實證結果:如果復制研究涉及原始研究的實證結果時,編碼為 1,否則為 0;
21. 實證結果比較:如果復制研究將自身實證結果與原始研究進行了比較,編碼為 1,否則為 0;
22. 補充數據分析:如果復制研究補充其他數據分析,編碼為 1,否則為 0;
23. 穩健性檢驗(Robustness Check):如果復制研究進行了穩健性檢驗,編碼為 1,否則為 0。
17 項研究均匯報了原始研究和復制研究中的實證結果,以及實證結果的比較,有趣的是,與原始研究相比,17 篇研究中有 5 篇應用了在原始數據分析方法之外的新的分析方法或模型,比如:薈萃分析(metaanalysis)、理性的擴展分析、亞組分析、二手數據分析和變化自變量的測量分析,此外,4 篇復制實驗進行了穩健性檢驗。
(八)實驗基本信息
根據實驗研究的倫理等基本操作準則,我們補充了對如下三方面信息的編碼:
24. 倫理審批(ethical review):如果復制實驗從某機構分支或論文委員會獲得了倫理許可,編碼為 1,否則為 0;
25. 前導試驗(pilot study):如果復制實驗開展了前導試驗,編碼為 1,否則為 0;
26. 實驗預注冊(preregistration):如果復制實驗進行了預注冊,編碼為 1,否則為 0。
在 17 個復制研究中,很少有包括上述三點信息的研究,具體而言,17 項研究中只有 1 項開展了倫理審查和預注冊,6 篇在正式開始實驗前開展了前導實驗,這說明復制實驗過于專注復制研究的特征,卻忽視了一些實驗研究倡導的倫理要求和操作規約。
五、討論
華樂勤等人為公共管理學科中的實驗法提供了一個完整的復制理論框架,該理論框架分為三個操作步驟,涵蓋七個決策點,這個框架從理論維度指導實驗人員判斷一項實驗研究是否可以復制,以及如何進行科學的復制,本文量化了該復制理論框架,開發了包含 8 個維度和 26 項指標的復制實驗編碼簿,以期對什么是 “足夠好的復制實驗” 提供實操規則和評價標準,本文首次應用該量化編碼簿對公共管理學科 17 個現有復制實驗進行系統回顧和逐項討論,雖然現有復制實驗數量較小,但依舊可以管中窺豹,以期為今后的復制實驗設計和操作過程提供經驗借鑒,在文獻回顧中,我們發現 17 項復制實驗對內部效度、外部效度和建構效度的建立與討論相對欠缺,此外,已有研究在一定程度上忽略了實驗復制研究作為實驗法的一些基本方法和要求。
(一)建立內部效度、外部效度和建構效度
根據前文對 17 項復制實驗的回顧和審查,我們發現 9 項復制研究討論了原始實驗的內部有效性(參見決策點 2);無復制實驗全面討論外部有效性(參見決策點 5);2 項復制實驗明確表明該復制解決了建構效度的問題(參見決策點 6)。
內部效度是指因變量的變化主要由操縱自變量引發,而非其他原因導致,在實驗復制中,內部效度在于檢查實驗設計、實驗實施和數據分析是否無偏地回答了研究問題,本文認為,只有原始實驗具有高內部效度,且復制實驗提出明確的理論假設和適配的干預措施,才能稱該復制為 “令人信服的復制” ,對于外部效度,在復制時應該牢記:一項實驗的結論是否能得到推廣?能否用其他情景、人群、環境和測量方法去檢驗?任何科學研究都意于產生關于現實世界的普世性知識。
因此,在進行復制研究時,甄選情景、情景合法性的論證和邊界條件的詮釋十分重要,對于復制有效性的第三個維度:建構效度,我們注意到建構效度在復制研究中被嚴重忽視了,復制實驗有時會跨國家和跨文化進行,然而,理論假說中的概念在不同國家背景下衡量的是不是相同的事物呢?這是每個復制研究都亟須論證的問題,如果一個概念在不同的情景中具有不同的含義,那么任何統計結果都應受到質疑。
綜上,實驗效度的審查結果不樂觀,可改進空間較大,這也許源于在某些指標上,本文的編碼和評估比較苛刻,比如,對于外部效度,華樂勤等人并沒有給出具體的標準,我們根據復制理論中已有的標準對外部效度開發出三個維度的編碼,本文要求以上關于外部有效性的三個維度都同時得到解決時,才編碼為 1,表示其復制研究關注了外部效度,缺一不可,這能為此項總積分為 0% 提供一定解釋,需要說明的是,盡管我們在這次研究中的編碼采取嚴格態度,我們仍對外部效度的其他評價標準持開放態度。
(二)復制的具體方法
在進行復制時,需要采取一些標準的方法以保證其穩健性,然而,根據評估,已有復制實驗在以下三個維度表現不佳: 統計效力分析(17.65%)(參見決策點 3)、實驗操縱檢查(35.30%)(參見決策點 6)、 測量一致性檢查(47.06%)(參見決策點 3)、是 “由內而外” 還是 “由外而內” 的復制方法(參見決策點 5)。
很少有復制實驗使用效力分析來預測合理的樣本量,標準的實驗法要求使用效力分析來計算達到指定統計效力水平所需的樣本數,所需效率水平通常為 0.80,但執行效率分析的研究人員可以指定更高的水平,例如 0.90,這意味著研究人員有 90% 的概率不會犯統計 II 類錯誤,為了正確解釋研究結果,在科學研究中進行效力分析十分必要,然而,統計顯示,僅有 17.65% 的復制實驗進行了統計效力分析。
另外,實驗研究的本質是實驗者通過操縱過程或實驗任務的某些方面,并隨機將被試分配到不同組別接受操縱,以達成 “實驗條件”,因此,實驗操縱檢查是實驗設計需要進行的一項自我審查,并應在實驗研究文本中匯報操作成功或失敗的結果,然而,統計顯示,僅有 35.30% 的復制實驗進行了實驗操縱檢驗,對于測量一致性檢查,只有 47.06% 的復制研究明確表示進行了測量一致性檢查,已有學者注意到,即使樣本量存在微小差異,也會影響統計顯著性,如果在復制研究中沒有就建構效度做出討論,該研究可能會受到建構偏差、方法偏差或問題偏差的影響,本文認為,在未來的跨國跨地區復制實驗中,同仁應更多地關注測量的一致性檢查。
值得一提的是決策點 5 中提及的 “由內而外” 和 “由外而內” 的二分類具體復制方法,可能因為這個二分類方法給出的概念較為超前,二者均未在 17 項研究中被人使用,這個二分法的設置是為了探索邊界條件,在由內而外的復制中,邊界條件清晰,會使得理論預測準確性較高,在由外而內的復制中,邊界條件模糊,使得理論預測準確性較低,不管是否使用這個二分類標簽,本文都建議復制研究工作者明晰復制邊界理論,它將指導我們分辨復制實驗得到結論是否能與原始實驗結論相比較。
(三)倫理審查、前導實驗和實驗預注冊
復制實驗既是復制研究,也是實驗研究,應該遵循實驗方法的基本規范,根據實驗方法的性質和基本要求,本文增加了三個項目以進一步檢查復制實驗的程序標準
統計數據顯示,這三個問題被現有復制實驗較大程度忽略,具體而言,17 項研究中只有 5.88%(1 項)申報了倫理審查并實施了預注冊,37.5%(6 項)執行了前導實驗。
復制實驗是以人類為調查對象的研究,倫理審查可以為人類被試提供保護,因此倫理審查是必要的,也有助于保護研究人員,通過獲得倫理批準,研究人員合規證明了他們遵守了公認的倫理標準。
前導實驗亦不可省略,17 項研究中只有 6 項在收集完整數據之前進行了前導試驗,前導實驗對于實驗研究非常重要,其有助于提前評估實驗的設置,提前評估被試是否理解正在執行的實驗任務,也有助于實驗人員從小樣本群體中獲得實驗評價,以在正式實驗開始前改進實驗設置的缺陷。
此外,對實驗進行預注冊是透明公開科學帶來的新趨勢,實驗預注冊是杜絕由數據結果反推理論框架這一做法的有效途徑,它保證了實驗的核心功能:作者應該在進入實地之前確定研究問題和實驗設計,然而,在 17 篇文章中只有 1 篇研究進行了實驗的預注冊,這說明實驗預注冊還未引起重視。
以上討論的焦點問題促使我們反思:科學家為什么要進行復制實驗?復制實驗的初衷并非進行簡單的復制,而是在相同或不相同的情景下重新檢驗理論假說 —— 證明(或證偽)原始發現,我們認為,現有的復制研究還未達成復制的最佳實踐,進行復制研究不僅是通過改變人群、改變測量方式和分析方法來檢驗原始研究結論,簡單的變量變化只會使復制實驗淪為重復,對學科知識的積累作用甚微,當然,如何有效復制,未來還有很多討論空間,比如穩健性檢驗,實驗研究人員有必要進行穩健性檢驗嗎?理論上,學者認為實驗已經控制了外部噪聲,可以從實驗設計中得出因果推論,實驗研究似乎不需要像其他量化實證研究那樣做多輪穩健性檢驗,而我們回顧已有研究時發現:一項復制實驗進行了多輪穩健性檢驗;兩項復制實驗進行了單次穩健性檢驗,穩健性檢驗是否會成為實驗方法中的新趨勢?這在復制實驗研究發展的現階段還沒有明確的答案。
本研究的不足也亟待后續研究的補充和擴展,第一,研究基于科學編碼方法開展,限于篇幅,并未對 17 項復制研究進行單獨案例綜述型討論,我們呼吁未來研究結合編碼簿對 17 項復制研究進行深入綜述分析,將量化編碼與質性分析結合,以更多視角探討復制研究中的問題;第二,現階段復制實驗案例的缺乏導致本研究存在變量數、觀測數據量的缺陷,我們期待學界積累更多復制實驗后,能采用本編碼簿開展分析實踐,對現有編碼簿進行反向驗證、修正和補充。
六、結論
將復制研究方法引入社會科學領域有助于推動相關學科數據公開、透明,增強學科嚴謹和科學性,比如,在政治科學領域,Frederick Solt 和胡悅等學者在 2016 年和 2017 年對兩項有關經濟不平等的研究進行復制后,發現原研究結論均未得到證實,這兩項研究對推動政治科學領域的研究透明起到了重要作用,反觀公管領域,在這一透明研究運動中仍處于相對后發的位置,規范和推動復制研究迫在眉睫,實驗方法通過因果推論的方式積累和推進行為公共管理的學科發展,而復制實驗則通過不斷調整、修改甚至證偽前實驗的結論來為學科的穩步前進保駕護航,基于此,本研究旨在促進復制實驗的理論和實踐在中國公共管理學界的發展,建立復制實驗的科學方法論地位。
本研究的具體貢獻如下:其一,本研究首次將華樂勤等人發起的復制實驗理論框架量化為標準的復制實驗編碼簿,涵蓋 8 個維度 26 項指標;其二,本研究首次回顧和評估了公共管理學科中已有復制實驗,對 26 項指標進行逐一翔實討論,為 “如何進行令人信服的實驗復制” 提供過往的經驗和翔實的操作指南。
2015—2022 年,在公共管理期刊上發表的復制實驗只有 17 項,其中 6 項發表在 2017 年 PMR 發起的復制實驗特刊上(第 19 卷第 9 期),有限的復制實驗期刊發表依舊讓我們窺見一斑:國際學術圈中,外國學者對復制實驗更加關注,代表學者相對集中,中國學者少有實踐,再者,實驗話題亦相對集中,多基于公民與組織、政府互動的經典理論假說,此外,我們注意到公共管理學界很少以中國為情景開展復制實驗,事實上,由于不同的社會、文化和政治背景,中國為檢驗從西方社會發展起來的理論假說提供了難得的機會,在儒家文化和社會主義的政治背景下,公民的行為、偏好和認知等問題值得開展實驗研究,或許公民與公共組織、公民與政府間的態度與互動話題下的理論假說,在中國情境下進行復制可以檢驗到新的因果關系,甚至建立新的理論話語,從而使得中國學者在國際行為公共管理學界開疆辟土,由此,我們呼吁在中國進行更多的復制實驗,將西方的經典理論假說在中國背景下進行復制和檢驗,這樣的復制,不是 “拿來主義”,而是科學的檢驗與革新,真正實踐了外部有效性、情景選擇合法性和建立邊界條件的生動實操,通過在中國情景中開展復制研究,有助于明晰公共管理理論的 “語境” 邊界,厘清公共管理在中西方文化背景下的差異化表現,如此共識下,復制實驗走向比較復制實驗,或將推進比較公共管理理論的進程,亦有助于發展公共管理的中觀理論,并修正行為公共管理的西方實踐。
董斌孜孜;王程偉;華樂勤,香港城市大學公共及國際事務學系;電子科技大學外國語學院;對外經濟貿易大學政府管理學院,202406