發佈日期:2018-04-27

淺談準實驗設計於科技計畫經濟效益評估之應用

作者:劉玳縈

科研投入 準實驗設計 篩選偏誤 反現實 傾向分數配對 差中差 Quasi-experimental Design Selection Bias Counterfactual Propensity Score Matching Difference-in-Difference(DID)

文章圖片所有權: https://ppt.cc/f2mmOx ,Created by ColiN00B
版權適用聲明: CC0 Public Domain-可以做商業用途-不要求署名

2

一、前言

3

科技計畫通常係由專家審查篩選出補助的廠商、企業或團體組織等,並不是隨機分配,此一特性適用於準實驗設計(Quasi-experimental Design)的分析,因準實驗設計缺乏隨機分配,是由參與者或管理者選擇分配條件(例如:治療或不治療、補助或不補助)。也由於科技計畫有其挑選補助的準則,因此會產生篩選偏誤(Selection Bias),以下將介紹配對方法和其他統計方法,用以減少篩選偏誤和可能造成估計的偏誤等。

4

準實驗設計,如同實驗設計(即隨機控制試驗,Randomized Controlled Trial, RCT),是用來測試因果假設的方式(White & Sabarwal, 2014)。在準實驗設計中,計畫或政策被視為一種介入(Intervention)或干預(Treatment),透過一套預先設定的效益指標(Indicator),評估科技計畫或政策達成目標或成果之效益(White & Sabarwal, 2014)。

5

準實驗設計需要確定對照組(Comparison Group),通常是利用在基準(Baseline)也就是介入前(Pre-intervention),選取對照組的特徵與實驗組也就是介入組的特徵相似,例如,在103年計畫開始補助廠商(實驗組),利用103年前(很可能是102年)的補助廠商特徵選取未補助廠商為對照組,即選擇特徵與補助廠商相似者當對照組(未補助)。

6

在此介紹準實驗設計之資料分析,如何選取對照組減少篩選偏誤,並且利用差中差(Difference-in-Difference, DID)估計搭配迴歸分析之交互作用項來估計與檢定,以衡量科技計畫補助對象的成果是否有效益。

7

二、如何處理篩選偏誤

8

篩選偏誤分為可觀察的篩選偏誤(Observable Selection Bias)和不可觀察的(Unobservable)篩選偏誤,科技計畫挑選補助者是根據計畫品質、切合政策發展方向主題的計畫或申請者先前績效等可觀察的資料決定補助者,因此,這裡可能存在的篩選偏誤傾向是可觀察的。換言之,管理者會選擇較成功的研究計畫與支持有吸引力的計畫提案(Wallsten, 2000;Carboni, 2011),有資格或被選入成為實驗(介入)組(參與計畫或政策、受補助)與無法被選入的機率具有系統差異(Systematically Difference) (White & Sabarwal, 2014)。因此,觀察兩組在效益(由感興趣指標測得)的差異,可能全部或部分歸因於不完全匹配(系統上不同產生篩選偏誤使得兩組本身就存在差異),而不是介入所造成的(White & Sabarwal, 2014)。如何選取一個有效(Valid)的對照組,在準實驗設計中相當重要,在此介紹能夠降低篩選偏誤風險的方法,包括迴歸中斷設計(Regression Discontinuity Design, RDD)與傾向分數配對(Propensity Score Matching, PSM)(張錦俊等人,2016)。

9

篩選偏誤也可以利用基於迴歸、非實證方法,諸如工具變數(Instrumental Variable)和樣本篩選模式,這些迴歸方法考慮了偏誤的問題。在自然實證中也有計畫或政策的執行可以被認為相當於隨機分配,或中斷的時間序列分析(Interrupted Time Series Analysis)即在介入前後會改變成果趨勢,這些方法較少被使用(White & Sabarwal, 2014),因此將不在此篇文章中討論。

10

篩選偏誤可以用配對方法來解決(Caliendo & Kopeinig, 2008),傾向分數配對就是其中一種方式,接下來將介紹兩種對照組的建立方式,以減少篩選偏誤。

11

三、建構準實驗設計之對照組

12

(一)傾向分數配對

13

配對(Matching)方法依賴觀察到的特徵,使用統計方法來建構對照組。完美的配對需要針對實驗組中每一廠商/企業所有的相關特徵(如:行業別、規模大小、成立時間、營業額與資產總額等),與對照組的每一廠商/企業做配對,使得可觀察特徵上是相同的,但顯然不太可能。如果可觀察的特徵很多且範圍很大,則直接配對有其困難度;在此情況下,傾向分數配對更適合(White & Sabarwal,2014)。傾向分數配對方法能夠大幅減少篩選偏誤(Caliendo & Kopeinig, 2008;Stuart et al.,2014),由Rosenbaum和Rubin(1983)引入並建議使用平衡分數,利用所有在基準(介入前)相關特徵的函數,代表配對時的特徵函數,對照組與實驗組的特徵函數盡可能相似,也就是使得兩組的基準(相關可觀察)特徵相似。傾向分數做為特徵變數函數的機率,使用傾向分數來平衡群體常見的方法有配對和加權等方法(Stuart et al.,2014)。

14

1.使用傾向分數配對的五個步驟(White & Sabarwal, 2014)

15
  • 確保代表性:在介入中參與者和非參與者進行代表性的抽樣調查。基準的資料是計算傾向分數的首選,但也可以使用結束(Endline)的資料,只要配對的變數不受介入影響。
  • 估計傾向分數:傾向分數是使用參與方程式所建構,相依變數(Dependent Variable)在迴歸中是屬於二元的(Logit或Probit迴歸),也就是在計畫中為1,不在計畫中為0;必須盡可能考慮影響參與的特徵,但要排除可能受介入影響的特徵,因此,最好使用基準資料(若有的話)來估計傾向分數。
  • 選擇一個配對演算法:實驗組中每一個成員(如企業)可以跟對照組中的一個或多個成員做配對,這樣會有不同的方法,例如:將每個成員與其「最近鄰居」(Nearest Neighbor)非參與成員進行配對,最常使用的方式是最接近的5個鄰居的平均值。對照組中每一個成員也可以與實驗組中一個或多個成員做配對。若對照組傾向分數的觀察值低於實驗組,其將捨棄所選出的對照組,反之亦然。為了使配對有效,必須使得實驗組與對照組的觀察值具有相同特徵範圍,也就是共同支持(Common Support)區域。圖1顯示傾向分數的典型分布,實驗組的傾向分數分布較對照組來得偏右邊,也就是實驗組成員的傾向分數高於對照組。在圖1兩群所建立的共同支持區域中(傾向分數0.31~0.8區域中),有28%對照組的觀察值(0~0.3)被忽略而實驗組有18%觀察值(0.8~1)被忽略。因此,對照組若是在0.31~1範圍的傾向分數有數值,而在0~0.3範圍的傾向分數沒有值,會是較佳的對照組,兩組之共同支持區域範圍較大,沒有捨棄一些資訊。
16

圖1 傾向分數之分布-共同支持區域是0.31~0.8
資料來源:White&Sabarwal (2014),本研究繪製。

17
  • 檢查平衡:比較實驗組和對照組的特徵並進行平衡測試;理想情況下,兩組的平均可觀察特徵沒有顯著差異,若兩組的結果有差異,可歸因於計畫或政策介入。
  • 估計和解釋計畫結果:計算實驗組與對照組的效益指標是否有差異,可以配合使用差中差分析來計算,將於本文資料分析中討論。
18

2.採用傾向分數配對的三個優點(Stuart et al.,2014)

19
  • 減少外差(Extrapolation)和隨後對結果模式規格(Specification)的依賴,可以得到更穩健(Robust)的推論。
  • 傾向分數將一組變數(可能是大量的)縮減為一個總量,使得平衡方式更加可行。
  • 在計算傾向分數過程中沒有使用到結果變數,將研究「設計」和「分析」分開,因此減少了偏誤的可能性。
20

傾向分數配對需要來自實驗組與潛在對照組的資料,由於在共同支持區域之外的觀察值須被捨棄,因此兩組的樣本必須大於檢定力所建議的樣本數(Sample Size)。一般而言,潛在對照組取樣必須大過實驗組。兩組資料可能來自不同資料集,必須包含相同變數的資料且在同一時間內收集資料,後者的要求對季節變數特別重要(即對不同季節敏感的變數,如年齡與體重)。傾向分數配對主要的缺點是所配對的個體是基於可觀察特徵和參與預測似然率(Likelihood)之相關聯(White & Sabarwal, 2014)。若有不可觀察(Unobserved)的特徵影響參與和此特徵會隨時間改變,則估計將會產生偏誤,進而影響觀察結果。傾向分數配對的限制之一是計算較為複雜,需要有統計學家或擅長使用統計軟體之專家的幫助。

21

(二)迴歸中斷設計

22

利用在門檻/閾值(Threshold)上下來處理計畫或政策介入所產生的效益,在門檻的計畫通過者(實驗組)與接近通過邊緣而被拒絕的申請者(對照組),這兩組可觀察與不可觀察的特徵通常較為接近,更能確保在計畫或政策介入前的績效相仿,若能分析此兩組介入前後的效益差異,則可推得計畫或政策介入之效益。以教育計畫為例進行說明(White & Sabarwal, 2014),60分為門檻以上不用參加課後輔導,而60分以下需要課後輔導,圖2表示橫軸為課後輔導介入前分數,縱軸為介入後分數,且介入前後分數呈現高度正相關,採用介入前60分以上和以下各10個單位(50~70分)做為分析樣本,迴歸線配適後是不連續的,這個跳躍的大小是介入後的影響,也就是課後輔導計畫將原本在50~60分區間的參與者分數平均提高10分(局部效果)。

23

圖2 迴歸中斷設計
資料來源:White & Sabarwal (2014),本研究參考繪製。

24

迴歸中斷設計的優點在處理不可觀察特徵時,較其他準實驗設計配對方法更具說服力(White & Sabarwal, 2014),並且在很大程度上利用行政資源,而減少資料收集的需要,儘管通常需要收集那些未被納入計畫效益的資料。然而,無論是否進入計畫內,都需要有篩選變數和介入的效益指標資料,很多計畫並沒有保留被拒絕之申請者的資料,使得迴歸中斷設計的分析更加困難。門檻/閾值並不一定總是很清楚,樣本可能不足用於分析。再者,迴歸中斷設計屬於局部效果,對門檻/閾值附近的樣本有效果,對遠離閾值者的影響效果可能不同(White & Sabarwal, 2014)。在實作中,將局部效果與平均效果的差異進行比較,發現差異並不大,因此,迴歸中斷設計用來估計計畫或政策介入的效益,是可以被接受的方法(White & Sabarwal, 2014)。

25

四、準實驗設計之資料分析

26

準實驗設計的資料分析中,利用上述的傾向分數配對與迴歸中斷設計來選擇適合的對照組以減少篩選偏誤,並採用差中差分析來估計特定介入或干預(如:法律通過、政策制定、大規模計畫實施)之效果,藉由比較參與計畫的母體(實驗組)與未參與計畫的樣本(對照組/控制組)隨時間改變成果(DIDE-CUMSPH, 2013),並比較實驗組和對照組/控制組的計畫前後資料,以得到反現實資料用以估計因果關係(Causal Effect) (張錦俊等人,2016)。

27

假設實驗組與對照組在計畫未輔助或政策未執行時產生的結果趨勢一致,即所謂的反現實(Counterfactual),在實驗組無法觀察的反現實結果(若沒有介入的結果),如圖3(黑色虛線上的黑色小點)所示(DIDE-CUMSPH, 2013)。在準實驗設計中使用的數據分析方法可以是單差異(事前事後差異)或是雙差異(兩組事後差異減去兩組事前差異),也就是差中差,其差異來自於計畫或政策介入後造成的結果(圖3)。

28

圖3 差中差估計之說明
資料來源:DIDE-CUMSPH (2013),本研究繪製。

29

差中差通常利用迴歸分析中的交互作用項來估計與檢定因果關係(即參與/處理效應)而不是簡單的相減(DIDE-CUMSPH, 2013;Dimick & Ryan,2014),其中時間前後與介入與否被設為虛擬變數(Dummy Variable),而欲控制變項(其他的因素)為共變量(Covariate)也在模式中,如式(1)所示(DIDE-CUMSPH, 2013),若兩組的控制變項不同,也可藉由迴歸模式的共變量來調整控制。如果計畫參與效應(政府補助與否)與結果的關聯性存在,則此交互作用項會明顯異於零(Dimick & Ryan, 2014)。

30

Y=β0+β1*時間+β2*組別+β3*時間*組別+β4共變量 +ε。(1)

31

式(1)中,Y為依變數(Dependent Variable),β0是平均基準值(Baseline Average),β1是對照組的時間趨勢,β2是介入前兩組的差異,β3是隨時間改變的差異(介入效果),即模式中的交互作用項。

32

差中差方法的限制係以平行趨勢假設較為重要,如圖3所示,也就是假設實驗組在計畫或政策沒有介入下,其結果趨勢與對照組保持固定差異。若此假設成立則進行差中差估計將沒有偏誤;若兩組之差異隨時間變化,則效益估計將產生偏誤(DIDE-CUMSPH, 2013)。差中差是量化效益評估的好方法(White & Sabarwal, 2014),但需要搭配其他方法,如上述所提出的傾向分數配對,去除篩選偏誤,使得所估計的差異是來自介入因素而非篩選偏誤所產生的差異。

33

五、結論

34

評估計畫最可靠方式且具有效性為收集實驗資料並加以分析(Jarmin & Jensen,1997)。然而,政策制訂者有多少信心知道計畫參與者(如:廠商與組織)改變的效益,是因為參與計畫而產生的,則需要依賴收集到精確的資料與適切的分析和推論,在此提出準實驗設計之經濟評估,提供研究者進行科技計畫評估時的參考。

35

參考文獻

  1. 張錦俊、羅愛雁、李宜憲 (2016)。科技計畫之經濟效益測量與評估方法。財團法人國家實驗研究院科技政策研究與資訊中心。
  2. Caliendo, M., & Kopeinig, S. (2008). Some practical guidance for the implementation of propensity score matching. Journal of economic surveys, 22(1), 31-72.
  3. Carboni, O. A. (2011). R&D subsidies and private R&D expenditures: evidence from Italian manufacturing data. International Review of Applied Economics, 25(4), 419-439.
  4. DIDE-CUMSPH (2013), Difference-in-Difference Estimation Columbia University Mailman School of Public Health. Retrieved 2/10/2017 from https://www.mailman.columbia.edu/research/population-health-methods/difference-difference-estimation
  5. Dimick, J. B., & Ryan, A. M. (2014). Methods for evaluating changes in health care policy: the difference-in-differences approach. Jama, 312(22), 2401-2402.
  6. Jarmin, R. S., & Jensen, J. B. (1997). Evaluating Government Technology Programmes: The Case of Manufacturing Extension. Policy evaluation in innovation and technology: towards best practices.
  7. Rosenbaum, P. R., & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41-55.
  8. Stuart, E. A., Huskamp, H. A., Duckworth, K., Simmons, J., Song, Z., Chernew, M. E., & Barry, C. L. (2014). Using propensity scores in difference-in-differences models to estimate the effects of a policy change. Health Services and Outcomes Research Methodology, 14(4), 166-182.
  9. Wallsten, S. J. (2000). The effects of government-industry R&D programs on private R&D: the case of the Small Business Innovation Research program. The RAND Journal of Economics, 82-100.
  10. White, H., & Sabarwal, S. (2014). Quasi-experimental design and methods. Methodological Briefs: Impact Evaluation, 8.