發佈日期:2018-11-08

績效導向之高教科研補助機制(PRFS):各國質量化評估方法探討與解析

作者: 林意晴

政策評析 高教科研補助機制 質量化評估 書目計量 同儕審查 社會效益 Higher Education Research Funding System Qualitative and Quantitative Evaluations Bibliometric Peer Review Social Impact

文章圖片所有權: https://ppt.cc/f24cax ,Created by mohamed_hassan
版權適用聲明: CC0 Public Domain-可以做商業用途-不要求署名

1 1

一、前言

2 2

目前各國所普遍使用之績效導向高教科研補助機制(Performance-based research funding system: PRFS),主要結合質量化評估結果與運算公式,作為高教科研補助預算分配之方式。然而有些國家並不將評估結果直接和預算做連結,例如:荷蘭鼓勵大學使用標準評估指引(Standard Evaluation Protocol: SEP)來取代PRFS機制。SEP主要是用來指引大學針對機構之研究品質、計畫與社會之相關性(relevance to society)以及計畫之可行性(viability)等項目,以提供符合各大學研究目標與決策之評估準則與指標,讓大學用以自我管理與提升研究品質,且其評估結果並不直接和預算分配做連結。

3 3

挪威則雖然採用PRFS,但卻不同於其他國家透過PRFS評估結果給予研究績效良好的學校較多之預算,反而透過評估結果針對研究績效較差之大學研究機構,給予更多的支援與補助來強化研發能量(Debackere, Arnold, Sivertsen, Spaapen, & Sturn, 2018;林意晴,2018)。荷蘭、挪威這些國家之所以不將研究績效優劣與預算多寡做直接連結,主要是因為擔心許多評估方法的限制可能造成的誤導大學研究人員之研究決策的負面效果。有些學者認為評估結果和預算直接做連結,可能產生一些負面效應。例如:減少跨領域合作、投入高風險與創新等長期性研究計畫等(Debackere et al,2018;Elsevier,2015)。為了解決此一問題,大部分使用PRFS機制之國家,多採取質量化整合之評估方法,利用各評估方法優點截長補短,減少對大學研究產生的負面影響。本研究之主要探討PRFS機制中,常使用之評估法例如:書目計量、同儕審查、自評、社會效益、前瞻性等,剖析實際運作上可能遇到之問題與解決方法。

4 4

二、書目計量之應用與限制

5 5

PRFS使用之書目計量評估方式,主要是針對個人、研究機構、研究領域或國家等單位出版品(例如:論文、專書等)引用之統計分析(OECD,2002),其結果可用來呈現評估單位之學術研究表現(research performance)和生產力(productivity)。常用之書目計量分析方法例如引用索引(citation indexes)、共同引用分析(co-citation analyses)等,都是透過記錄出版文章的參考文獻做為引用之統計分析方式,其結果可以更靈敏的反應研究之品質以及學術合作能量。近年來書目計量分析方式,也將學術出版與引用分析,延伸至知識出版品對社會之影響,其中網路計量學(webometrics)與另類計量學(altmetrics)就屬於這類型的量測指標,他們主要被用來評估科學研究對社會的影響(Bornmann, 2014)。另外書目計量若和預算分配做連結時,其主要目的為監測國家/機構層面之宏觀指標,透過書目計量來輔助同儕審查(Debackere et al., 2018)。

6 6

(一)書目計量應用領域

7 7

書目計量評估方法被廣泛的運用在不同領域,書目計量評估結果常被用來做為決策之依據,例如:國家層級或機構之研發統計報告與策略文件、國家層級或機構之研究評估報告、區域機構之研究評估資訊、PRFS輔助同儕審查、研究人員之表現等,都會透過書目計量來衡量。本研究著重PRFS機制中,最常使用書目計量輔助同儕審查的指標有三種:個別文章之總引用數、個別引用數與該領域平均引用數之比值、以及個別引用數與相同領域中被引用最多文章之比值。其個別文章引用總數之概念比較著重產出(productivity),也就是量之概念,近年來有越來越多的引用指標,使用個別引用數與相同領域中被引用最多文章之比值,來展現出版品其質量(quality)與產出(productivity)之成果。使用書目計量除了要考慮使用目的,來選定所需要之量測指標以外,另外也需要考慮到哪一年被引用、出版種類(例如:原文或評論之文章)、研究領域等元素,都會影響評估結果以及其代表的意義。

8 8

(二)書目計量之限制

9 9

雖然書目計量被廣泛的應用在各國之PRFS機制,然而它在使用上仍有不少的限制,第一、書目計量只能限縮在以英文發表之論文,對於非英文之論文產出無法評定。第二、不同領域和學科/學門間論文引用之影響力不盡相同,當PRFS整合不同研究領域到機構層級,需先處理跨領域之論文引用影響力,通常被稱之為領域標準化 (field-normalized)。例如PRFS機制使用書目計量時,評估單位往往是學校整體,而不是個人或個別研究領域,透過領域常規化能讓比較基礎一致,其評估結果能夠相互比較,另外不同領域之知識產出差別也很大,一般來說自然科學領域的研究產出類型涵蓋較廣,而社會科學的研發產出種類較少,因此不同領域產出之涵蓋範圍,也會增加領域常規化的困難度,以及領域間之相互比較可信度。第三、期刊可否被接受與發表,本身就是專家審查和質化判斷的結果,其審查標準本身就不一定透明,因此使用書目計量也不能全然代表研究的品質。第四、雖然使用文章引用次數可呈現期刊品質,然而文章引用次數有時會因為缺乏期刊引用與審查標準而被操弄,例如:重覆引用自己論文(self-referential)等。第五、書目計量主要是要追蹤知識擴散所帶來之效益,書目計量只能在期刊索引才能被追蹤到,無法得知其它知識擴散管道所產生之效益(Debackere et al., 2018)。例如:產學合作之知識擴散路徑、研究成果非論文發表形式很難獲得。這些都是使用書目計量評估方式的特性與限制,需要在評估設計時一併考慮進去。

10 10

(三)解決書目計量之限制:研究領域標準化

11 11

為了讓跨領域評估結果之比較更具公平性, PRFS審查機制中書目計量所使用的期刊論文索引,是統整各領域知識產出之引用數後,選定最好的研究來代表一個機構做評定,若PRFS直接選定索引最多之領域來代表一個機構之研究表現,其結果不能直接被用來比較不同機構之研究成果。雖然有一些指標(例如: Journal Impact Factor/JIF和h-index)可以被用來代表期刊論文之影響力(journal impact),也兼具“質”和“量”的評估意涵,然而專家依然建議書目計量之評估結果不要直接和PRFS預算做連結(Debackere et al., 2018)。若PRFS機制預加入書目計量評估指標時,專家也建議應該在設計階段將書目計量專家納入其中。這些書目計量專家不是研究領域專家,而是能針對書目計量在跨學術領域、出版的管道、論文專書實際引用狀況、作者與共同出版等,這些無法直接使用書目計量來判斷研究成果之好壞,提供專業的觀點與判斷,讓PRFS透過書目計量來衡量與比較機構間之知識產出結果更具公信力。針對書目計量指標設計,建議採用下列方式來強化PRFS機制中之書目計量評估方法(Hicks, Wouters, Waltman, deRijke, & Rafols, 2015;Debackere et al., 2018):

12 12
  • 量化評估指標(i.e.書目計量)輔助專家質化判斷,而不是直接使用數據來衡量研究成果。
  • 針對研究機構、團體或研究人員的研究任務來衡量績效。
  • 保障區域性之相關卓越研究(i.e.沒有英文論文之出版品)。
  • 保持數據收集和分析過程的開放、透明和簡單。
  • 允許評估人員驗證數據來源之可靠性和分析結果。
  • 考慮到出版品以及論文引用在不同領域之多樣性。
  • 評估應以機構單位之計畫組合(portfolio)為單位,並以質化的判斷方式來評估組合內個別計畫研究員之表現。
  • 注意評估和指標對系統之影響(i.e.評估會引導行為之改變)
  • 定期檢視與更新指標。
13 13

三、同儕審查與量化指標之搭配

14 14

PRFS機制內之同儕審查概念主要是根據特定之評估準則以及需求,透過專家判斷將質化的評估結果轉換成量化排名(ranking)或等級(rating),然後再導入特定之預算分配公式來導引科研補助。大致上同儕審查可分為兩大類:傳統之同儕審查(pure peer review/peer review)以及輔助同儕審查(informed peer review),傳統之同儕審查以設定的審查項目與評估標準來判定計畫的好壞。而輔助同儕審查會根據所提供之量化指標(例如書目計量或其它已選定之量化指標)來協助同儕進行審查。一般來說同儕審查的評估範圍(例如:經濟、社會、環境效益)比起書目計量評估之範圍(例如:期刊論文、書、研討會論文等學術出版品)更廣且更加複雜,根據Debackere et al.(2018)研究發現,歐盟大部份提供以下資料供PRFS機制中同儕審查所使用:書目計量等研究產出、社會效益指標、自評結果、以及前瞻性等。圖一簡略說明PRFS如何透過同儕審查機制整合質量化指標,以及統整後之評估結果如何和預算做連結(詳見圖1)。

15 15

(一)研究產出選擇(Research outputs)

16 16

一般來說PRFS在審查時,各學校機關會選擇性的篩選較好之研究計畫,統整後再提報給同儕審查時所使用(如圖1所示)。由於同儕審查是針對同學門/領域之評估審查機制,因此大學經理人(university managers)為了規避評審間之意見紛歧或不同學門之間所產生爭議而影響評分結果,學校在提報PRFS研究產出時(例如書目計量)會盡量提報較不具風險之跨領域(interdisciplinary/heterodox work)研究產出。根據Debackere et al.(2018)研究發現,很多歐盟國家(除了義大利、挪威、西班牙、捷克、斯洛維尼亞等)的書目計量評估涵蓋大學機關內所有研究,但同儕審查時就會限制提報之計畫數量。此一選擇性的提報研究成果供同儕審察,除了可能導致審查結果有偏差以外(Debackere et al,2018; Elsevier,2015),也可能導致研究人員較不願意投入跨領域、高風險(high risk)、創新改革(transformative)、未來性研究的發展與跨領域相互合作的機會。因此將評估結果與預算直接連接預算之PRFS機制,可能會間接影響大學的研究自主性(research autonomy)。為了解決PRFS審查所造成之上述問題,Stern (2016) 建議,大學內所有計畫之研究成果最終都需回報到系統,雖然它可能增加評估成本,也可能因全部回報研究成果而掩蓋了表現較佳之研究人員與計畫。另外有越來越多的同儕審查機制,會加入更多元之量化指標(例如:多元跨領域的研究產出指標以及第三主流指標)輔助審查,並且納入更多跨領域之審查人員,讓同儕之審查結果更加公平,並且鼓勵更多跨領域研究(Mahieu & Arnold, 2015)。

17 17

圖1PRFS質量化整合評估程序

資料來源:Debackere, Arnold, Sivertsen, Spaapen, & Sturn, 2018。本研究中心重新整理與繪製。
18 18

(二)同儕審查評估準則與指標

19 19

透過同儕審查除了可以確定量化指標之結果,也可透過專家的判斷將複雜的資訊轉化成容易判定之分數或者排名。目前大部分歐盟國家之同儕審查的評估準則,都聚焦在研究的品質(research quality)以及效益(impact)。Debackere et al.(2018)所整理的歐盟國家,評估準則皆有納入研究品質以及卓越表現,而社會與經濟效益也是大部分國家同儕審查評估準則之ㄧ(詳見表一所示)。由於奧地利、荷蘭、義大利和英國有較特殊科研補助機制和同儕審查準則,將之羅列出來以利相互比較 (詳見表2所示)。

20 20

表2 歐盟各國PFRS之同儕審查評估準則

評估準則 HR EE IT MD NO PT SI ES TR
研究品質/卓越表現
及科學影響程度
X X X X X X X X X
延續性/人力資源 X X X X X
社會/經濟效益 X X X X X
管理/效率 X X X X
研究/教學相互作用 X
HR:克羅埃西亞、EE:愛沙尼亞、IT義大利、MD: 摩爾多瓦、NO:挪威、PT:葡萄牙、SI:斯洛維你亞、ES: 西班牙、TR: 土耳其。資料來源:Debackere, Arnold, Sivertsen, Spaapen, & Sturn, 2018。本研究中心重新整理與繪製。
21 21

表3 奧地利、荷蘭、義大利和英國之評估準則

奧地利2015 荷蘭2015 義大利2017 英國2014
產出 活動之範圍與強度
文章發表
同儕審查
文獻引用
研究收入
研究品質 獨創性
科學嚴謹度
科學研究效益
獨創性
重要性
科學嚴謹度
相關性/效益 商業化 社會相關性 技術移轉
社會經濟效益
延伸性與重要性
環境 可行性 可行性與持續性
學術聲望 合格研究人員 國際化程度
資料來源:Debackere, Arnold, Sivertsen, Spaapen, & Sturn, 2018。本研究中心重新整理與繪製。
22 22

(三)以量化指標輔助同儕審查之決策

23 23

將傳統之同儕審查(pure peer review)方式結合量化指標(metrics),就是輔助同儕審查(informed peer preview)之評估概念。換句話說就是利用量化指標(例如書目計量指標)來輔助與強化同儕之質化評估,並且透過相互比較與交叉比對(triangulation)來驗證與確認質化判斷的結果。一般普遍認為透過書目計量指標/其它量化指標的協助,可以讓同儕審查機制更加的透明化,並且讓審查委員遇到意見紛歧時,提供額外的見解以利審查以外,也會促使審查機制納入更多元的領域專家投入審查,讓同儕審查的結果更加公平與客觀(Mahieu & Arnold, 2015)。另外結合質量化之審查結果,也能改善在評估時所產生之馬太效應(Matthew Effect),也就是表現較佳的學校獲得更多補助,表現較差的學校獲得較少的補助,因而產生研究補助集中於少數研究人員的弊病。為了防止高教科研補助過於集中在表現較佳的學校,這也是為何挪威透過PRFS來補助研究能量較弱的學校,來提升整體大學研究品質,因此評估結果只用來參考(inform),不會直接連結預算分配(Debackere et al., 2018)。

24 24

(四)自評 (Self-assessment):降低對學術自主之干預

25 25

很多科技計畫包含高教科研補助機制,常常使用自評結果來輔助同儕審查,其原因主要是科技計畫之不預期和高風險特性,只用同儕審查和量化指標來評估畫執行成果時,往往會過度壓縮執行時可能出現不在計畫中之預期效益,以及評估間接對學術自主之干預。透過自評能讓這些非預期之效益被呈現出來,也能讓評估更具彈性,並彰顯不同計畫之特性,以及提高教學術自主性。一般來說評估通常分成兩個階段,也就是先會先進行內部自評,然後再透過專家來進行外部的審查(如圖二所示)。第一階段之自評報告通常整合質化報告和量化指標之資訊後,再遞交給專家做外部審查,其內容也會針對計畫應該要達到那些成果與效益(normative elements),以及計畫如何達到成果與效益(formative elements)兩部分做評估,提供具體之報告與說明。第二階段是藉由審查委員到現場訪視或查驗,針對第一階段之計畫內部自評結果,做出最後之審查程序或做後續之效益追蹤。PRFS機制中同儕審查所使用之自評,常常是用形成式(formative)/非綜整式(non-summative)之評估脈絡,換句話說也就是藉由自評的方式,讓計畫執行的單位透過質化描述方式,具體解釋有哪些成果與效益,以及如何達成的部份詳細描述以利同儕審查。如果研究人員不習慣自評,PRFS應該清楚的提供指引來幫助研究人員瞭解如何做自評,否則自評對研究人員來說儼然是負擔。也有可能因為研究人員不善於自評,導致某一些機構/研究團隊期評估結果不能真實反應計畫之執行成效。

26 26

(五)納入前瞻性因素

27 27

由於績效導向的預算分配是以過去績效來作為預算分配依據,但過去績效往往不能預測未來績效,因此,有些國家之PRFS評估機制裡,會涵蓋前瞻性指標。以英國的科研補助機制為例,會讓計畫有機會去描述他們運用何種方式來達到計畫的預期效益。大部分歐盟國家使用前瞻性指標,主要用它來做為計畫之導引工具(steering instrument),可用來評估未來是否需要調整計畫方向。例如芬蘭、荷蘭和奧地利,雖然不直接將PRFS評估結果用來決定是否繼續補助計畫,然而他們會使用同儕審查來評估計畫前瞻性/未來計畫與策略,來做為決定科研預算補助公式之基礎。

28 28

圖2 自評與同儕審查之兩階段流程

資料來源:Debackere, Arnold, Sivertsen, Spaapen&Sturn(2018);本研究中心重新整理與繪製。
29 29

四、以社會效益補充對知識社群效益

30 30

在PRFS機制中效益之量測,主要是要測量研究產出如何透過學術管道對知識社群或社會產生影響,在高教科研補助之脈絡裡通常有兩種廣泛之效益種類。第一類之效益展現是著重於科學研究成果對實驗室以外之影響。實驗室以外之環境又可細分為兩大類:相同研究領域的其它研究人員和其它不同領域(multi-interdisciplinary)之學術研究人員。這類又被稱為為學術(academic impact)或科學效益(scientific impact),通常會使用書目計量方法(如:引用索引、h-index等指標)來量測。第二類型之效益指的是在社會上各階層(例如:個人、產、官、學、研、使用者等)對學術研究成果有興趣的個人或團體,這類又被稱為社會效益(society impact)。例如:在PRFS機制裡有會用第三類指標(詳見表三)主要是用來量測社會效益。一般在設計社會效益之評估方法時,設計者需要思考下列三個問題來強化效益指標之建構以及效益分析結果之可信度:社會效益如何評估?可靠數據如何收集?如何制定有力之指標來量測社會效益?。

31 31

針對如何評估社會效益的部分,以下是歐盟各國PRFS機制社會效率評估設計趨勢的建議。第一、早期PRFS之社會效益指標建構,大部分仿效學術/科學效益來訂定指標,並且量化指標也著重成本分析(cost-benefit analysis)的概念來評估社會效益。但是有越來越多的社會效益開始著重質化的方法,其評估的範圍也從經濟效益延伸到非經濟效益之指標,例如社會、文化、環境、健康等其它之影響評估(Joly & Matt, 2017; Debackere,et al., 2018)。第二、透過個案研究或效益路徑分析(邏輯架構),制定符合社會架構與背景之社會效益指標,且通常同時包含質量化指標。第三、利用社會影響評估方法(Social Impact Assessment Method)除了可以用來研究學術效益和社會效益之間所產生的互動關係,亦可用來做產、官、學、研間互動之網絡分析(network analysis)。第四、另類計量學(altmetrics),也可被用來評估科學研究對社會之貢獻與影響程度,本研究將不針對另類計量學多所琢磨。

32 32

相較於收集可靠之學術效益數據,獲得可靠之社會效益數相對上是比較困難的。因此沒有任何一個全面且絕對可靠之指標,能涵蓋所有研究領域對學術(科學)與社會效益。因此在效益評估之設計上,相對就更加困難。例如:2017年最新一期之加拿大聯邦社會和人文科學報告中指出,加拿大政府針對高教研究所產生的效益(包含學術效益和社會效益兩大類)進行評估。其中學術效益可細分成學術成就(scholarship)效益和研究能力(capacity)效益,通常透過測量書目計量等相關指標來量測,而研究能力部分是透過問卷以及不同之質化量測方式來調查科學研究對研究能力之影響。社會效益部分也將它細分為三大類:(1)經濟面向,(2)實踐和政策面向、(3)社會與文化面向。每一面向之效益包含數個不等的質化和量化指標,如表三所示。

33 33

表3 加拿大科學研究之五大效益構面與評估指標

效益
學術 社會
學術成就 研究能力 經濟 實踐與政策 社會與文化
書目計量 研究數量與品質 擔任顧問 專家、顧問、或委員身分獲邀出席 研究人員與相關社群所建立夥伴關係數量與品質
開放存取資料庫之下載(數) 學生研究機會 節省公共成本 政府引用/採用研究結果並用於決策訂定
論文引用(數) 學生和畢業
校友之問卷
收入增加 擔任政府諮詢顧問或智庫 提供相關社群諮商服務與建議
學術領域研究獲得肯定 雇主之問卷 研究成果被私
人企業採用
委託報告書
獎勵與獎章 研究成果納入課程中之學習成果 專利、版權、
商標授權金
媒體(報紙、電視、網路) 報導研究成果
學術聲望 諮詢合同 媒體邀請研究人員出席活動
論文出版後所出版書評或專題討論 參與公眾活動
展覽與演出 研究相關社交媒體)
使用公共研究型網路資源探討社會與文化議題
資料來源:Debackere, Arnold, Sivertsen, Spaapen&Sturn(2018);本研究中心重新整理與繪製。
34 34

雖然訂定具代表社會效益之指標相當不容易,而且也沒有絕對正確之指標可評估社會效益,各國有不同方式訂定符合自己科研補助機制所需要之社會效益指標。除了先前所描述的加拿大案例,美國國家科學基金會(National Science Foundation)偏愛使用較廣泛之評估準則與指標來測量社會效益(Watts, George, & Levey, 2015),英國高等教育補助機制則著重系統化呈現不同領域與學科間的不同效益,荷蘭則借用人文科學研究領域所發展出來之指標(www.qrih.nl)來測量社會效益(例如:公共社會獎項、民間社會基金對研究之資金補助),都是透過傑出計畫所獲得的肯定來評估其社會效益,其結果可用來支持高教科研補助之評估機制與預算分配。

35 35

五、結論

36 36

本研究詳盡解析與討論PRFS機制中,常用之質量化評估方法與指標使用上之優缺點及限制。希望不僅提供我國大學考量績效導向預算機制之參考,同時提供台灣現有各種科研補助機制所使用之質量化評估方法設計之參考,期望能觸發更多改進與反思的空間,特別是當評估結果與預算做連結時,能更加注意所可能產生之負面效應。另外此研究也探討增加社會效益與前瞻性指標,來強化科研補助之評估方與設計,以引導科技計劃之行為改變與提高計畫產出與效益。

37 37

參考文獻

  1. 林意晴(2018)。績效導向之高教科研補助機制(PRFS):各國質量化整合評估途徑分析。國家 實驗研究院科技政策研究與資訊中心。
  2. Bornmann, L. (2014). Do altmetrics point to the broader impact of research? An overview of benefits and disadvantages of altmetrics. Journal of informetrics, 8(4), 895-903.
  3. Debackere, K., Arnold, E., Sivertsen, G., Spaapen, J., & Sturn, D. (2018).MLE on Performance-based Funding of Univesity Research: Summary Report.Debackere, K., Arnold, E., Sivertsen, G., Spaapen, J., & Sturn, D. (2018). Mutual Learning Exercise: Performance-based Funding of University Research.
  4. Lepori, B., van den Besselaar, P., Dinges, M., Potì, B., Reale, E.,Sliperster, S.,van der Meulen, B. (2007). Comparing the Evolution of National Research Policies: What Patterns of Change? Science and Public Policy, 34(6), 372-388
  5. Lepori, B., van den Besselaar, P., Dinges, M., Potì, B., Reale, E.,Slipersæter, S., van der Meulen, B. (2007). Comparing the evolution of national research policies: what patterns of change? Science and Public Policy, 34(6), 372-388.
  6. Luukkonen, T.(2016).Mutual Learning Exercises: A proposal; for a New Methodology. Retried from: https://rio.jrc.ec.europa.eu/en/library/mutual-learning-exercise-proposal-new-methodology
  7. Mahieu, B., & Arnold, E. (2015). R&D Evaluation Methodology & Funding Principles - The R&D Evaluation Mthodology (Final Report 1). Technopolis Group. Prague: Ministry of Education, Youth & Sports.
  8. Molas-Gallart, J., & Castro-Martínez, E. (2007). Ambiguity and conflict in the development of ‘Third Mission’indicators. Research Evaluation, 16(4), 321-330.
  9. OECD. (2010). Performance-based Funding for Public Research in Tertiary Education Institutions: Workshop Proceedings. Paris: OECD Publishing. Spaapen, J.(2017). MLE on Performance-based Research Funding Systels: Third Stream Metrics in PRFS.
  10. Padrós-Cuxart, R., Riera-Quintero, C., & March-Mir, F. (2016). Bibliometrics: a Publication Analysis Tool. In BIR: ECIR, 44-53.
  11. Stern, N. (2016). Building on Success and Leaning from Experience: An Independent Review of the Research Excellence Framework. London: Department for Business, Energy and Industrial Strategy.
  12. VSNU, N. (2015). Standard Evaluation Protocol 2015-2021. Retrieved from: https://rio.jrc.ec.europa.eu/en/library/standard-evaluation-protocol-2015-2021