摘要:近十年来,对政府资助的科学研究进行的绩效评估得到了迅速推广,但在“为何评估”、“评估什么”和“如何评估”等问题上,各国有着不同的认识和做法。本文介绍了美国联邦政府开展的基础研究绩效评估的背景、《政府绩效与结果法案》(gpra)实施前后美国国家科学基金会(nsf)和国立卫生研究院(nih)的绩效评估实践,进而对我国的相关问题提出相应的政策建议。
关键词:美国《政府绩效与结果法案》(gpra);nsf;nih;基础研究
abstract: although evaluating the performance and outcome of publicly funded research has been increased rapidly in most industrialized and developing countries since the last decade, different opinions and practices remain in this field. the paper analyzes the background of us federal evaluation on performance of fundamental science and introduces the implementation of the government performance and results act (gpra) at national science foundation (nsf) and national institutes of health (nih). as a conclusion it also gives some suggestions about evaluation on basic research in china.
key words: gpra; nsf; nih; basic research
第二次世界大战结束以来,随着科学技术的迅猛发展及其对国防、经济、社会等领域越来越深入而广泛的影响,科学技术越来越被视为维护国家安全、促进经济繁荣、提高人民生活水平、增强国家综合国力的重要乃至决定性的因素。西方各国政府对科学研究的投入不断加大,公众对投资回报的期望值也日益增高。公众对科学的认同与期待使科学界和政府面临着共同的压力:公众要求科学界说明公共资金到底花在了哪里?公共资金资助的科学研究与解决公众所关心的问题间有何关联? 对于政府,则要求其对科研投入的预算进行严格管理,并以强有力的手段对科学研究的过程与结果进行绩效评估,以提高研究的质量、效益与效率。 政府也试图通过评估来使资助的科研成果得以彰显并让公众了解,同时提高决策与科研管理水平。
然而,知识的生产与应用不同于其他领域,对科学研究尤其是基础研究的产出与结果进行评估并非易事。虽然自20世纪60年代后期以来,一些发达国家就陆续开展了对科学研究的评估,并不断探索新的评估方法,但对基础研究的成果及影响能否进行以及如何进行绩效评估,却一直是个有争议的话题。 近十余年来,随着“冷战”的结束和国际政治经济秩序的新变化,各国基础研究的环境都发生了较大变化,这些变化给评估的理论与实践带来了新的机遇和挑战。 美国在科学研究方面无疑是“超级大国”,不仅在许多研究领域保持着世界领先地位,而且在对联邦政府支持的基础研究开展绩效评估方面也属先行者,有不少可供我们学习和借鉴之处。
本文试图透过国际上对基础研究开展绩效评估的发展趋势,介绍美国《政府绩效与结果法案》(government performance and results act,简称为gpra)1993年出台的背景、gpra的实施对联邦政府支持的科学研究的影响,尤其是以美国国家科学基金会(nsf,national science foundation)和国立卫生研究院(nih,national institutes of health)这两个联邦政府资助基础研究的主要机构为例,指出在gpra出台前后两个机构绩效评估实践的变化,分析美国开展基础研究绩效评估的背景、历史、方法和特点等等,进而对我国的相关问题提出有关政策建议。
1 为何评估与该评什么——美国联邦政府开展基础研究绩效评估的背景
1.1 国际化趋势:对政府支持的科学研究实行绩效评估
科研经费的分配、研究方向的选择、研究机构的调整等等,在“二战”之后成为西方主要国家科学政策的重要内容,而对这些相关政策和计划的实施结果及其影响进行预测、分析与评估,是政府制定和改进决策的重要途径之一。自20世纪60年代起,经济合作与发展组织(oecd)的一些国家就开始尝试对政府支持的科学研究活动的投入、产出、成果和影响力等方面进行评估。随着各国政府对科学活动的评估活动日趋重视,评估理论与实践的深入与拓展,特别是近十多年来,信息技术的日益普及和广泛应用使得大量数据的采集、统计、处理与建模越来越简便易行,因此,在包括美国在内的许多发达国家,对科学研究开展的绩效评估甚至已成为一个“快速成长的产业”。
近十年来,科学研究的绩效评估实践所发生的变化主要表现在三个方面:(1)虽然评估的对象日趋广泛,既有具体的研究人员、研究小组、实验室、研究机构与大学,也有受资助的学科或研究领域、受资助机构、政府的研究计划、乃至一个国家的研究实力,但“临时性的、大张旗鼓的、针对单独的研究计划开展评估似已成为过去” 。由于通过新的信息技术手段可以更有系统地统计和公开科研数据,因此,对科学研究进行经常性制度化的长期监测以及评估系统的建立与运行已占据绩效评估的主流;(2)评估工作已由研究或资助机构旨在改进自身管理的一种自发行为,扩展为来自外部权威的制度性要求,外部专家的介入也成为理所当然,一些专业的评估机构应运而生;(3)评估涉及的方面由过去强调研究活动定量的近期直接“产出(outputs)”,如发表论文、出版专著、发明专利等,扩展为更多地关注其影响覆盖学术界和经济社会诸方面的中期乃至长期的综合性“成果(outcomes)”,如国际合作水平、高水平人才的流向、技术创新形式、经济回报、对文化的整体贡献等等。 评估活动的这些新特点虽然在许多国家有不同体现,但美国的情况较为突出,很有代表性,以下将重点介绍美国联邦机构开展的基础研究绩效评估。
1.2 gpra:美国联邦政府改革行政管理的新举措
绩效评估的产生与发展一方面是被评估机构内部管理系统自我完善的体现,但更多的则是对来自包括公众在内的外界压力的回应。以美国的情况为例。自20世纪60年代以来,美国联邦政府为了回应公众与立法机构对其改进行政管理水平的要求,几乎每位总统在其任职内都出台了相应的改革措施,从60年代中期实行的规划-计划-预算制(ppbs,planning-programming-budgeting-system)到尼克松执政期的目标管理(mbo,management by objective),再到卡特时代的零基预算(zbb,zero-based budgeting)以及里根和老布什政府的全面质量管理(tqm,total quality management),直到克林顿政府时期的《政府绩效与结果法案》(gpra)。虽然每一任政府推出的改革举措各不相同,但构成这些措施的基本要素有着相似之处,其内在目的也大体一致,即,提高公共管理的效益与效率。 与以往政府的改革举措有所不同,gpra最主要的特点在于,它不仅仅是行政部门的一项改革动议,而是以立法的形式引入了一种新的管理概念与制度——绩效评估。在这一制度要求下,对政府行政管理及结果的评估从以往的投入-产出模式转换为目标-结果模式,即不再是简单地对政府管理资源的过程进行考察,而是根据各机构所设定的任务目标来衡量其结果。而且,与以往的改革举措相比,gpra具有的立法基础使之具有更大的权威性、持续性和强制作用。
关于gpra出台的目的等内容,国内相关研究已有涉及。 根据gpra的目标指向,可将其目的概括为三个主要方面: (1)目标指向公众:通过系统地说明联邦机构的工作业绩,提高美国公众对政府的信任度;(2)目标指向联邦行政管理机构:要求其从法定任务和工作预期的最终结果出发,设定明确的定量绩效目标,并对照预设目标来检查工作进展和成果,以改善联邦政府的内部管理;(3)目标指向国会:通过联邦机构向国会提供有关政府工作情况的客观、准确的定量信息,为国会的决策奠定科学的基础。为了实现上述目的,gpra要求职责各异的联邦机构制定覆盖未来5年的战略规划(strategic plans)报告(且每3年修订一次),同时,要求联邦机构每年提供将战略规划分解为定量化实施目标的年度绩效规划(annual performance plans)报告,并对照年度绩效规划中的定量目标检查其完成情况,形成年度绩效评估报告(performance reports)。gpra的作用不仅在于要求各联邦机构提供上述3份报告,更大的压力还在于,gpra要求国会、审计总署(gao,general accounting office)和白宫的管理与预算办公室(omb,office of management and budget),把对这3份报告的审议与预算的批准过程结合起来。也就是说,每个政府机构每年所能得到的经费预算,将与其制定的战略规划、绩效规划和绩效评估结果直接相关。这就从制度上进一步保证gpra得以贯彻实施,这也是gpra为何会具有强制力的重要原因所在。
1.3 基础研究:能否成为gpra的例外?
gpra一经颁布,美国科学界和资助科学研究的联邦机构一片哗然。许多科学家和科研资助机构的管理人员的第一反应是,该法案可能不会、也不该用于基础研究。 其理由主要集中在以下3个方面:(1)科学研究最重要的成果——重大科学突破的产生时机和发展方向无法预测。试图通过实施“规划”促使科学突破的产生,尤其是为科学突破产生的过程设置“年度进展的里程碑”(annual milestones),不仅是徒劳的也将是有害的。因为这样会迫使科学家因更多地关注短期结果而趋于保守,而不是锐意创新;(2)科学家的研究成果往往不是在某一个资助机构的单独支持下完成的,而是与其他经费来源共同资助的结果。把这种多渠道资助的成果仅作为某一个资助机构的成果指标,显然是不科学的;(3)没有什么定量方法可以真正衡量基础研究的质量。研究结果的许多方面无疑是可以定量化的,但研究活动中最重要的方面却难以用定量指标来衡量。因此,他们甚至希望,基础研究领域能成为gpra的例外。
然而,法律就是法律,法律不允许有例外。国会和白宫坚持,支持基础研究的联邦机构也必须实施gpra。不过,他们也注意到了基础研究的特殊性,指出该法案的具体实施可以有一定的灵活性,对资助基础研究的机构的年度规划报告和绩效评估报告在定量指标方面的要求也做了一定的让步。白宫负责制定科技政策的国家科学和技术理事会(nstc,national science and technology council)下属的基础科学委员会(committee on fundamental science)于1996年发布了具有指导性的报告《评价基础科学》。 报告明确指出,支持科学研究的联邦机构必须设计出适合于科学研究特点的评估策略,同时,还要适合于推动基础研究在实现国家总体发展目标中发挥作用。委员会在报告中声明,现有的评估手段和有关方法可以反映研究产出的重要组成部分,但研究产出中最主要的方面以及研究的最终结果和影响,很难用直接的评估工具进行量化处理;对基础科学的动态复杂性及其与国家目标间关系的认识,也不可能通过简单的定量手段予以实现。基于同行评议的价值评议(merit review)不仅是对研究项目(projects)开展事前评议的基础,而且也是对基础科学的计划(programs)进行回溯性绩效评估的重要方式。对基础研究开展全面的综合性绩效评估,应将同行评议与其他多种评估手段结合起来,如使用定量指标、定性指标、描述性文字、案例分析、国际比较、突出成绩的举例等等。鉴于基础研究的长期性和积累性特点,评估内容不仅应涉及基础研究的近期直接产出,而且更应涉及其多方面的长期综合影响。
美国国家科学院与国家工程院和医学研究院联合成立的科学、工程与公共政策委员会(cosepup)在1999年形成的一份有关gpra实施情况的报告中也阐述了类似的观点。针对科学界对gpra的争论甚至抵触情绪,cosepup于1998年举办了系列研讨会,对科学研究领域中gpra的执行情况进行了调研,形成了一份政策建议报告:《评估联邦的研究计划:科学研究和政府绩效与结果法案》。 报告分析了科学研究的特点、联邦机构的责任和gpra的要求,提出了在科学研究领域实施gpra的几项建议:(1)无论是对联邦政府资助的应用研究还是基础研究,都可以在经常性工作的基础上开展有意义的评估;(2)支持科学研究的联邦机构应当定期对以往资助的所有研究活动的整体绩效进行评估,但不同的机构必须运用与其研究性质相适应的评估方式与手段。对基础研究而言,评估的内容应包括:研究的质量(quality)、与本机构法定任务的相关性(relevance)以及研究的国际领先水平(leadership)。在选择评估方法时,需要明确各种评估方法的运用范围,如什么能评什么不能评。因为评估方法的误用会导致严重的负面效果,如评估基础研究的短期绩效可能会对创新工作带来毁灭性的灾难;(3)联邦机构应当运用专家评议方式来评估研究的质量、相关性和国际领先水平,在组建和运行专家评议的过程中,每个机构应当有清晰明确的指导思想。参加评估的专家必须综合考虑其学术性和独立性;(4)联邦机构应在战略与绩效规划中制定与人力资源相关的目标,人力资源应成为研究计划评估的内容之一;(5)尽管gpra的实施是以单个联邦机构为单位,但应建立一套正规的评估过程,来确认和协调由多个机构资助的研究领域的绩效。每个研究领域应确定一个起主导作用的资助机构,由这个机构负责在相关机构间进行协调;(6)科学家和工程研究专家能够、而且应当在gpra的实施中发挥重要作用,但首先,他们应当了解和熟悉有关联邦机构的战略规划与绩效规划目标,其内容应在这些机构的网页上公布。
从上述建议可以看出,cosepup回应了科学界的担忧,也向国会和白宫警示了在对基础研究进行绩效评估中应当注意的问题。在综合考虑各方的意见和gpra的实际实施情况后cosepup认为,gpra确实为科学界和支持科学研究的联邦机构提供了一个机会,使之能够确保美国的研究资源在满足国家需求方面的有效使用,能够向决策者和公众阐明开展科学研究的理由与结果。因此,在支持科学研究的联邦机构实施gpra不仅是必要的,也是可行的。
2 评估什么与如何评估——nsf和nih的绩效评估实践
美国联邦政府支持科学研究的机构大致可分为两大类,一类是以支持基础研究为主的nsf和nih,另一类是以支持应用研究为主的国家航空航天局(nasa)、国防部(dod)、能源部(doe)和农业部(usda)等部门。由于本文旨在考察基础研究的绩效评估,因此只介绍nsf和nih的评估实践。需要说明的是,nsf是个单纯的资助机构,没有下属的研究部门,而nih则兼有研究和资助研究的任务,但其资助对象不限于其下属研究所与研究中心,开展医学与卫生研究的大学与其他研究机构也可向nih提出资助申请。对这两个机构而言,gpra的实施标志着评估活动进入了一个新的阶段。
直到1993年以前,nsf和nih开展的评估活动一直带有探索的性质。早期的评估注重数据积累和定量分析,评估工作多为不定期开展,评估的对象往往在其所资助的核心计划之外,评估结果的使用范围也限于机构内部;实施gpra以后,绩效评估成为nsf和nih日常工作的重要组成部分。由于gpra要求联邦机构制定的5年战略规划报告、年度绩效规划报告和绩效评估报告三者(也被统称为gpra报告)构成了一个相互衔接的有机整体,评估活动的针对性和目的性更加明确。与过去的评估活动相比,实行绩效评估的对象大为扩展,不仅包括其所资助的各类研究和教育计划,还包括其管理工作和资助经费的使用情况。评估指标和方法也更为灵活多样。更重要的是,评估结果不仅要向本机构内部通报,还要提交国会、gao和omb,这些部门对评估结果的审议直接影响到nsf和nih下一年度的经费预算。
2.1 实施gpra以前的绩效评估
nsf和nih于1970年代就成立了评估办公室,率先开始探索基础研究及其影响力的定量评估方法。由于同行评议是nsf资助工作的核心,因此nsf对评估方法的研究集中于考察同行评议系统,同时也支持研究科学出版物指标的文献计量学的早期工作,于1976年形成了这一领域的经典报告《作为评估方法的文献计量学》。nsf开展的第一项评估工作运用了同行评议与文献计量学相结合的方式,对其设立的材料研究中心进行了耗资昂贵的评估活动。与此同时,nih的评估办公室则建立了最早的医学研究期刊数据库,收录了从最基础的到最具临床应用价值的医学研究期刊,同时根据期刊登载论文的研究性质,将期刊分成不同的类别。该办公室通过文献计量学方法,根据期刊数据库的信息,统计各研究所发表论文的情况,分析论文的数量、质量、影响力等方面的特点,并据此发布对nih各下属研究所的评估报告。nih的若干研究所还聘请了专业评估人员,通过合同方式,根据特定的需要和目的,开展评估工作。
到了80年代,由于定量评估方法的局限和评估活动较高的成本,两个机构的评估办公室都减少了评估或放慢了评估工作进度。nih的评估办公室撤销了需要斥巨资维持的期刊数据库。从80年代后期到90年代初期,只开展了为数不多的几次新的评估工作,多数都在其下属的研究所进行。nsf的评估办公室对若干特别的计划(如“增进女性从事科学研究的机会”计划)开展了谨慎的评估,对为数不多的受资助者获得的重大奖励进行了考察,对工程研究中心的评估则成立了特别的评估小组,由来自nsf以外的专家组成,是典型的外部评估。此外,应美国国会的要求,nsf还对其科学教育计划进行了评估。90年代初期国会拨付专门经费(为教育计划预算的3%),要求nsf对其教育计划进行全面评估。nsf在其教育与人力资源局(ehr)成立了由专业评估人员组成的评估办公室,将所有的科学教育计划(资助对象从中小学生、普通公众到研究生)都纳入常规的评估日程之中。这种常规化、制度化的评估活动为后来将绩效评估作为nsf重要日常工作的组成部分而开展积累了宝贵的经验。
2.2 实施gpra以后的绩效评估
在gpra的法律框架下,nsf和nih都开展了规划工作,重新整合和规范了评估工作,并在规定的时间内提交了gpra报告。由于gpra要求提交战略规划的机构为内阁级别的部门或独立的机构,而nih隶属于美国联邦健康与人类服务部(dhhs,department of health and human services),因此nih不必单独制定其5年战略规划,与之相关的内容可包括在dhhs的战略规划中。不过,nih仍需向国会和白宫提交年度绩效规划和绩效评估报告。nsf于1997年9月提交了第一份5年战略规划(1997-2003财年战略规划),在此基础上修订形成2000-2005财年战略规划(后又修订为2001-2006财年战略规划);nsf和nih都于1998年春提交了第一份年度绩效规划(1999财年绩效规划),2000年3月提交了第一份绩效评估报告(1999财年绩效报告),此后每年提交新的年度规划与绩效报告。在两个机构的绩效评估报告中,都没有对单个资助项目的结果进行评估,而是对组成某一计划的一类项目(projects)乃至对实现本机构某一方面特定任务的诸多计划(programs)开展综合评估,以展示其整体绩效水平。
nsf在其年度绩效评估报告中,将其绩效目标分为三类:资助结果、内部管理和投资过程(即资助决定产生的过程)。nsf清楚地认识到,对于其资助的研究和教育活动最终能够产生怎样的结果、何时能产生结果的问题,基本上是不可预测的。nsf的工作人员并不直接从事研究与教育,而是支持他人提出项目申请来开展研究与教育活动,通过向研究人员和教育界提供其资助结果、资助目标和实现目标的战略,对研究和教育活动发挥影响。 也就是说,nsf是通过对科研投资以及相关方面进行管理的间接方式来影响、而不是直接控制所资助的科研活动的结果。因此,nsf决定,对资助结果的绩效目标设定与评估主要采用定性的方式,如:是否在科学与工程学前沿领域支持了新发现、是否促进了科学发现与其应用相结合以更好地服务于社会等等,而对其内部管理和投资过程的绩效目标则尽可能使用定量的方式来表述,如网上评议推广的比例、网上结题项目的比例、同行评议新准则的执行情况等等。
为了在gpra的框架下更好地开展绩效评估,nsf特别重视与绩效目标相关的数据采集、证实和认证工作。例如,nsf的项目结题材料过去都是开放式的纸质结题报告书,实施gpra之后,nsf要求结题报告提供更详细的内容,而且全部进入由nsf维护的网络系统,便于人们方便快捷地查询。nsf还将以往监督同行评议的外部专家委员会(cov ,committees of visitors)的职能进行了拓展,除了继续监督同行评议过程(即投资过程的一部分)之外,任务重点转移到了评估各资助计划的结果。nsf的评估数据源包括其中心数据库(电子化的项目结题报告系统、申请书系统、项目批准系统、评议专家系统、财务系统、绩效评估报告系统等)、分散的信息源(如科学出版物、nsf发布的新闻简报、包括cov报告和咨询委员会[ac,advisory committees]报告在内的独立评估报告、各科学局及下属各处的年度总结、各项计划的年度总结等)和nsf内部建立与维护的本地数据库。必要时,nsf还利用其外部建立与维护的合同数据库。通过这些信息源,nsf就可以有效开展制度化的绩效评估活动了。
nsf所有的科学局和其他局(或办公室)都必须评估其预算中所列举的计划实施的结果,并形成各局的绩效报告。各局的绩效报告与cov、ac的评估报告一起提交到综合活动办公室(office of integrative activity),这些报告的内容还将被整合成nsf的总绩效报告,提请nsf主任办公室和nsf的董事会——国家科学理事会(nsb,national science board)审议,批准后方能提交至国会、gao和omb。
表1简要列出了nsf的绩效评估“评什么”、“何时评”和“谁来评”等基本内容:
表1 nsf绩效评估简表
被评估对象 评估频率 评估执行者
计划层次的评估* 每年30% 由nsf外部专家组成的cov
各局层次的评估** 每年100% 由nsf外部专家组成的ac
专项计划的评估(如mri、stc、grf等涉及nsf多个部门的活动)*** 各不相同 由nsf外部专家组成的cov或通过与nsf签订合同开展评估的合同方
所有与nsf实施gpra有关的活动**** 每周 nsf内部高级管理层如dpg、giic等
* nsf每年有1/3的计划得到评估,整个财年都可以进行。所有的计划评估以三年为一个周期。cov要说明计划管理和资助结果目标达到的情况,nsf的高级管理层将使用这些评估的信息,并将把这些信息整合进nsf的绩效报告中。
** nsf各局的ac每年评估本局的活动,并审议本部门的cov报告。主要评估各局在实现nsf绩效目标中的贡献,形成供nsf管理层使用的报告,并总结nsf的绩效结果。时间安排为每年开两次会,在财年年终进行评估;ac还运用cov的报告,作为与各局讨论战略规划的基础。
*** 涉及nsf多部门的资助计划由外部评估者通过签订合同开展,主要评估计划的影响力。评估时间因计划的不同而异。此类计划如重点研究仪器(major research instrumentation, mri)计划、科学技术中心(science and technology centers,stc)计划、研究生研究助学金(graduate research fellowships,grf)计划等。
**** nsf的内部高级管理层每周召开会议,讨论和评议gpra在nsf的实施情况,并提出建议。相关部门包括dpg(director’s policy group)、giic(gpra infrastructure implementation council)等。
资料来源:nsf:gpra performance report fy 2000(本文采用时有删节)。
与nsf提交gpra报告的情况有所不同,nih每年提供一份由年度绩效规划与绩效评估合二为一的报告(如fy 2003 gpra annual performance plan / fy 2001 gpra annual performance report),将绩效目标与实际绩效水平进行直接对比。如nsf一样,nih的绩效报告中既有对资助结果的评估,也有对其内部的领导与管理工作的评估(如优先领域制定、项目管理、同行评议等方面的内容);对资助结果的评估以定性描述为主,对管理活动的评估则采用了一些定量指标。此外,nih还准备了其他与gpra相关的报告,如《nih研究计划成果评估》报告,列举nih资助下的科学研究产生的重大突破和进展。nih认为,这类成果的举例也是绩效评估的有力指标。对nih研究计划成果的评估由独立的gpra评估工作小组承担,但nih的各下属研究所和研究中心必须提供关于本部门研究进展和新发现的评估素材。评估包括5个方面 :(1)在关于正常与非正常的生物功能和行为的知识增长方面的贡献;(2)为医学研究与医疗实践开发的新仪器和技术,或对已有的仪器和技术进行的改进;(3)在预防疾病和残疾的发作或延缓其发展方面发现的新方法或对已有方法进行的改进;(4)在疾和的残疾的诊断方面发现的新方法或对已有方法的改进;(5)在治疗疾病和残疾方面发现的新方法或对已有方法的改进。这些描述性的、内容较为详细的报告,可让公众更清楚地看到,nih资助的研究成果在提高人们生活质量、改善健康和医疗水平方面作出的贡献。
3 几点启示
通过以上介绍的美国联邦机构对基础研究的评估实践,比较我国近年来方兴未艾的绩效评估活动可以发现,在对评估的目的、手段、作用等方面的认识与实践上,二者存在着较大的不同。如,美国注重“为何评”及“评什么”,而我国则更关心“如何评”;美国政府绩效评估的重点在于基础研究的资助和管理工作,而我国却在于评估科学研究工作本身;美国强调对科学研究的整体绩效,而我国则关注对研究项目和人员的单独绩效;美国的绩效评估作为目标管理的一部分,与制定战略规划和战略实施规划组成有机的整体,而我国的绩效评估却缺乏可以进行比对的战略目标和实施措施,难以做到有的放矢,等等。尽管目前包括美国在内的世界各国在对基础研究的绩效评估方面,都远不能说有成熟的通行方法可循,但美国实施gpra的经验仍然对我国开展评估活动有重要的借鉴与启示意义。
3.1 绩效评估是改进科研管理的重要手段
在考察美国gpra在基础研究领域的实施情况中,我们应当特别注意的是,美国联邦要求评估的直接对象是政府机构,而不是科学界。在诸多关于美国gpra的报告和文章中,人们反复强调,政府开展绩效评估的目的是改进其管理工作的效益与效率,而对科学研究质量的评估只能由科学共同体通过同行评议来承担;政府开展绩效评估重在评估其资助工作的整体绩效,而非评估项目乃至由某类项目组成的计划层次上的结果和影响。在美国,由于支持基础研究的联邦机构通过基于同行评议的项目拨款方式,来控制其所资助的科学研究的质量,申请人在得到项目资助的同时,就意味着接受了竞争激烈的评议考察,项目结束后建立的档案还将入册、上网,作为评议下一次申请或同行科学家进行监督的参考。这样一整套制度就建立起了一个特别有效的事前评议系统,减少了在项目和计划层次上进行事后评估的必要。 因此,美国政府要求对基础研究的整体绩效进行评估,并不意味着对研究项目和计划没有监督,而是将这一职责交给了科学共同体,并通过有效的事前评议系统为研究质量把关,防患于未然;而保证在事前评议中发挥决定性作用的同行评议系统有效地运行,正是管理部门的一项重要职责。
对于我国的科研管理部门来说,建立和维护公正、公平、公开的同行评议系统是当务之急。近年来我国基础研究领域评估中出现的许多问题,都与同行评议系统的“失效”有关。“把归恺撒的交给恺撒,把归上帝的交给上帝”——科研管理部门应将对科学质量的评估工作交给科学共同体,包括组织科学家独立开展对基础研究的科学价值的评估,并保证我国的同行评议系统有效地运行;而管理部门的绩效评估活动则应重点针对其资助与管理水平的提高,使有限的科研资源得到优化配置,以发挥更大的作用。
3.2 对基础研究的绩效评估谨防导致科研短期行为
美国科学界在gpra颁布伊始的担忧并非全无道理,不恰当的评估活动必定会给基础研究带来负面影响,如,过于频繁的评估给科研人员造成额外负担,不合理的评估指标对研究起到误导作用,尤其是在评估中强调基础研究在短期内出成果,可能会导致科研活动中的短期行为,从而极大地损害科学事业的基础。因此,在与gpra的相关文件中,美国联邦政府及有关机构一再强调,对基础研究进行绩效评估要充分考虑基础研究的特殊性,从基础研究的长期性、积累性、结果的难以预见性等特点出发,采用与之相适应的评估方式。对这一原则的贯彻结果就是,同意nsf和nih在评估其资助的研究结果时,不必象其他机构一样使用定量指标,而是以定性的方式进行绩效评估;而且,对研究计划的资助结果评估不必每年进行,而是评估其长期资助的整体结果,这样才会避免科研的短期行为,为基础研究创造一个有利于创新的环境。而目前我国开展的基础研究绩效评估有片面倚重定量指标的现象,且评估有愈渐频繁的趋势,已经导致了一些科研人员盲目追求论文数量、忽视研究质量的问题,甚至助长了科学研究中的浮躁风气,应进一步引起科研管理部门的高度重视,尽快制定保护创新的评估政策,引导我国基础科学事业的健康发展。
3.3 科研管理机构的绩效评估应与制定规划相结合
从美国的经验可以看到,虽然nsf和nih在20世纪70年代就开始了评估工作,但将绩效评估活动作为其日常工作的一部分,则还是在1993年gpra实施之后。究其原因,具有法律意义的强制要求是绩效评估活动得以制度化的重要因素,与此同时,国会要求联邦机构将其长期战略规划、年度绩效规划和绩效评估工作结合起来,根据绩效规划设立的定量和定性目标开展评估。这样就使得评估目标更明确,评估工作更具有可操作性,这也是绩效评估制度在美国得以贯彻执行的必要基础。而我国的科研管理部门在战略规划的工作方面较为欠缺,规划的内容易流于空泛,偶有定量的目标也往往不太切合实际,给实际的操作带来一定困难。若能借鉴美国的经验,将绩效评估与制定规划结合起来,并将这两项工作整合到研究经费的预算编制与批准过程之中,绩效评估活动将有可能步入经常化与制度化的轨道。
3.4 数据积累是开展基础研究绩效评估的前提与基础
评估离不开比较——既有如国际比较和机构间比较等横向比较,也有如历史比较、目标-结果比较等纵向比较,而比较需要数据和素材,项目层次相关结果的数据和材料是开展计划以及更宏观层次的绩效评估的必要基础。美国之所以能够开展制度化的绩效评估,得益于其长期积累的、可开展横向与纵向比较的大量基础数据,得益于其数据获取的快速与便捷;gpra的实施更推动了nsf和nih的数据库建设,尤其是在数据库的电子网络化方面,近年来又有了长足的进步。而我国在科研成果基础数据的积累、认证和获取方面都还存在许多不足,从客观条件上制约了评估的科学性及绩效评估活动的进一步发展。相关管理部门应尽快规范我国国家层次和机构层次上基础研究成果数据的采集和认证,促进数据共享,推动网络化建设,为包括绩效评估在内的科研管理与决策工作的科学性奠定可靠的基础。
参考文献:
david demeritt. the new social contract for science: accountability, relevance, and value in us and uk science and research policy[j]. antipode 32:3. 2000. pp. 308-329
j a d holbrook. why measure science?[j] science and public policy. vol. 19. no. 5. 1992
hans skoie. basic research ---- a new funding climate?[j] science and public policy, vol. 23, no. 2, 1996
同1
oecd. the evaluation of scientific research: selected experience[c]. ocde/gd(97)194. 1997. oecd: paris
susan e cozzens and tim turpin. processes and mechanisms for evaluating and monitoring research outcomes from higher education: international comparisons[j]. research evaluation. vol. 8. no. 1. 2000
同5
david roessner. outcome measurement in the united states: state of the art[未刊稿]. the paper prepared for presentation at the annual meeting of the american association for the advancement of science, boston, ma, february 17, 2002
李正风. 基础研究绩效评估的若干问题[j].科学学研究. 2002年第1期
government performance and results act of 1993[法律文件]. http://www.whitehouse.gov
/omb/mgmt-gpra
susan e.cozzens. are new accountability rules bad for science?[j] issues in science and technology. vol. 15. no. 4 (summer 1999)
national science and technology council committee on fundamental science. assessing fundamental science[r], http://www.nsf.gov/sbe/srs/ostp/assess
committee on science, engineering, and public policy, national academy of sciences/national academy of engineering/institute of medicine. evaluating federal research programs: government performance and results act[r]. washington dc:national academy press.1999
susan e.cozzens. assessing federally-supported academic research in the united states[j]. research evaluation. vol.8, no.1. 2000
national science foundation gpra performance report fy 2000[r]. http://www.nsf.gov/pubs/ 2001/nsf0186/start.html
nih: assessment of nih research program outcomes[r]. http://www1.od.nih.gov/gpra/ gpra_nih.htm
同14