学学业成就;标准参照性评估;项目反应理论;信息函数;实证分析
摘 要: 对不同类型学校的774名有效被试实施数学学业成就水平测试,并应用irt参数模型方法进行分析,得出四点判断:(1)测验分数、最优分数呈负偏态分布;(2)测验信息函数负向偏移,大体呈现双峰波形;(3)主观性试题与逻辑斯蒂模型的拟合性较差;(4)不同类型学校学生的数学学业成就水平存在显著性差异。
中图分类号: g44 文献标志码: a 文章编号: 10012435(2012)01006707
an empirical analysis on mathematical academic achievement test based on irt
shen nanshan ( dept of math,west anhui university, lu’an anhui 237012, china)
key words: mathematical academic achievement; criterion-referenced evaluation; irt; information function ; empirical analysis
abstract: mathematics academic achievement of proficiency test is based on the national mathematics curriculum standards, which is criterion-referenced evaluation that constructed professionally in order to assess student mathematics learning quality in basic education. through stratified sampling, 774 valid subjects distributed in the different types of schools are to be for mathematics academic achievement testing. we analysis analyse the test dates in applying the irt parameter model and obtain four judgments:(1) test scores and the best scores should be positively distributedshow negative skewness; (2) the test information function should be offset to the negative direction, so that there would be generally show a double waveform. (3)the subject item is poorly fit with the logistic models; (4) there is an obvious difference among the mathematics academic achievement levels of different types of schools.
学生学业成就水平测试是教育心理学研究中一个重要课题,它的定位是“国家课程测验”,测试结果及其分析是评价学生、教师和学校教育质量的重要依据,满足改善学生学习和教育问责两大功能。学生学业成就水平测试在欧美国家已形成了比较完备的学业评价体系,如,美国中小学学业评价测量体系,定期对4、8、12年级学生的阅读、数学、科学、写作等学科的学业成就和学习能力进行测试,客观分析和描述美国学生的学习状况;英国“资格与课程局”监管国家课程测验,负责制订国家课程和各种教育证书标准,组织统一的学业水平检测等。我国学生学业评价研究起步较晚,[1]就数学学科而言,我国还没有真正意义上的国家级数学学业成就水平测试,其测试内容、测试框架及测试功能均处于研究的初始阶段。随着项目反应理论(item response theory,irt)分析技术的推广与应用,学生学业成就水平评价的理念、方法及其实践范式将发生根本性的转变,irt模型可以很好地描述学生学业成就的数据特征,其科学性和有效性得到了可靠的保证,本文以此为主要研究方法,对数学学业成就水平测试进行研究,以期对我国基础教育数学学业评价改革提供参考。
一、研究方法
项目反应理论于50年代初正式创立,[2]20世纪70年代以来,成为现代测验理论研究的重点。近二三十年来,以项目反应理论为代表的考试理论研究取得了长足进展,对促进我国基础教育考试评价方式的改革具有方法论意义。[3]通常,irt模型建立在一维强假设理论基础之上,即被试的能力表现为一种"潜在特质",且与他们在测验项目上的正确反应概率之间存在一种特殊的函数关系。研究表明,这种函数关系所刻画的项目特征曲线可用多种数学模型来描述,如单参数、双参数、三参数及多维irt模型等。[4]项目反应理论研究表明:[5]229-241在三参数逻辑斯蒂模型的参数估计中,一个基本条件是要求高能力的被试和低能力的被试样本需要足够大,否则算出的猜测参数c有时大于0.9,有时小于0.1,这与猜测参数c的意义不符。
至于多维irt模型的理论和实践更为复杂。因此,本分析研究基于样本容量大小和可操作性方法的考量,选择双参数模型的参数计算软件(irtp软件)计算项目参数。
研究假设是:(1)测试结果
分析能够解释与推论基于国家课程标准的数学学业成就水平的评估;(2)irt参数模型方法应用于数学学业成就水平测试具有科学性和有效性。
本研究选择的测试对象为义务教育八年级学生。为探讨不同层次和类型学校学生的数学学业成就水平,样本通过分层抽样,在安徽省l地区的农村和城市抽取三种类型学校(农村学校、城区学校和私立学校)840名学生参加了测试私立学校在义务教育中发挥了较好的作用和办学优势,本研究在抽样设计时充分考虑到这一因素,将其从城区学校的抽样中单列为一类学校加以分析。
,三种类型学校平均发放样本。试卷回收后,得有效样本数为774份,有效率92.14%。其中农村学校有效样本数264份,有效率94.3%;城区学校有效样本数253份,有效率90.4%,私立学校有效样本数257份,有效率91.8%。
测试工具为测试试题和调查问卷两部分。测试试题为“标准参照性评估”试题,其编制是基于国家数学课程标准和国内五套不同教材的比较分析,本研究比较了人民教育出版社、北京师范大学出版社、`华东师范大学出版社、江苏科学技术出版社和浙江教育出版社出版的教材。
共列出义务教育八年级数学内容评测指标细目计有63个,扣除9个未出题,测试试题共针对54个细目指标出题(包含间接性应用细目知识),命题内容覆盖率达85.7%。测试试题在某市进行了300名被试的预测,根据预测分析报告,确定试题的难度系数为0.75-0.85之间,试题的容易题、中度题和难度题的比例为6:3:1,比较符合整体性的数学学业成就施测要求,以此数据为参量标准校正改编试题。[6] 本测试试题共设计17个试题项目,所有试题项目用m1,m2,……,m17编码。调查问卷用学生父母的收入、职业以及文化程度作为学生家庭社会经济地位的测量,用学校环境问卷对学校学习环境进行测量。
数据分析与处理
所有测试数据用excel格式和“记事本”格式输入,利用 spss和irtp工具软件计算测试项目的相关参数,如难度和区分度、信息函数、测验分数分布、能力参数估计、与逻辑斯蒂(logistic)模型的拟合性检验以及非参数显著性检验等。
(一)项目难度和区分度
测验试题的难度和区分度是反映试题项目信息的一个最基本的数据特征。全卷17个试题项目共分划为37个节点(步骤)评分,选择题和填空题为二级评分项目,解答题为多级评分项目,每一个试题项目通过项目特征曲线和节点得分曲线准确刻画每一个项目(节点)的难度和区分度。例如,一道满分为9分的多级评分试题项目 有三个节点,该试题项目为四级评分:0分、3分、6分、9分,其项目特征曲线和节点得分曲线如图1所示。
图1是项目特征曲线,表明三个节点的难度系数分别为1.65、0.83、0.01,对应的区分度分别为1.89、1.31、0.78。下图是节点得分概率曲线,可以看出被试能力小于1.5,得0分概率逐渐增大,答其他分的概率较小;被试能力位于(1.5,0.5)之间,得3分概率
b=1.65,0.83,0.01 a=1.89,1.31,0.78
图1 试题项目特征曲线和节点得分曲线图
最大,答其他分的概率较小;被试能力大于0.5,得9分的概率逐渐增大。
(二)测验信息函数
测验信息函数是irt模型中用来表示被试能力水平估计值的测量精度,反应整个测验总体信息量的走势特征。信息函数从根本上改变了经典测量理论依赖于样本的测量误差分析的方法和技术,将试题的难度与被试的能力特质水平置于同一个度量系统上,对被试的“能力参数”进行测量。测验信息函数反应整个测试
项目的总体信息量,具有叠加性,是每一个试题项目信息量的
图2 测验信息函数图
和。每一个测验项目的信息量取决于该试题项目的区分度和被试的能力水平与试题难度之差。区分度越大,被试的能力水平与试题难度之差越小,测验项目提供的信息量越大。[7]
本次测验信息函数如图2所示,图像大体呈现双峰波形。整个来看,对于被试能力位于区间(3,1.5)范围内的被试提供了较大的测验信息,对被试能力值在2.8附近提供了极大信息量,在1.4附近达到一个较小峰值,而对被试能力在其他区间的被试所提供的信息量较小。
(三)测验分数、最优分数及能力参数、能力分数参数估计
1.测验分数、最优分数呈负偏态分布
irt模型中,能力分数是由能力参数转化而来,是一
参数不变量。测验分数是被试的实
测分数,最优分数是按“最优评分权”①
评定的分数,即只有当被试的能力参数与测验项目的难度充分匹配的时候,被试才能在该项目上得高分。[8]统计数据分析显示:能力分数呈正态分布,而测验分数、最优分数呈负偏态分布(如图3-图5所示)。被试的最优分数分布与测验分数分布也存在一些差异。统计表明,最优分数在(80,90)的高分段的比例占总数的14.5%,与测验分数同段高分比例21.8%相差了7.3个百分点。
2.能力参数、能力分数参数估计置信区间
能力参数、能力分数参数估计置信区间是保证测验有效性的重要参量指标。项目反应理论研究表明:当测验项目的样本容量足够大时,能力
计精度较好,其估计误差在0.6个θ0左右,这与信息函数所反映的测量指标具有一致性。就是说,在95%的置信度下,如果某个被试的能力估计值为零,其真值将位于区间(0.6,0.6)范围内.而对于能力估计值大于1.5或小于3的被试,其估计误差都大于0.6个θ0以上。
同理,当测验项目的样本容量足够大时,能力分数估计量的极大似然估计渐进服从正态分布,
即当n∞时,ax^g3渐进服从n(x0,400/i(θ0))。[5]155156
所以,对置信水平α=0.05,由正态分布表,可查得双侧分位值
uα2=1.96,于是在95%的置信度下,有不等式
|ax^g3-x0|<1.96×20i(θ0)
成立,这样,能力分数x0的95%置信区间为
(ax^g3-1.96×20i(θ0),ax^g3+1.96×20i(θ0))。
一般地,x0通常是未知的,可用x0的极大似然估计ax^g3代替。图7是该次测验的信息函数得到的置信区间,图中的带形区域就是能力分数参数估计值95%的置信区间,图中的横坐标表示能力分数估计值,纵坐标表示能力分数真值,下曲线是能力分数置信区间
(ax^g3-1.96×20i(θ0),ax^g3+1.96×20i(θ0))
的左端点曲线,上曲线是右端点曲线。
我们看到,该次测验对能力分数值位于区间(20,80)内的被试的估计精度较好,其估计误差在10分左右。就是说,在95%的置信度下,如果某个被试的能力分数估计值为20,其真值将位于区间(10,30)范围内。
3.测试数据的拟合性检验
(1) irt逻辑斯蒂模型的卡方拟合检验
本研究中,我们对17个测试项目的37个节点项目进行了卡方拟合性检验,如表1所示:
从表1可以看出:有11个试题项目(主要是客观题)完全拟合逻辑斯蒂模型,有3个试题项目基本或部分拟合逻辑斯蒂模型,基本或完全拟合逻辑斯蒂模型约占83%以上;但有3个试题项目完全不拟合逻辑斯蒂模型。
(2) 测试数据的拟合优度非参数检验
逻辑斯蒂模型的拟合性检验是对单个项目(节点)的有效性检验,然而单个项目的有效性并不足以保证测试一定是有效的,反过来,个别项目拟合性不好,如节点划分、随机误差等因素的影响,也不能得出整个测试是无效的结论,还需对整个测验进行显著性检验。
* 单样本k-s拟合优度的非参数检验
从表2结果可看出: 测验分数、最优分数k-s的z统计量分别为3.281、3.329,对应的相伴概率都为0.000,小于显著性水平0.05,因此,测验分数、最优分数都不服从正态分布,而呈负偏态分布。而能力分数k-s的z统计量为1.275,对应的相伴概率为0.077,大于显著性水平0.05,因此, 能力分数服从正态分布。能力分数是一个参数不变量,对于大样本来说,学生的能力参数呈正态分布是自然的。
检验结果表明,三种类型学校的均值和平均秩有较大差别(表3),私立学校大于城区学校,城区学校大于农村学校。平均秩的卡方检验值为79.595,其相伴概率0.000小于显著水平0.05(表4),所以,这三种类型学校的分数分布具有显著差异。中位数统计结果表明,农村、私立学校、城区学校的测试分数大于中位数的个数分别为88、174、119(表3)而三种类型学校的有效样本数相差不大,农村学校的有效样本数还略高于其他两类学校。卡方检验值为62.27,其相伴概率0.000小于显著水平0.05(表4),同样说明这三种类型学校的分数分布有显著差异。
三、 研究结论及建议
(一)结果分析与讨论
1.测验分数、最优分数呈负偏
态分布。数学学业成就水平测试是一种标准参照考试,不同于选拔性的常模参照考试,考试功能之一是国家层面上的基础教育质量评估监测,决定了评测性质主要在于考察学生基础知识和基本技能的掌握能力。
因此,就数学学业成就水平测试的考试性质和功能定位来说,测验分数、最优分数呈负偏态分布具有合理性。同时,我们看到,在最优评分权下,高分段的比例下降7.3个百分点,
是最优分数受测验难度的影响要小一些,虽然最优分数和测验分数都依赖于测验样本的难度,但在最优评分权下,如果被试的能力参数与测验项目的难度不匹配,被试在项目上的得分就会降低。由于这一原因,使用“最优评分权”方式评分,能够去掉了一些由于测验因素造成的虚假高分,从而使分数的分布更为合理。
2.测验信息函数负向偏移,大体呈现双峰波形。统计分析表明:17个项目中有15个项目(约占88%)在被试能力小于零的参数点附近达到峰值,这个数据走势反映学业成就水平测试对于测查“能力弱”的被试所提供的信息量较大,对测查“能力强”的被试所提供的信息量较小。数学学业成就测试考虑的是整体性的基于课程标准的“达标”水平测试,试题编制控制了较难的题目,对于能力较好的被试可能区分度较差,
测试的信息函数峰值向能力较弱的被试群体偏移。从项目反应理论观点来看,测试的整体信度函数负向偏移是正常的合理的,也与测验分数、最优分数呈负偏态分布具有一致性。本次测试对被试能力在-2.8附近提供了极大信息量,表明测试的难度与学生能力较弱群体比较充分匹配。一般常模参照测验,较理想的信息函数曲线应当是正态分布曲线。但对于学业成就水平测试,显然“正态分布” 信息函数曲线是不足取的,因为它不是甄别选拔考试,它与数学学业水平测试设置的“合格”分数线有关。理论上,可以通过变更试题项目难度达到任何要求的精度。
3.主观性试题与逻辑斯蒂模型的拟合性较差。
完全不拟合逻辑斯蒂模型和部分拟合逻辑斯蒂模型的的一个共同特点是主观性试题占很大成分,
如“方法探究题、解释性开放题、操作性测查题”等,问题的背景知识较多,多属于文字说明性和数学知识性混合式解答。出现这种结果笔者认为主要有两个原因:(1)主观性试题难以满足irt的一维性假设(即被试的能力表现为一种“潜在特质”),因为数学主观题在解题能力方面,涉及多知识因素、多能力思维等的综合,难以用一种因素作概括,这样以irt中的一维性假设确定的数学模型,显然难以得到理想的拟合。(2)多级评分理论建立在每一个试题项目节点的划分上,对于主观性试题,节点逻辑关系不甚明显,划分起来相对比较困难,“准确度”相对较差,而且节点之间包含关系不强,甚至成平行逻辑关系,这个因素也极大影响测验数据与逻辑斯蒂模型的拟合程度。
4.不同类型学校学生的数学学业成就水平存在显著性差异。在农村、私立、城区三个不同类型学校的检验结果显示,不同类型学校学生的数学学业成就水平有显著性差异,且为私立学校学生为最佳,城区次之,农村学生则有很大的落后趋势。究竟为何有此一结果?是教学方式的不同、学生的学习习惯的差异或是其他原因值得进一步探究。但从试题上反映,大多数学生对
试题的内容、结构特点和策略方法训练不够,元认知调控能力较差,尤其农村学生表现更为突出。调查问卷也表明,私立学校和城区学校实施素质教育的重视程度和课程教学的落实情况均较农村好。由此,我们也可不完全推论,数学素质教育成效与学生的学业成绩呈“正相关”的推论。
(二)研究建议
1.建构完整的义务教育数学学业成就水平评估检测系统。义务教育学业成就水平检测是一种大规模的教育评价考试,其评测体系是我国基础教育质量监测的一项重要而又艰巨的任务。就数学学科而言,我国迫切需要在专业化水准上建设义务教育阶段的数学学业水平检测系统,应用irt理论开发数学学业成就水平测查题库,并利用irt“垂直等化”方法将不同年级的试题连结起来,逐步实现应用计算机“自适应”测验,大规模测试不同能力学生的学业成就水平。
2.探索多元测评理论有机整合的学业测评模式。学业水平考试是一项专业化的工作,学术性很强,经典测量理论和项目反应理论各有其优缺点,需要根据不同教育测评理论的测量模型估计方法,尝试不同的测验设计方案
实践应用过程中的比较研究,探索出适用于我国义务教育教学质量监控与评价的最优方案。例如,在试题项目的题型选项设计、多级评分项目阅卷、分数推论与解释等,尽量避免项目反应理论在主观题上的不利因素,可将经典测量理论和项目反应理论有机地结合起来,科学地分析学业水平测试数据,为学业评价提供具体可靠的数据信息。
3.中小学要进一步转换数学教与学的方式。转变教育观念,改进教学方式,提高学生综合解决数学问题的能力仍然是基础教育教学的一个盲点,没有真正得到落实。测试表明,学生对探究性、开放性等“能力型”数学问题的解答元认知调控能力较差,对这类问题心存畏难情绪,不能形成良好的数学认知结构。主要原因之一是中小学数学教学缺乏必要的“问题解决”思维训练,忽视学生的实践能力和创新思维的培养。
4.实施数学素质教育需要城乡教育均衡发展。从数学学业水平测试中,我们感悟到,农村和边远地区学生学业水平有待提高,素质教育没有得到真正落实。因此,加强农村教育教学工作是全面实施素质教育的中心任务,教育部门应科学决策,以农村教育课程、教学与评价为重点,促进课程与教学评价的专业化,整体提高我国教育评价的科学性和有效性,推动我国义务教育学生学业评价事业的科学发展。
参考文献:
[1] 崔允漷等.基于标准的学生学业成就评价[m].上海:华东师范大学出版社. 2008:172.
[2] 戴海琦.基于项目反应理论的测验编制方法研究[j].考试研究,2006,(4):31-32.
[3] 辛涛.项目反应理论研究的新进展[j].考试研究,2005,(7上).
[4] frederic m. l.applications of item response theory to practice testing problems [m].new jersey:lawrence erlbaum associates,inc.publishers,1980:12-14.
[5] 杜文久.高等项目反应理论[m].重庆:西南师范大学出版社,2007.
[6] 沈南山,杨豫晖,宋乃庆.数学学业成就评价测查试题编制研究[j].教育研究,2009,(9):57-63.
[7] 雷新勇.大规模教育考试:命题与评价[m].上海:华东师范大学出版社. 2006:75-79.
[8] 漆书青,戴海崎.项目反应理论及其应用研究[m].南昌:江西高校出版社,1992:168-175.
[9] 张敏强.教育测量学[m].北京:人民教育出版社,1998:169.