项目反应理论-实验中心

随着心理科学的不断发展，心理与教育测验理论也已经有过百年的发展史。大体可以把现有的心理与教育测验理论分为两个部分：随机抽样理论(Random Sampling Theory，RST)和项目反应理论(Item Response Theory,IRT)。其中，RST又包含了古典测验理论(Classical Test Theory，CTT)和概化理论(Generalizability Theory，GT)。在 RST的核心定义中认为：观察分数等于真分数加上误差，但在实际数据分析中，真分数是无法获得的，因此在使用观察分数对被试或项目进行评价时就会引入一些误差因素，导致 RST 在应用中出现了一定的局限性，如：测验结果拓广有限性、测验分数的测验依赖性、统计量的样本依赖性、被试能力与项目难度两个指标含义的非统一性、测量误差估计的笼统性等(漆书青, 戴海崎, 丁树良,2002; 罗照盛, 2012)。RST的各种局限性在其自身的框架内已经无法被克服，要进一步适应当今测量实践的需要，就需要寻找并建立一种新的测验理论。

随着 20 世纪 50 年代初第一个项目反应理论模型(Item Response Model, IRM)——双参数正态肩形模型(Two-parameter Normal Ogive Model) (Lord, 1952)的提出, 测验理论经历了从RST 到IRT的创新性变革。并且在过去的半个世纪中,IRT 已经逐步取代了CTT的核心地位,在现代心理与教育测量实践中发挥着重要的作用(Embretson & Reise, 2000;De Boeck & Wilson, 2004; Ip, 2010a;辛涛，乐美玲，张佳慧, 2012)。

1、项目反应理论的基本概况

项目反应理论（item response theory）也称潜在特质理论或潜在特质模型，是一种现代心理测量理论，其意义在于可以指导项目筛选和测验编制。项目反应理论假设被试有一种“潜在特质”，潜在特质是在观察分析测验反应基础上提出的一种统计构想，在测验中，潜在特质一般是指潜在的能力，并经常用测验总分作为这种潜力的估算。项目反应理论认为被试在测验项目上的反应和成绩与他们的潜在特质有特殊的关系。通过项目反应理论建立的项目参数具有恒久性的特点，意味着不同测量量表的分数可以统一。项目反应理论通过项目反应曲线综合各种项目分析的资料，使我们综合直观地看出项目难度、鉴别度等项目分析的特征，从而起到指导项目筛选和编制测验比较分数等作用。

项目反应理论的基本思想是确定被试的潜在特质和他们对于项目的反应之间的关系，被试的表现和这组潜在特质之间的关系，可通过一条连续严格递增的函数来加以诠释，此函数称为项目特征函数，而把不同能力的被试在某测试项的得分期望连结成线，此曲线称为项目特征曲线（ICC）。这种关系的数学表现形式就是“项目反应模型”。但这种模型是概率性模型。确切地讲，项目反应模型表示的是被试潜在能力和被试能正确答对测试项的概率之间关系的数学形式。从这个角度来讲，项目反应理论的核心就是数学模型的建立和对模型中各个参数的估计。为了定量地描述被试对于测试项的反应，测量学家们提出了各种各样的模型。一般认为，罗吉斯模型和正太卵形模型是得到普遍应用的两个模型。下面以罗吉斯模型为例，简单介绍以罗吉斯数学模型为基础的三种不同模型。IRT 有三个项目参数，即难度（difficulty）、区分度（discrimination）和猜测系数（guessing）。根据不同参数，特征函数可分为三种参数模型：第一，单参数模型（one-parameter model），也称罗氏模型（Rasch model），在这个模型下只包括难度，且区分度恒定为 1。第二，双参数模型（two-parameter model），包括难度和区分度。第三，三参数模型（three-parameter model），包括难度、区分度和猜测参数。

与经典测验理论相比，项目反应理论是建立在强假设基础上的。IRT有三个基本假设：第一，潜在特质空间的单维性假设，是指组成某个测验的所有测试项都是测量同一潜在特质（俞晓琳，1998）；第二，项目特征曲线假设，是指被试对项目的正确反应概率与其潜在能力之间存在函数关系，其基本模型为罗吉斯函数（logistic function）。第三，局部独立性假设，是指项目参数的估计值独立于被试，即多个被试的不同能力水平不影响项目参数；同时，被试潜在能力与测试项的难易度无关，即不同难度的测试项都能测量出同一个被试的同一潜在能力。

2、项目反应理论的应用

（1）对题库（item pooling）建设的特殊贡献

题库质量高低的一个重要标志是题库中测试项参数的完备性与准确性。CTT 题库的计量技术参数主要是难度、区分度、猜测度，IRT 题库的计量技术参数除这三个外，还增加了测试项信息函数。把测试项信息函数作为技术参数存入题库是 IRT 独有的，提高了题库参数的完备性和题库管理的可控性。另外，参数准确性也是题库质量的重要条件。在 CTT 的题库建设中，建题库者力求测试项参数的准确性，但 CTT 测试项参数的估计严重依赖于样本，这给维持参数的准确性带来了困难。在 IRT 中，由于测试项参数具有跨群体不变性等特点，使测试项参数更具准确性。

（2）常模参照测验 ( norm-referenced testing ) 的编制

测验编制的一个重要目标是要使测验误差达到最小。在 IRT 中，可以预先规定在特质量表上所有值的最大允许误差，然后利用公式求出所有水平值上的最小允许信息量，形成一个信息函数。这样，测验中用较少的试题就可以达到不超过允许误差的要求，提高了测验的效率。

（3）标准参照测验 ( criterion-referenced testing ) 的编制

标准参照测验的编制有两条原则：一是准确划定合格的分数线，二是要尽量降低对被试合格与不合格的误判率。项目反应理论在备有题库条件下组拼标准参照测验可以比较理想地实现这两条原则。

（4）计算机化自适应测验 ( computerized adaptive testing，CAT ) 的编制

随着计算机技术的普及和 IRT 的发展，计算机自适应测验正日益成为国际上大型测验的主流。由于 CAT 具有节省时间，安全性好以及可以及时提供被试成绩等优点，被迅速应用到多个领域。计算机化自适应测验是当今测验技术的最高水平，也是项目反应理论最有特色的应用。

参考文献

1.丁树良,罗芬,涂冬波.(2012).项目反应理论新进展专题研究.北京:北京师范大学出版社

2.康春花,辛涛.(2010). 测验理论的新发展:多维项目反应理论.心理科学进展, 18(3),530–536.

3.罗照盛.(2012). 项目反应理论基础. 北京:北京师范大学出版社

4.漆书青.(2003).现代测量理论在考试中的应用. 武汉:华中师范大学出版社