CLA-中国外语测评中心

科普小文 | 四问测试信度

2020-04-24

其实，这就牵扯到测试的信、效度问题。效度（validity）话题我们之前专文讨论过，感兴趣的小伙伴请戳《剑桥大学承认中国高考原来意味着……》。本篇推文将为大家重点介绍信度（reliability）这个概念。

本节重点预告

测试信度是什么？
如何检验测试信度？
如何提高测试信度？
信度和效度的关系是什么？

当前教育与心理测量界有三大理论：经典测验理论（Classical Test Theory）、项目反应理论（Item Response Theory）和概化理论（Generalizability Theory）。

三大理论对信度的表述各有不同，但应用最广泛、最为人熟知的还是经典测验理论（CTT）下的信度观（唐宁玉，1994；陈社育、余嘉元，2001）。

因此，本文主要介绍CTT框架下信度的相关概念。

▶ 测试信度是什么?

信度指试卷测试结果的一致性、稳定性和可重复性（Christensen，2005）。信度高的测试，多次使用后得到的测试结果是相同或者相近的。

比如，同一份试卷，排除练习和记忆的干扰因素，同一个考生在两周内作答了三次，成绩分别是10分、50分、80分，那么显然这份试卷结果没有一致性，信度很低，不具备参考价值。

▶ 如何检验测试信度?

按照是否需要根据多次测试的结果来验证信度，信度的检验方法可以分为以下两大类：

【类别1】需要单次测量的方法：主要为了考查试卷的各个试题是否测量了相同的内容或特质（Kaplan & Saccuzzo，2012），即检验测试内部题目之间的信度关系。包括折半法/分半法和内部一致性法。

【类别2】需要多次测量的方法：对累计测试结果进行比较来验证测试的信度，测试结果的差异越小，则测试信度越高。包括重测法和复本法。

下表对各种信度检验方法进行了说明：

▶ 如何提高测试信度?

在回答这个问题之前，需要明确影响信度的根源究竟是什么。

首先，我们有必要了解一下经典测验理论框架下的信度理论的三个基本概念。

可见，误差是影响测试信度的重要因素。因此，要想提高测试信度，就需要尽可能地控制误差。

误差的来源有很多，主要有考生、评分者、施考和试卷本身四个方面（Brown，2003）。那么我们该如何从这几个方面入手，来提高测试信度呢？

以下给大家几条小建议。

【Tip 1 for 考生】

考生要注意调节身体和心理状态，尽量避免突发身体不适、过度紧张等状况，确保正常发挥。

同时，考生应该注意通过模拟考等方式，事先熟悉测试的题型、试卷的排版等，以防因为上述问题而出现临场焦虑等问题（Kleeman，2018）。

【Tip 2 for 评分者】

在主观性题目评分方面，首先，评分标准应该描述清晰，细致客观。

其次，对评分者进行必要的训练，向他们精准、统一地解读评分标准，提供试评样本，进行试评训练，保证评分的一致性和稳定性（Kleeman，2018）。

此外，在评分过程中应注意评估评分者的评分表现，及时进行调整，必要时进行评分者信度检验。

最后，评分过程中应该注意隐藏考生个人信息（Hughes，1989）。

【Tip 3 for 施考】

施考方面，应该严格遵循施考的统一性。试卷的排版和印刷标准、考试时间的合理安排、听力测试的音频条件、桌椅的摆放标准、考试环境干扰因素的排除等，各处考区都应该力求做到统一（Hughes，1989：40）。

【Tip 4 for 试卷】

在试卷方面，命题人除了应该提供清晰的题干信息、没有歧义的选项之外，也可以通过增加试卷长度，来提高测试信度（Association，2014）。

但要注意试卷也不宜过长，一是考试时间有限；二是试卷过长，考生状态会受影响；三是信度有临界点，不会一直随着题目的增加而提高。一般做法是，通过试测，摸索出一个合理方案，如果试测信度低，就要考虑试卷的长度和题目数的问题；如果试测信度不是很低，但未达到高信度要求，就可考虑整个试卷结构的问题，不必追求增加题目数（桂诗春，1986：135）。

▶ 信度和效度的关系是什么?

传统上，我们把信度视作效度的前提，即“必要不充分条件”（Kane， 2013）。我们可以以下方的三个靶子为例。

每打靶一次可以看做一次测试，靶心是考生的真实能力，我们的目标就是每次打靶都能正中靶心。

【靶1】每次打靶位置非常分散，代表低信度、低效度。
【靶2】每次打靶位置相近，但是都在外环位置，代表高信度、低效度。
【靶3】每次打靶都接近靶心，代表高信度、高效度。

目前，信度和效度的关系又发展到了一个新阶段。整体效度观下，信度虽仍旧是评价成绩准确性的重要维度，但已被降格为效度证据来源的一个方面。信度高，效度不一定高，因为成绩一致性高，并不意味着成绩解读与使用的合理程度高（罗凯洲，2019）。

本节重点回顾

在经典测验理论框架下，信度指试卷测试结果的一致性、稳定性和可重复性。
信度检验方法包括：折半法/分半法，内部一致性法，重测法，复本法。
我们可以从误差的来源（主要有考生、评分者、施考、试题本身四个方面）入手，提高测试信度。
传统上，信度被视作效度的前提，即必要不充分条件。整体效度观下，信度成为效度证据的一个来源。

▶ References

American Educational Research Association, American Psychological Association, National Council on Measurement in Education. (2014). Standards for Educational and Psychological Testing. Washington DC: American Educational Research Association.
Brown, H. D. (2003). Language Assessment- Principles and Classroom Practice. Pearson ESL.
Christensen, L. B. (2005). Experimental methodology. Beijing: Peking University Press.
Cortina, J. M. (1993). What Is Coefficient Alpha? An Examination of Theory and Applications. Journal of Applied Psychology, 78(1), 98–104.
Hughes, A. (1989). Testing for language teachers. Cambridge: Cambridge University Press.
Kane, M. T. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, (1), 173．
Kaplan, R. M. & Saccuzzo, D. P. (2012). Psychological Testing: Principles, Applications, and Issues. Cengage Learning.
Kleeman, J. Six tips to increase reliability in competence tests and exams. Retrieved April 2, 2020, from https://www.questionmark.com/six-tips-to-increase-reliability-in-competence-tests-and-exams/
陈社育，余嘉元. 经典真分数理论与概化理论信度观评析[J]. 心理科学进展，2001（03）：258-263.
桂诗春. 标准化考试——理论、原则与方法[M]. 广东高等教育出版社，1986：131-135.
李筱菊. 语言测试科学与艺术[M]. 长沙：湖南教育出版社，2001：34-37．
罗凯洲. 整体效度观下语言测试四种效度验证模式：解读、评价与启示[J]. 外语教学，2019（06）：76-81.
唐宁玉. 三种心理测量理论的信度观[J]. 心理科学，1994（01）：33-38.
薛荣. 经典真分数理论与语言测试中的误差控制[J]. 外语电化教学，2012（03）：46-50.