关注 | 你知道什么是教育评测吗？

一提到评测，人们想到的便是考试。一群人坐在房间里，拿着笔在试卷上勾选选择题的答案。没错，纸笔考试的确是一种评测，但它仅仅是一种评测的方式。评测的本质，是我们用以理解学习者理解程度的方式（how we understand what learners are understanding）。这里的“我们”不仅仅是指教师，还有学生和研究者。

评测的三种类型

形成性测验 formative assessment：

当一个测验是主要用来辅助学生的学习时，这个测验就是形成性测验。老师在课堂上的提问，学生的家庭作业，都是形成性测验。形成性测验能让学生检验自己是否真的学懂了知识点。老师也能利用形成性测验了解学生的学习进度，以便进行针对性的教学。形成性测验的难度不会太高，也不会计入学生的最终表现成绩。

总结性测验 summative assessment：

总结性测验是在课程结束后施验，用以评估学生究竟学到了多少东西。期中考试和期末考试都是总结性测验。全国性的高考等考试也都是总结性测验。总结性测验可以检验学生的水平是否达到了某个标准。通常来说，总结性测验的难度比较高。

表现性测验 performance assessment：

表现性测验是指把学习者置于一个模拟环境下，以评判其解决问题的表现。比如让学生设计物理实验，动手操作一个物理实验，然后根据实验数据得出结论。这样就能评判学生在该物理学实验上的表现究竟如何。表现性测验既可以是形成性测验，也可以是总结性测验。

评测真的有效吗？

广义地说，教育领域的评测就是以数字为抽象能力赋值。我们想要以数字的形式来表征学习者的知识量，表征学习者的能力水平。但是，知识量和能力水平并不像身高体重一样，拿尺子和秤就能简单地测量出来。所以我们需要为这些抽象的能力发明一把专用的尺子。在心理测量领域，这些尺子就叫做量表。

我们有抑郁症量表、人格量表、智商量表等等量表。学生在学校里参加的纸笔考试，其实也是一种量表。托福雅思考试，GRE考试等等，也都可以看做量表。但无论是哪种量表，我们都会遇到一个问题，这些发明出来的尺子，真的能有效地丈量我们想要丈量的东西吗？智商测验得分高的人就真的更聪明吗？通过GRE考试的人就真的更擅长做学术研究吗？

在心理测量学中，我们有一个关键概念，叫做效度（Validity）。它是指测量工具能准确测出我们想要测量的东西的程度。完美的测验，效度的值就应该等于1。可在所有的心理测量和教育测量中，都不存在这样完美的测验。效度能达到0.7就已经是非常好的测验了。

或许，我们并不需要完美的评测。日常生活中的变量实在是太多太多，我们无法将之全部纳入考虑中来。但是评测是我们用以理解学习者学习情况的非常有效的辅助手段。