【观点】人格/个性测评工具在中国企业的应用和挑战

▌好测验的四个标准

大家在选择人才测评工具的时候不是随随便便选的，而是一定要有过硬的理由。所以好的测评工具应达到四个标准。第一个是信度。第二个是效度。第三个是效用，即，我选择的测评工具是不是有投资回报。在美国还存在一个问题是法律风险。美国有很多少数族群，尤其是黑人，使用这些测试有时会让他们感觉被歧视。如果公司拿不出证据来证明所用的测试工具是合法的，就有可能被控非法歧视，引发很大的经济赔偿。所以在测试工具的使用上规避法律风险也是非常重要的。我回国前曾在AT&T工作过两年，因此很了解这些情况。第四个是可行性。测评工具如果在操作上很复杂的话，会给实际运用带来不便。为什么最近一段时间人格/个性测评工具非常流行呢，因为它相对来说比较好操作，在网上测试即可。而且在线的个性人格测评对所有员工都是适用的。但像人才评价中心一类的操作就比较复杂、成本也相对较高，所以使用的范围就大大受到限制。

信度和效度的基本概念

按照国际标准（也就是美国标准），信度系数大于0.9的测评工具是优秀的测评工具。一般来说，业界通常将信度系数的低限设定为0.7，如果信度达不到这个低限，就意味着测评工具需要修改。美国劳工部专门有一个指南（见表1），帮助企业选择测评工具。

表1：

信度系数	解释准则
≥0.90	优秀
0.80-0.89	良好
0.70-0.79	合格
<0.70	适用性有限，需修改

在国内，大家对MBTI非常了解。但MBTI的信度恰恰是很成问题的。大家的资料上有篇文章叫做《告别MBTI》，是沃顿商学院格兰特教授写的。他前后两次体验了MBTI，但两次的测试结果完全不一样。第一次的测试结果是INTJ（内向-直觉-思考-判断），但是过了几个月再做测试就变成了ESFP（外倾-感觉-情感-知觉）。同样一个人，短短几个月之内性格就发生了这么大的变化，是不太可能的。这说明MBTI的重测信度是经不住严格检验的，学术界对这个局限性也有很多批评。所以在美国，类似的工具人们就不敢轻易使用，因为会有法律上的风险。MBTI的使用手册开宗明义就讲到该测验是不能用于人员选拔的。

接下来说说效度的概念。我这里参照的是Page博士之前在明尼苏达大学授课用的教材。效度分为几个类型。

第一个是表面效度

测评工具要在表面上让被评人觉得这是在测试所要的心理特性（如个性）。

第二个是内容效度

情景模拟测试的内容效度通常很高，因为情景模拟都是通过分析工作岗位职责和工作内容而提炼出来的。所以它测试的内容和实际的工作是接近的。

第三个是结构效度

它是指一个测量工具是否测量了它本应测量的内容。例如Page博士的WBI是基于大五人格模型开发的，我们对三个国家（美国、中国和泰国）的测试数据都做了探索性因素分析，来检验WBI的五维度结构效度。结果都验证了WBI能明确检测出人格的五个维度。

我想重点说说第四种类型的效度，也是实证的效度，它可以分为同时效度和预测效度。

测评工具对企业最大的帮助就在于它能预测员工未来的工作表现。选拔员工的时候，企业运用某个测评工具测得一个分数，过了三个月、六个月或者一年以后，把员工的工作表现和之前的测试结果做一个相关，这就叫预测效度设计。但是对于企业来说，预测效度设计是有风险的，因为在研究阶段，企业必须将参加测试的候选人不经筛选地招进来，才能做业绩跟踪；而如果将不合适的员工招进来跟踪数月，实际上已经给企业带来了损失。所以，大多数企业并不愿意这么做，只有少数愿意支持严谨研究的企业才会愿意（例如上世纪50年代著名的AT&T评价中心效度研究）。

因此，要证明一个测评工具是否有效，也可以对企业现有的员工进行测评，看测评工具能否区分出好的员工和差的员工，这样也能看出一个测评工具能否预测员工未来的工作表现。这就叫做同时效度设计，虽然它也同样存在局限性。

除了表面效度没有价值以外，其它四种效度都是有实际价值、并且可以在法庭上作为证据使用的（参考美国工业组织心理学会的正式文件）。从商业逻辑上来说，雇主采用选拔的程序、工具来挑选优秀的人才，并预期他们未来给企业带来更好的业绩，这是正当、合理的要求。

在美国，选用测评工具进行人员筛选会存在非法歧视的风险。企业在选择录用/不录用某个人的时候，必须要证明筛选过程不存在非法歧视。此时，如果测评工具能提供效度证据，就可避免法律诉讼的风险；如果不能提供效度证据，或无法自证没有歧视，就可能被判高额赔偿。例如专门负责托福和GRE的美国教育考试服务中心（ETS）就曾因非法歧视而惹上官司，做出巨额赔偿。这说明即便是专业的测评机构也会有考虑不周的情况。所以，美国企业在应用这些测评工具时必须非常慎重。

一百多年来，心理学家们研究了很多测评工具和方法。他们发现，不同的测评工具的效度是不一样的（见图3）。评价中心虽然操作起来比较复杂，但相对来说效度较高。此外，结构化面试、工作样本和IQ测验的效度也是比较高的。一般来说个性测验的效度算是中等，因为个性测验存在一个“伪装好”的挑战。而且个性测验相对来说都是在线测评，成本低廉，所以能达到这样的效度已经很不错了。如果在美国你用占星术或者笔迹学进行筛选的话肯定是非法的。

刚刚说到MBTI的信度很低，在效度上，也有大量证据表明其MBTI不能预测员工未来的工作表现。此外，MBTI的结构效度上也存在问题（参见格兰特一文）。根据MBTI，思考和情感属于同一类别，是一个维度的两极，但其实它们是相互独立的两类特质。三十多年的研究都表明，你可以既喜欢概念和数据，也喜欢人际交往和感受情绪。结构效度不良，也使MBTI的有效性大打折扣。

今天的市场上鲜有中国心理学家开发的人格/个性的测评工具，这类工具大多是从国外引进的。然而，国外的测评工具如果没有经过本土化研究，而只是简单地翻译过来，信效度就会受到影响。比如MMPI经过很多年的研究才做到了本土化。16PF和EPQ在80年代就有了中文版，也曾有大量的研究制定出中国常模，但目前二者都遇到版权的问题。中国在90年代之前几乎没有版权的概念，进入WTO以后，这些中文版的测评工具都没有获得版权，因而严格意义上都是非法的。在没有版权的情况下，没有人会去研究、更新这些测评工具，因为这样的投入没有回报，所以现在中国没有正宗的16PF。大家会发现正规的企业，尤其是知名跨国公司基本没有人会用16PF。1999年，我在美国人事决策国际公司（PDI）做首席代表，当时我们把PDI专门用来筛选基层员工的诚信测评工具EI引入中国，结果发现它并没有效度，只得放弃在中国的推广。如果一个测评工具未曾进行效度研究，那么它就不应推广。中欧的一位知名教授现在在推广PDP，但Page博士在美国并未见到过这个工具，我也没有看到它在中国应用的效度证据。在我看来，这些测评工具都是可疑的。因为这些测评工具的开发者可以在学术界（比如在工业组织心理学年会上）通过学术交流来打擂台，但是实际上他们并没有这样做。外行人通常看不懂这些专业性很强的测试工具的技术参数，所以同行的评议和检验往往是比较有效的。我们可以看到，很多工具虽然在大力推广，但是真正的效果是值得质疑的。

中国引进最多的测评工具都是用于职业发展的，例如当下流行的DISC、MBTI、九型人格以及其他一些测评工具。大家都知道，职业发展的测评都是为被评人本人服务的，测试的报告只给被评人自己看，而且现场就能得到分数，像MBTI如何算分数自己都是非常清楚的。由于问卷结果是给自己看的，所以这类问卷不需要应对“伪装好”的问题，因此开发的技术等级是非常低的。一旦将这类测评工具用于选拔，情况就完全不同了，就要经受“伪装好”的考验。

我特意查了一下DISC的情况。美国出版商Inscape的网站上有很多效度报告。我查看了这些效度报告以后，发现有关DISC的效度研究报告没有任何关于校标关联效度（即，预测效度和同时效度）的研究。所以这样的测验不是用于选拔的，因为不用于选拔就不需要预测效度和同时效度。

▌效度研究范例——安全行为倾向测验（API）的同时效度研究

我接下来说说怎样证明一个测评工具是有效的。这里我给大家分享一个安全行为测评(API)的案例。

能源化工行业很容易发生事故，比如中石化的青岛爆炸事件。有些人的个性桀骜不驯，可能会很有创意，比如乔布斯，但如果让这类人去安装操作器械装置的话，他可能很不耐烦。这类人在某些时刻（紧张压力状态下）就容易闯祸，这就和个性或者人格有关。API就是专门用来预测一个人是否适合安排在安全生产岗位上的。我们的一个客户在安全生产方面临严峻的挑战，因此他找到我们，希望我们帮助他鉴别哪些人在安全生产上是不牢靠的。我们采用的测评工具就是API，并且采用同时效度作为证据。我们让100个一线操作工人做这个测验，得到一组分数；同时让这100人的主管给这些工人过去一年的安全行为表现打分。对这两组分数进行相关统计分析，得出的相关系数就叫同时效度。我们发现有两个API指标的得分高低和工人的安全行为表现分数有显著相关。

效度系数是一个非常抽象的概念。我们先来看看API得分高和低的两组在安全行为表现上的分数会不会一样。我们发现在安全知识、安全行为、分享安全经验和报告不安全行为这几项上，API得分高的人的分数也比较高。API得分低的人在这些指标上得分也比较低（见图4）。

我们再来看看参考录取分数线。图5横线是安全行为表现的达标线，竖线是参考录用分数线。我们把这100人按照两个得分放在这四个象限里，大家可以看到91.6%的人是符合要求的，还有不到百分之十的人是应该被筛除的。那也说明这个测验本身能帮助企业做出正确的决策。

▌当前人格/个性测评工具在中国应用中的挑战

在中国，人格/个性测评的应用状况不是很理想。首要原因是这一块缺乏公认的规范和相应的法律保障。法律的缺位导致了测评工具的泛滥。据我了解，迄今为止，中国没有一家公司因为滥用心理测验而受到法律诉讼。当然我相信以后中国的测评会走上规范化的道路。

第二个问题是心理测量工作者的数量和质量都有待提高。现在违反测量原则和方法、测验使用不当或滥用的现象普遍存在。我举个例子。大家都知道IQ测验是要限时的，但是人格/个性类的测试时间是不受限的。我碰到一个客户向我反映，他们的供应商把个性和IQ测验放到一张问卷上，被评人可以给两部分题目自由分配时间，这就违背了测试的规则。我不知道在座有多少人听过菲尔人格测验，我自己是看到有一个国内的公司在招聘时竟然用这个测验。但其实网上流传的菲尔人格测验是用于娱乐的。这个所谓的人格测验没有经过正规的信效度研究。美国加州消费者保护局下属的心理学委员会（the California Board of Psychology）曾于2002年指出，菲尔的电视节目是娱乐性的，不是心理学节目，无须心理学执业牌照。所以这种测验在招聘上根本不可能是合法的。

第三个原因是实证效度的研究很难在中国企业中开展，所以中国少有效度研究的证据。由于中国经济的市场化才20多年，很多企业、尤其是政府机构、国有企业等单位在员工业绩考评数据的收集上还存在较大的难度，缺乏有效的校标数据。随着中国经济市场化程度的提高，应该会有越来越多的企业重视这个问题，因为它会影响到企业的经济效益。没有效度研究，就不能给企业带来效益回报。效度证据需要专业的人员，同时还需要大量的资金投入，如果没有法律规范的话很多企业会没有动力去做这个。

第四个原因是国外人格/个性测验的引进缺乏扎实的本土化研究。刚刚Page博士也提到的translation和back translation的问题。如果这方面做不好，中国的被评人就读不懂题目，或者他们理解的意思与题目的原意完全不同。所以，引进国外测评工具时需要大量的本土化研究，包括翻译测验题目时符合中国人的文化习惯、信度检验和持续修订（要求在版权上要有归属，盗版的测验是没有人去投资做这样的研究的）等一系列工作。

总的来说，人格/个性类的测试在中国依旧面临着很大的挑战。随着市场化的深入，越来越多企业需要高质量、有价值的测评工具。有效的测评工具确实能给企业带来效益，这应该也会推动测评工具的发展。谢谢大家。

来源：希典咨询梁开广