新闻资讯

NEWS

公司新闻
行业新闻

【观点】人格/个性测评工具在中国企业的应用和挑战


▌好测验的四个标准

大家在选择人才测评工具的时候不是随随便便选的,而是一定要有过硬的理由。所以好的测评工具应达到四个标准。第一个是信度。第二个是效度。第三个是效用,即,我选择的测评工具是不是有投资回报。在美国还存在一个问题是法律风险。美国有很多少数族群,尤其是黑人,使用这些测试有时会让他们感觉被歧视。如果公司拿不出证据来证明所用的测试工具是合法的,就有可能被控非法歧视,引发很大的经济赔偿。所以在测试工具的使用上规避法律风险也是非常重要的。我回国前曾在AT&T工作过两年,因此很了解这些情况。第四个是可行性。测评工具如果在操作上很复杂的话,会给实际运用带来不便。为什么最近一段时间人格/个性测评工具非常流行呢,因为它相对来说比较好操作,在网上测试即可。而且在线的个性人格测评对所有员工都是适用的。但像人才评价中心一类的操作就比较复杂、成本也相对较高,所以使用的范围就大大受到限制。

信度和效度的基本概念

按照国际标准(也就是美国标准),信度系数大于0.9的测评工具是优秀的测评工具。一般来说,业界通常将信度系数的低限设定为0.7,如果信度达不到这个低限,就意味着测评工具需要修改。美国劳工部专门有一个指南(见表1),帮助企业选择测评工具。

表1:

信度系数

解释准则

≥0.90

优秀

0.80-0.89

良好

0.70-0.79

合格

<0.70

适用性有限,需修改


在国内,大家对MBTI非常了解。但MBTI的信度恰恰是很成问题的。大家的资料上有篇文章叫做《告别MBTI》,是沃顿商学院格兰特教授写的。他前后两次体验了MBTI,但两次的测试结果完全不一样。第一次的测试结果是INTJ(内向-直觉-思考-判断),但是过了几个月再做测试就变成了ESFP(外倾-感觉-情感-知觉)。同样一个人,短短几个月之内性格就发生了这么大的变化,是不太可能的。这说明MBTI的重测信度是经不住严格检验的,学术界对这个局限性也有很多批评。所以在美国,类似的工具人们就不敢轻易使用,因为会有法律上的风险。MBTI的使用手册开宗明义就讲到该测验是不能用于人员选拔的。


接下来说说效度的概念。我这里参照的是Page博士之前在明尼苏达大学授课用的教材。效度分为几个类型。



第一个是表面效度

测评工具要在表面上让被评人觉得这是在测试所要的心理特性(如个性)。


第二个是内容效度

情景模拟测试的内容效度通常很高,因为情景模拟都是通过分析工作岗位职责和工作内容而提炼出来的。所以它测试的内容和实际的工作是接近的。


第三个是结构效度

它是指一个测量工具是否测量了它本应测量的内容。例如Page博士的WBI是基于大五人格模型开发的,我们对三个国家(美国、中国和泰国)的测试数据都做了探索性因素分析,来检验WBI的五维度结构效度。结果都验证了WBI能明确检测出人格的五个维度。


我想重点说说第四种类型的效度,也是实证的效度,它可以分为同时效度和预测效度。


测评工具对企业最大的帮助就在于它能预测员工未来的工作表现。选拔员工的时候,企业运用某个测评工具测得一个分数,过了三个月、六个月或者一年以后,把员工的工作表现和之前的测试结果做一个相关,这就叫预测效度设计。但是对于企业来说,预测效度设计是有风险的,因为在研究阶段,企业必须将参加测试的候选人不经筛选地招进来,才能做业绩跟踪;而如果将不合适的员工招进来跟踪数月,实际上已经给企业带来了损失。所以,大多数企业并不愿意这么做,只有少数愿意支持严谨研究的企业才会愿意(例如上世纪50年代著名的AT&T评价中心效度研究)。


因此,要证明一个测评工具是否有效,也可以对企业现有的员工进行测评,看测评工具能否区分出好的员工和差的员工,这样也能看出一个测评工具能否预测员工未来的工作表现。这就叫做同时效度设计,虽然它也同样存在局限性。


除了表面效度没有价值以外,其它四种效度都是有实际价值、并且可以在法庭上作为证据使用的(参考美国工业组织心理学会的正式文件)。从商业逻辑上来说,雇主采用选拔的程序、工具来挑选优秀的人才,并预期他们未来给企业带来更好的业绩,这是正当、合理的要求。


在美国,选用测评工具进行人员筛选会存在非法歧视的风险。企业在选择录用/不录用某个人的时候,必须要证明筛选过程不存在非法歧视。此时,如果测评工具能提供效度证据,就可避免法律诉讼的风险;如果不能提供效度证据,或无法自证没有歧视,就可能被判高额赔偿。例如专门负责托福和GRE的美国教育考试服务中心(ETS)就曾因非法歧视而惹上官司,做出巨额赔偿。这说明即便是专业的测评机构也会有考虑不周的情况。所以,美国企业在应用这些测评工具时必须非常慎重。


一百多年来,心理学家们研究了很多测评工具和方法。他们发现,不同的测评工具的效度是不一样的(见图3)。评价中心虽然操作起来比较复杂,但相对来说效度较高。此外,结构化面试、工作样本和IQ测验的效度也是比较高的。一般来说个性测验的效度算是中等,因为个性测验存在一个“伪装好”的挑战。而且个性测验相对来说都是在线测评,成本低廉,所以能达到这样的效度已经很不错了。如果在美国你用占星术或者笔迹学进行筛选的话肯定是非法的。


刚刚说到MBTI的信度很低,在效度上,也有大量证据表明其MBTI不能预测员工未来的工作表现。此外,MBTI的结构效度上也存在问题(参见格兰特一文)。根据MBTI,思考和情感属于同一类别,是一个维度的两极,但其实它们是相互独立的两类特质。三十多年的研究都表明,你可以既喜欢概念和数据,也喜欢人际交往和感受情绪。结构效度不良,也使MBTI的有效性大打折扣。


今天的市场上鲜有中国心理学家开发的人格/个性的测评工具,这类工具大多是从国外引进的。然而,国外的测评工具如果没有经过本土化研究,而只是简单地翻译过来,信效度就会受到影响。比如MMPI经过很多年的研究才做到了本土化。16PF和EPQ在80年代就有了中文版,也曾有大量的研究制定出中国常模,但目前二者都遇到版权的问题。中国在90年代之前几乎没有版权的概念,进入WTO以后,这些中文版的测评工具都没有获得版权,因而严格意义上都是非法的。在没有版权的情况下,没有人会去研究、更新这些测评工具,因为这样的投入没有回报,所以现在中国没有正宗的16PF。大家会发现正规的企业,尤其是知名跨国公司基本没有人会用16PF。1999年,我在美国人事决策国际公司(PDI)做首席代表,当时我们把PDI专门用来筛选基层员工的诚信测评工具EI引入中国,结果发现它并没有效度,只得放弃在中国的推广。如果一个测评工具未曾进行效度研究,那么它就不应推广。中欧的一位知名教授现在在推广PDP,但Page博士在美国并未见到过这个工具,我也没有看到它在中国应用的效度证据。在我看来,这些测评工具都是可疑的。因为这些测评工具的开发者可以在学术界(比如在工业组织心理学年会上)通过学术交流来打擂台,但是实际上他们并没有这样做。外行人通常看不懂这些专业性很强的测试工具的技术参数,所以同行的评议和检验往往是比较有效的。我们可以看到,很多工具虽然在大力推广,但是真正的效果是值得质疑的。


中国引进最多的测评工具都是用于职业发展的,例如当下流行的DISC、MBTI、九型人格以及其他一些测评工具。大家都知道,职业发展的测评都是为被评人本人服务的,测试的报告只给被评人自己看,而且现场就能得到分数,像MBTI如何算分数自己都是非常清楚的。由于问卷结果是给自己看的,所以这类问卷不需要应对“伪装好”的问题,因此开发的技术等级是非常低的。一旦将这类测评工具用于选拔,情况就完全不同了,就要经受“伪装好”的考验。


我特意查了一下DISC的情况。美国出版商Inscape的网站上有很多效度报告。我查看了这些效度报告以后,发现有关DISC的效度研究报告没有任何关于校标关联效度(即,预测效度和同时效度)的研究。所以这样的测验不是用于选拔的,因为不用于选拔就不需要预测效度和同时效度。


▌效度研究范例——安全行为倾向测验(API)的同时效度研究

我接下来说说怎样证明一个测评工具是有效的。这里我给大家分享一个安全行为测评(API)的案例。

能源化工行业很容易发生事故,比如中石化的青岛爆炸事件。有些人的个性桀骜不驯,可能会很有创意,比如乔布斯,但如果让这类人去安装操作器械装置的话,他可能很不耐烦。这类人在某些时刻(紧张压力状态下)就容易闯祸,这就和个性或者人格有关。API就是专门用来预测一个人是否适合安排在安全生产岗位上的。我们的一个客户在安全生产方面临严峻的挑战,因此他找到我们,希望我们帮助他鉴别哪些人在安全生产上是不牢靠的。我们采用的测评工具就是API,并且采用同时效度作为证据。我们让100个一线操作工人做这个测验,得到一组分数;同时让这100人的主管给这些工人过去一年的安全行为表现打分。对这两组分数进行相关统计分析,得出的相关系数就叫同时效度。我们发现有两个API指标的得分高低和工人的安全行为表现分数有显著相关。

效度系数是一个非常抽象的概念。我们先来看看API得分高和低的两组在安全行为表现上的分数会不会一样。我们发现在安全知识、安全行为、分享安全经验和报告不安全行为这几项上,API得分高的人的分数也比较高。API得分低的人在这些指标上得分也比较低(见图4)。


我们再来看看参考录取分数线。图5横线是安全行为表现的达标线,竖线是参考录用分数线。我们把这100人按照两个得分放在这四个象限里,大家可以看到91.6%的人是符合要求的,还有不到百分之十的人是应该被筛除的。那也说明这个测验本身能帮助企业做出正确的决策。



▌当前人格/个性测评工具在中国应用中的挑战

在中国,人格/个性测评的应用状况不是很理想。首要原因是这一块缺乏公认的规范和相应的法律保障。法律的缺位导致了测评工具的泛滥。据我了解,迄今为止,中国没有一家公司因为滥用心理测验而受到法律诉讼。当然我相信以后中国的测评会走上规范化的道路。

第二个问题是心理测量工作者的数量和质量都有待提高。现在违反测量原则和方法、测验使用不当或滥用的现象普遍存在。我举个例子。大家都知道IQ测验是要限时的,但是人格/个性类的测试时间是不受限的。我碰到一个客户向我反映,他们的供应商把个性和IQ测验放到一张问卷上,被评人可以给两部分题目自由分配时间,这就违背了测试的规则。我不知道在座有多少人听过菲尔人格测验,我自己是看到有一个国内的公司在招聘时竟然用这个测验。但其实网上流传的菲尔人格测验是用于娱乐的。这个所谓的人格测验没有经过正规的信效度研究。美国加州消费者保护局下属的心理学委员会(the California Board of Psychology)曾于2002年指出,菲尔的电视节目是娱乐性的,不是心理学节目,无须心理学执业牌照。所以这种测验在招聘上根本不可能是合法的。

第三个原因是实证效度的研究很难在中国企业中开展,所以中国少有效度研究的证据。由于中国经济的市场化才20多年,很多企业、尤其是政府机构、国有企业等单位在员工业绩考评数据的收集上还存在较大的难度,缺乏有效的校标数据。随着中国经济市场化程度的提高,应该会有越来越多的企业重视这个问题,因为它会影响到企业的经济效益。没有效度研究,就不能给企业带来效益回报。效度证据需要专业的人员,同时还需要大量的资金投入,如果没有法律规范的话很多企业会没有动力去做这个。

第四个原因是国外人格/个性测验的引进缺乏扎实的本土化研究。刚刚Page博士也提到的translation和back translation的问题。如果这方面做不好,中国的被评人就读不懂题目,或者他们理解的意思与题目的原意完全不同。所以,引进国外测评工具时需要大量的本土化研究,包括翻译测验题目时符合中国人的文化习惯、信度检验和持续修订(要求在版权上要有归属,盗版的测验是没有人去投资做这样的研究的)等一系列工作。

总的来说,人格/个性类的测试在中国依旧面临着很大的挑战。随着市场化的深入,越来越多企业需要高质量、有价值的测评工具。有效的测评工具确实能给企业带来效益,这应该也会推动测评工具的发展。谢谢大家。


来源:希典咨询  梁开广