区分度是指试题对被测心理品质的区分程度,反映试题对被测心理品质区分的有效性。区分度好的试题应该能有效地区分被测者,能及格或得分高的被测者相应品质更突出;反之,区分度差的试题不能有效地区分水平高低的被测者。因此,区分度又称为试题的效度,是评价试题质量、筛选试题的主要依据。

区分度的计算是根据受试者对题目的反应与一定的参考标准之间的关系得出的,其取值范围为-1.00~+1.00。一般来说,区分度应该为正值,称为正向区分度,值越大,区分度越好;如果区分度为负值,则是负向区分度,说明题目存在问题,应予以删除或修改;区分度为0,表示没有区分效果。[1]

中文名

区别

外文名

昵称

物品有效期

使用

评估项目质量并筛选项目

范围

-1.00~+1.00

特征

相对论

目录

123▪▪45

概念

区分度()是指试题区分或识别被试心理特征的程度。区分度高的试题能区分不同水平的被试,能力强、水平高的被试得分高,能力弱、水平低的被试得分低。区分度低的试题区分能力不强,水平高低的被试得分差不多。[2]

区分度是指试题对所测心理特征的区分灵敏度或区分能力。区分度好的试题可以区分不同层次的被试。试题的区分度本质上就是试题本身的效度。试题的区分度是评价试题质量的重要指标,也是选题的主要依据。[3]

项目区分度()是指一个项目区分不同层次被试的程度。项目区分度分析可分为两种类型:一种是“项目效度”分析,根据外部校准标准选取项目,适用于人格测试;另一种是“内部一致性”分析,根据测试总成绩选取项目,适用于教育成就测试和能力倾向测试。[4]

相对论

1)不同的计算方法会产生不同的区分度值。因此,在分析某道试题的区分度时,必须采用与同一类型试题相同的计算方法,以便进行比较,从而进行试题的选取。

2)问题的区分度受受试者群体异质性的影响。受试者群体越同质,同一个问题的区分度就越小;受试者群体越异质,同一个问题的区分度就越大。因此,在解释一个问题的区分度时,总是针对一个具体的受试者群体。如果脱离具体的受试者群体,笼统、抽象地谈论一个问题的区分度,是没有意义的。

3)用相关法计算试题区分度的可靠性受样本量的影响,一般来说,样本量越大,区分度值越可靠,但样本量过大,会增加计算量,且没有实际意义,应适时停止。

4)区分度指数D值受分组标准影响。在编制标准化考试时,通常以370名考生作为预测样本量,以27%作为分组标准。这样,高分组和低分组恰好各有100名考生,便于后续计算。

由于区分度是相对的,很难确定一个绝对的水平作为选题的标准。以区分度为标准选题时,必须考虑考试的目的和功能。对于学科考试,一般要求相关系数达到显著水平,或区分度指数D值在0.20以上,国际上对优秀试题的区分度要求在0.40以上。如果是选拔人才的考试,试题的区分度要尽可能高。美国教育和心理测量学家L.埃贝尔提出了基于区分度指数来评价试题质量的标准,见表1-1。[3]

表1-1 问题区分度指标及质量评价

辨别指数(D)

试题评估

0.40 分以上

非常好

0.30-0.39

好的

0.20-0.29

好的,需要修改

0.19 或更低

不好,必须淘汰

鉴别指数及计算

区分度常用的指标是D,取值范围是-1至1,数值越大,区分度越好。测量专家伊伯尔认为,如果一道测试题目的区分度在0.4以上,说明这道题目的区分度非常好;0.3至0.39之间,说明这道题目的区分度不错;0.2至0.29之间,说明这道题目的区分度不好,需要修改;而0.19以下,则说明这道题目的区分度不好,应当淘汰。

计算鉴别度的方法有两种:鉴别度指数和相关系数。

辨别指数

判别指数(D指数)具体公式为:

其中,D为区分度指数,PH为高分组题目难度,PL为低分组题目难度。

显然,高低组越极端,判别指数就越明显。但样本量过少,结果的可靠性也会降低。Kelly(TL)指出,在正态分布中,兼顾两者的更佳比例是27%。对于小样本,比如普通教学班,只要方便使用,25%到33%之间的任何数字都可以使用。

区分度指数D与题目难度P并不相互独立,当题目难度处于中等水平时,区分度指数为更大值。不同难度题目的区分度指数更大值见表1-2。[4]

表1-2 题目难度与更大区分度指数关系

太平洋标准时间

肺动脉高压

波兰

更大径

1.00

1.00

1.00

0.00

0.90

1.00

0.80

0.20

0.80

1.00

0.60

0.40

0.70

1.00

0.40

0.60

0.60

1.00

0.20

0.80

0.50

1.00

0.00

1.00

0.40

0.80

0.00

0.00

0.30

0.60

0.00

0.60

0.20

0.40

0.00

0.40

0.10

0.20

0.00

0.20

0.00

0.00

0.00

0.00

相关系数法

通过计算某一题目分数与考试总成绩或标准分数之间的相关系数进行判定,相关系数越大,区分度越高。

1)点双列相关

当考试总成绩为正态连续变量,而试题分为二元变量(正确、错误或及格、不及格)时,可利用逐点相关公式计算区分度,计算公式为:

式中,rqb为二点列相关系数,即该问题的区分度;

是正确回答问题的受试者的平均总分数。

为答错题目的被试平均得分,st为全部被试总得分的标准差,p为答对题目的被试占被试总数的比例,q=1-p。

利用点二列相关公式计算出的相关系数需要进行显著性检验才能确定其意义。

对差异进行t检验,若差异显著,则表明rqb显著;若差异不显著,则rqb不显著。

2)双柱相关法

考试总成绩和试题数量均为正常的连续变量,但其中一个变量因某种原因被分成两类,可利用两列相关法计算试题的区分度,计算公式为:

式中,rb为两列相关系数,即该问题的区分度;

是正确回答问题的受试者的平均总分数。

为答错题目的被试平均得分,st为全部被试总得分的标准差,p为答对题目的被试占总被试数的比例,q=1-p,y为正确答案比例在正态曲线上所处的曲线高度。

二列相关系数rb的重要性用以下公式表示:

式中,rb为两列之间的相关系数,p为答对人数占总人数的比例,q=1-p,y为答对人数占正态曲线的曲线高度。求出Z值后,查正态曲线表,若Z>1.96,则相关显著。

3)四点相关法

四分位数相关法适用于两列变量都是正态连续变量,但被人为地分成两列的统计数据。这种相关性使用皮尔逊余弦π公式计算,得到的相关性就是四分位数相关系数,如下所示:

式中,A、B、C、D代表四类,其中A、D代表相同符号(++或--)的次数,B、C代表相反符号(+-或-+)的次数。

四点相关系数是否显著可以通过以下公式检验:

其中p1,q1,p2,q2分别为各个类别的累积百分比,y1,y2分别为累积百分比为p1,p2时的正态曲线高度,可查正态分布表获得。

运用四点相关法计算题型区分度时,样本量应在200以上,以便计算结果能更好地说明问题。

4)

相关法律

相关系数适用于两列变量都是二元变量,或者一列是二元变量,另一列是连续变量但也被人为转化为二元变量的情况,其公式如下:

测试

重要性水平应用如下:

得到X2值后,检查X2表,看X2值是否达到显著性水平。如果X2值显著,则

其价值也十分重大。

5)产品矩相关方法

对于心理测验中的多值计分题型和学科测验中的主观题型,可利用积矩相关法计算题型分数与测验总分数之间的相关系数作为题型区分度值。

6)修正题目与总分重叠的问题

计算试题分数与总分之间的相关系数,该相关系数是一种局部与整体的相关性。试题分数与总分计算出的相关系数中,必定存在重叠成分,使得相关系数即试题的区分度过高。只有当各试题贡献的方差比例非常小时,试题与总分之间的相关系数才可以作为试题区分度的指标。如果不满足这些条件,则需要使用修正公式对计算出的相关系数进行修正,去除重叠成分。修正公式如下:

式中,cr为修正相关系数,r为该题与总成绩的实际相关系数,n为一次考试的题目数,st为该次考试总成绩的标准差,pi为某道题的通过率,qi=1-pi

一般来说,当考试题目数量较少,且题目与总成绩的相关性不高时,需要用上述公式对计算出来的题目区分度进行修正;如果一场考试题目数量超过20题,则无需进行修正。[3]

项目特性曲线编辑

即使一个项目具有适当的难度和区分度,也不能保证它对所有水平的考生都有效。对于一个好的试题,随着考生总分的提高,他们的试题通过率也应该稳步提高。项目的这一特性可以用试题特征曲线来描述。

好题目的曲线走势应该是通过率随着总分的增加而增加;否则,说明题目设计得不太好,或者答案是错的。曲线上通过率为50%的点可以体现题目的难度,这个点对应的总分越高,题目的难度值就越低,也就是难度越大;这个点的斜率可以体现题目的区分度,斜率越陡,区分度就越好。这里的难度和区分度,从曲线上就可以直接看出来。具体数值的计算相对复杂,往往需要借助计算机。[1]

区分度和难度

难度和区分度都是相对的,适用于某一群体(绝对的难度和区分度是不存在的)。一般来说,难度较高的题目对高水平的被试有较高的区分度,难度较低的题目对低水平的被试有较高的区分度,难度适中的题目对中等水平的被试有较高的区分度。这并不与中等难度题目区分度更高的说法相矛盾,因为对被试整体来说很难或很容易的题目,对高水平或低水平的被试来说,就变成了中等难度。由于人类的大多数心理特征都是正态分布的,所以当需要更大程度地区分人时,题目难度的分布也应该是正态的,即极难和容易的题目较少,接近中等难度的题目较多,所有题目的平均难度为0.50。[2]

什么情况下区分度高?也就是说,什么样的题目最能区分不同层次的人?这就涉及到试题评价的第二个指标:难度。题目难度过高,答对的人很少,大部分分数都很低;难度过低,答错的人很少,分数分布在高端。所以,太难或太容易的题目,都不能很好地区分不同层次的个体。所以,题目难度为中等时,区分度更高。

一场好的考试是不是所有的题目都要是中等难度的呢?为什么高考、考研等高水平的考试,题目难度会非常高或者非常低呢?这是因为,如果一场考试所有的题目都是中等难度,就会走向另一个极端,即对中等水平的人区分度更好,但对高低水平的人就不能很好区分了。总之,不同难度的题目,对不同水平的人的区分度是不一样的。考虑到全体考试科目的能力分布往往呈正态分布,考试题目难度的分布也基本呈正态分布,即有难、有中、有易,中等难度的题目最多。只有这样,才能保证整个考试有较高的区分度。

区分度是测量学术语,是衡量试题质量的主要指标之一,是考试时选择试题的依据。区分度是指试题区分不同层次考生的程度,即试题的区分能力。区分度越高,说明该试题越能区分不同层次的考生,该试题被采用的价值就越大。

工具/原材料

方法/步骤

打开学生某一科目的考试成绩详情。

以一场有 30 名学生参加的考试的结果为例。

取消合并的表。

方法:用鼠标单击被合并的单元格,如表格中的“分数”单元格,点击工具栏中的|合并并居中,即可取消合并。

按照学生总成绩从高到低排列。

选中【总分】列,操作【排序和筛选】--【降序】,这样不仅会让【总分】列按照降序排列,还会和总分所在行的其他单元格一起移动,避免其他数据错位。

统计计算每道题的难度系数。

方法:

30*27%≈8,高分组和低分组各有8人,上面的步骤已经按照从大到小的顺序排列,所以从上到下的8人和从尾到上的8人分别是高分组和低分组,其余的就是中间组。

之一题难度系数为:P=(PH+PL)/2=0.69

PH=7/8=0.875 PL=4/8=0.50

整张试卷的难度等于所有考试题目(包括主观题和客观题)的平均难度。

概念:

难度(通常用 P 表示):难度指考试题目的难易程度。客观题的难度一般用答对该题的人数与参加考试的总人数之比来表示;主观题的难度一般用考生在该题上的平均得分与该题分数之比来表示。适用于主观题和客观题的计算公式为:

P=(PH+PL)/2(PH、PL分别为高分考生和低分考生的试题难度值)

从更高分开始,取全部试卷的27%作为高分组;

从更低分开始,全部试卷的27%被作为低分组。

统计计算客观题辨别力D

D=PH-PL(PH、PL分别为高分考生和低分考生的难度值)

方法:例如之一题的判别式为:D=PH-PL=0.875-0.5=0.375。

主观测试辨别力D的统计计算

方法:

表中第二题的判别率为:D=(XH-XL)/N(HL)=0.406

XH=65,XL=52,N=8,H=9,L=5

XL计算方法:选择低组学生第二题成绩,【自动求和】,同理计算XH。

整张试卷的区分度为所有试题区分度的平均值。

概念:

D = (XH-XL) / N (HL)

(XH代表参加考试高分学生的总成绩,XL代表参加考试低分学生的总成绩,N代表参加考试的学生总数,H代表该题目的更高分数,L代表该题目的更低分数。)

歧视评价标准:

0.40 或以上 非常好

0.30--0.39 不错,如果可以改进就更好了

0.20--0.29 可以接受,但需要改进

0.19 或以下为劣质品,必须淘汰或改进

试题的难度与区分度存在一定的关系计算题目,难度过高或过低,都可能降低区分度;难度适中,才能达到较高的区分度。

结尾

防范措施

未经允许不得转载! 作者:admin,转载或复制请以超链接形式并注明出处天心神途传奇手游发布网

原文地址:《歧视和困难》发布于:2024-06-02

发表评论

表情:
验证码
评论列表 (暂无评论,50人围观)

还没有评论,来说两句吧...