一、简答题1. 求取两平行测验之间的回归方程,可以建立两测验分数之间的对应关系。这种对应关系能不能称为等值关系,为什么?
(1)测验等值
测验等值是指寻找到不同测验形式之间分数的转换关系,把所有不同形式测验的分数都转换到同一个分数系统上。两测验分数之间的对应关系能否称为等值关系是由一定的条件所决定的。
(2)测验等值的条件
测量学所提出的测验等值的条件主要包括以下几个方面:
①同质性。被等值的不同测验形式所测的必须是同一种心理品质,测验的内容与范围也应该基本相同。不是测同一种心理品质的测验是不能被等值的。
②等信度。被等值的不同测验形式必须有相等的测验信度。不能指望一个低信度的测验通过与一个高信度测验等值而提高自身的可靠性。
③公平性。公平性是指考生参加被等值的不同测验形式中的任一个的测试,等值后的结果都是一样的,不能出现参加不同形式的测试等值后的结果有高有低的现象。
④可递推性。如果测验x与测验y之间有等值转换关系f(x)=y,测验y与测验z之间有等值转换关系g(y)=z,那么一定有测验x与测验z之间的关系h存在,h(x)=g(f(x))=z。
⑤对称性。对两个待等值的测验形式x与y,无论等值转换从哪个测验出发,所获得的等值对应关系是相同的,即如果从形式x出发,获得等值关系f(x)=y;从形式y出发,获得等值关系g(y)=x,则一定有f=g-1,即f与g一定是互逆的关系。
⑥样本不变性。测验x与测验y的等值关系是由x与y的本身内在性质决定的,与为寻找这种等值关系而采集数据时所使用的样本没有关系,也与采集数据时测验的情境没有关系。
(3)据题分析,平行测验保证了两个测验测量的是同一心理特质,即同质性得到了满足,等信度在某种程度上也可以认为得到了保证;但是由于回归方程是用一个测验上的数据来预测另一个测验上的分数,即测验具有方向性,与等值测验的“可递推性”和“对称性”不符合,所以,两测验之间由回归方程建立的关系不能称为等值关系。
2. 请根据下表中专家评定结果的平均数对表中14道题目的内容效度进行评定,并决定题目取舍。
9位专家对14道题目的等级评定结果 |
| | 专家评定结果 | 统计数据 |
目标内容 | 测验题号 | 1 2 3 4 5 6 7 8 9 | 平均数 | 中数 |
1 | 2 7 | 4 3 5 5 4 5 5 5 4 4 2 5 5 5 5 5 4 5 | 4.4 4 4 | 5 5 |
2 | 1 | 3 5 3 2 1 4 5 2 4 | 3.2 | 3 |
| 3 8 13 | 8 1 4 4 3 4 4 3 3 1 3 1 2 1 1 1 1 1 1 3 2 1 1 2 1 2 3 | 3.2 1.3 1.8 | 3 1 2 |
3 | 4 | 4 5 5 4 5 5 5 5 5 | 4.8 | 5 |
| 6 12 | 4 2 4 4 4 4 4 4 4 5 3 5 5 5 5 5 5 5 | 3.8 4.8 | 4 5 |
4 | 5 | 4 3 5 5 4 5 5 4 5 | 4.4 | 5 |
| 9 10 11 | 2 2 4 1 4 2 4 4 4 1 3 1 2 1 1 1 1 1 4 3 4 4 5 5 5 5 5 | 3.0 1.3 4.6 | 4 1 5 |
专家判断与 中数的差异 | | 9 24 2 10 6 4 4 3 3 | | |
从题表的结果中,可以直接分析每一道题目的内容效度并进而决定题目的取舍:
(1)若以中数为基础进行分析,表中第2、7、14题均是针对目标内容1而编制的,经专家评定,这三题所测内容均和其目标内容之间具有完美的匹配(等级评定中数均为5);同理,第4、5、11、12题的内容效度亦得到很高的评价。因此,这七道题目无疑可以原封不动地保留下来。再看,第1、3、6、9题所测内容与其目标内容之间的匹配程度分别被评定为较好(中数为3)或很好(中数为4),说明这四题也还是可取的,只需根据专家意见略作修改即可,最后,第8、10、13题的内容效度一般(中数为2)或较差(中数为1),说明这三题没有能够很好地反映出其欲测的目标内容,内容效度很低或根本不具备内容效度,一般需作较大的修改或删除。
(2)若以均值为基础进行分析,得到的结果与上述以中数为基础进行分析的结果是十分类同的。
(3)为了增加参加评定的专家们之间的一致性,也可根据每位专家在所有题目上所评等级与中数间的差异量来决定专家的取舍。如表所示,第二位专家在所有题目上所评等级与各中数间的差异之和为24,说明该专家的评定结果与其他8位专家之间具有较大的差异,因此可以不考虑这位专家的意见,只保留8位专家的评定结果,在此基础上得到均值和中数等统计数据并进一步决定题目的取舍。
3. 目标参照测验的题目区分度可以通过哪些方法来确定?
测验项目的区分度一般采取两类指标:难度差值和相关系数。
(1)难度差值
①掌握组——未掌握组鉴别指数(D)
a.分别计算掌握者和未掌握者两组在某项目上的平均通过率,记为PA和PB,则该项目的鉴别指数为:K=PA-PB。
b.鉴别指数D的大小,可以直观反映出该项目在多大程度上对掌握者和未掌握者作出了区分。D值从-1.00到+1.00之间变化,越接近于+1.00,题目区分度越高。
②个人获得指数
a.采取前测一后测方法,可获得在前测中错误回答某项目而在后测中能够正确回答的被试人数比例,此即该项目的个人获得指数,其值在0至+1.00之间变化,其大小直接反映了经过教学活动之后受益的被试比例。
b.由于个人获得指数只考虑到前测中失败而在后测中通过的被试,却没有考虑到在前测中通过而在后测中反而失败的被试,因而其值不会出现负值,这使它所能反映的问题少于一般的区分度指标,因此其应用也受到限制。
(2)相关系数
以相关系数为指标的区分度在-1.00至+1.00之间变化,当其值为负时,应检查题目的问题所在,予以修改或删除;当其值为正时,越接近于1,题目越有效;当其值为0时,题目不具区分力,一般不予保留,但在纯粹目标参照测验中应视该题所测内容在内容范围中的重要性而决定其取舍。
4. 目标参照测验的信度与效度为何不适宜以相关系数为指标?
(1)目标参照测验的信度不适宜以相关系数为指标的原因
①信度是指测量结果的一致性或稳定性。任何类型的测验,都应该保证测验结果的信度。在常模参照测验的信度评估中,通常是以相关系数作为信度指标,相关程度越高,信度就越高,测验越可靠。
②由于以相关系数表示的测验信度的高低在很大程度上受到受测者团体异质性的影响,即被试异质性越高,测验分数分布就越广,从而相关系数越高,测验信度相应也就越高,因而,这些信度指标在目标参照测验上的应用价值就不免受到怀疑:目标参照测验的目的一般不在于鉴别个体差异,而在于了解个体在所测内容上的掌握水平。
③在大多数情况下,被试团体在目标参照测验上的分数分布比较集中,如高中毕业会考,一般来讲,绝大多数考生都能达到所要求的水平。这样一来,若用相关系数作信度指标,由于其受到分数分布的影响,那么即使测验本身具有较高的稳定性和一致性,所得的信度系数也会很低。可见,通常以相关系数所表示的信度指标在目标参照测验上是不太适用的。
(2)目标参照测验的效度不适宜以相关系数为指标的原因
①测验的效度是任何一个测验的质量好坏的最重要的指标,因而,效度分析在目标参照测验的质量评估中同样占据重要地位。目标参照测验的效标关联效度分析方法与常模参照测验中所介绍的方法在具体实施中没有太大差异,其不同之处主要在于统计指标上。以相关系数所表示的效度指标在目标参照测验上是不太适用的。
②如在效标关联效度中,常模参照测验一般用测验与效标间的相关系数作为测验效标关联效度的指标,而相关系数大小受到分数分布的影响,不适用于目标参照测验,因而有人提出以“决策效度”来评估目标参照测验的效标关联效度。
5. 试比较目标参照测验与常模参照测验的异同。
(1)两者的不同点
①定义不同:目标参照测验,是根据某一明确界定的内容范围而缜密编制的测验,并且,被试在测验上所得结果,也是根据某一明确界定的行为标准直接进行解释的;常模是根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表。常模参照测验是以常模为参照标准的测验,即将被试的得分与常模相互比较,从而确定其在被试群体中的位置。
②测量目的不同:目标参照测验关注的是个体是否达到某个特定的标准;而常模参照测验比较关注于个体在特定群体中所处的位置。
③适用范围不同:目标参照测验更多的运用于教育测验或技能培训等方面;而常模参照测验更多的适用于心理特质、人格等方面的研究。
④用来衡量信度、效度的指标不同:目标参照测验用决策信度来表示信度系数,而常模参照测验用相关系数来表示信度;在目标测验中,结构效度很少涉及,但是在常模参照测验中,结构效度是重要的参考指标。
(2)两者的相同点
①在衡量指标上,难度两者都用通过率来表示,并且在内容效度的评定方面,两者也都大致相同。
②对于目标参照测验的分数解释,有时并不排除同时采用一些常模参照测验的分数解释方法。目标参照测验和常模参照测验虽然是两种不同的测验模式,但它们并非互不相容,当人们既对被试在测验中的绝对水平感兴趣,同时又想了解被试的成绩在其所处团体中的相对位置时,该测验便兼具了目标参照测验和常模参照测验的性质,对其测验分数,则既可以采取上述方法来解释,同时又可以采取常模参照测验的方法给出其百分等级等有关相对位置的信息。
6. 试分析内容范围的界定在目标参照测验的标准化过程中的重要性。
任何一种测验的编制,其前期工作不外乎为测验目的的确定,测验内容的界定以及测验编制计划的设计。一个测验的内容范围包括所要测量特质中蕴含的全部行为,它可以非常大,也可以非常小。内容范围的界定在目标参照测验的标准化过程中的重要性主要表现在:
(1)内容范围具有边界。当其边界得到明确界定时,研究者就可以判定什么行为属于这一内容范围,而什么行为却超出了这一范围。
(2)每一内容范围内容均可分为几类,每一类中又可分为更细更小的类,当每一类的内容及其在此内容范围内的相对重要性确定以后,内容范围就有了明确的结构。而当一个内容范围具有了明确的边界和结构时,人们便认为此内容范围得到了明确界定。
7. 试分析分数分界点在目标参照测验的质量评估中的作用。
目标参照测验是参照某一明确界定的行为标准进行解释的,这一标准就是测验分数的分界点,亦称切割分数线,或称及格线。从以下几个角度分析分数分界点在目标参照测验的质量评估中的作用。
(1)根据分数分界点,可以将被试进行分类,通常分为“及格”和“不及格”两类。在这种分类过程中,分界点的确定是至关重要的。
(2)就目标参照测验本身而言,分数分界点并非必需。可以用“被试掌握了测验的内容范围的百分之多少”来解释被试的分数,而不必在测验分数这一连续体上寻找某个切割点,进而将被试断然分为两类:掌握者或非掌握者。一般来讲,人们倾向于认为知识的学习是一个连续的过程,知识的掌握也只是一个程度的问题,因而从理论上说并不存在可以清晰辨别的掌握者或“非掌握者”。这使得分数分界点的确定成为测量学家们争议最大,存疑最多的问题。
(3)在目标参照测验的实际应用中,分数分界点的确定却是无法逃避的问题。在教育领域,常常需要根据测验结果来判断:“某学生是否达到了升一个年级所要求掌握的最低知识技能水平”,从而对该学生“升级”或“留级”“毕业”或“肄业”等作出决策;在专业领域,也常需要根据资格或水平考试结果来判断考生是否达到从事特定专业工作所需的最低水平,从而作出是否给予颁发合格证书的决策。在这些实际需要中,人们不得不去寻找一个最低标准,一个分数分界点或及格线,将考生分为及格或不及格两类。而且,这一分界点的确定科学与否,直接决定了最终决策的正确与否。
8. 试析题目内容效度与目标参照测验的内容效度间的联系。
内容效度是指测验题目对有关的内容或行为范围取样的适当性,即编制测验时所选定的测验题目,是否代表了所要测的心理特点。题目内容效度与目标参照测验的内容效度间的联系可从以下几个方面进行分析。
(1)目标参照测验注重被试在其所测内容范围内的掌握程度,因而测验本身的题目组成对其欲测之内容范围的覆盖程度或代表性程度——亦即测验的内容效度就显得尤为重要。
(2)评估任一测验的内容效度,都依赖于两个条件:①测验有明确界定的内容范围;②对测验每一题目的内容效度的分析。
因此,对题目内容效度的分析是对目标参照测验内容效度分析的重要组成部分和前提。
(3)目标参照测验一般来讲有相对比较确定的内容范围,可用命题细目表表示,同时,也可以采用专家评定的方法对题目效度进行分析,从而保留有效题目,删除无效题目。因此,题目的内容效度是目标参照测验内容效度的一种体现。
9. 结合实际的测验例子试述学绩测验的性质和作用。
学绩测验是对个体在一个阶段的学习或训练之后知识、技能的发展水平的测定。
(1)学绩测验的性质主要表现在以下几个方面:
①学绩测验和一般的心理测验不同,它更希望测量个体通过一次或一个时期的学习训练之后,这种专门的知识和技能的发展水平。
②学绩测验与能力测验一样在测量学中属于最佳行为测验。
③编制学绩测验对于主试来讲就是要设计出与被试认知特质紧密相关的试题并组拼成试卷,通过施测、评阅将被试的认知发展水平与一个数字系统中的某个确定值相对应,以便区别被试的水平差异。
④与典型行为测验不一样,学绩测验担心所编测验达不到诱发被试发挥出最高水平的目的。
⑤学绩测验所测为认知性心理品质。认知性心理品质的优劣表现在两个方面:认知内容的多寡和认知能力的高低。
⑥学绩测验通常用于对个体经学习、训练之后学习成绩的鉴定和诊断,有时也用来预测被试在今后的学习或工作中的成就,但是它与一般的性向测验又有不同:性向测验所测认知能力较具广泛性,有时还带有情感因素,其根本目的是要为被试能不能参加这种专门学习或训练提供依据。
(2)学绩测验的作用主要包括以下几个方面:
①学校使用学绩测验鉴定学生的学业成绩。
②学绩测验的结果反馈给学生,学生可以总结学习经验,纠正不足,利于学生进一步学习。
③学绩测验结果反馈给教师,教师可以总结教学经验,有利于教师进一步改进教学。
④学校还使用学绩测验甄别学习困难儿童,诊断学生学习困难的原因,以便及时制定和采取补救措施,帮助学生全面掌握所学知识,全面提高专业能力。
⑤学校还可以应用学绩测验辅助教学管理。
⑥现代社会的人事管理也应用学绩测验。
结合实例略。
10. 标准化学绩测验的标准化要求有哪些?如何才能做到?
(1)标准化测验的要求
①命题组卷标准化;
②施测标准化;
③评分标准化;
④测验分数解释标准化。
(2)标准化学绩测验编制方法的步骤
①确定测验目的,选定测验编制的方法
编制标准化学绩测验的首要问题是要确定测验目的。施测于不同对象的测验应该有不同的编制特征。
②分析测量目标,拟定测验编制计划
a.分析测量目标要应用到学科专业知识、心理学与教育学理论知识,还要有较丰富的教学实践经验。
b.通常编制测验有一个总的测验目标,但是总目标往往太抽象、太笼统。因此,要根据认知理论将总目标分解成系统的认知目标体系。
第一,编制一份测验双向细目表,将测验的内容分类与测验的目标分类共列于内,定出各个分类组合在测验中的占分比例。
第二,确定使用题型的种类及各种题型的占分比,以及全卷试题的难度分布。各项比例确定之后还应把全卷的结构统筹分划,定稿成正式的测验编制计划。
③编题征题与选题组卷
a.试题的来源可以组织学科命题教师自己编写,也可向社会征集,试题分布必须符合测验编制计划所定的测验结构,特别是要严格按照测验双向细目表的要求编写试题,不要编写细目表中未列的试题。编题时还要求命题者同时提供参考答案和评分标准供审题参考。
b.要进行试题筛选
第一,对试题的文字内容进行审查,内容是否科学、逻辑是否严谨、文字表述是否准确清楚等,都是审查的内容。
第二,进行试测。通过试测获取试题的难度、区分度指标。
第三,经过筛选留下一批高质量的试题供组卷使用。
第四,对于入选试题还要进行编排。
第五,特别要注意的是标准化测验应同时编制等值复份。
④调查测验质量参数,编制测验常模
a.标准化测验要得以发行使用,必须提供测验质量参数,包括测验的信度、效度等指标。若是目标参照性测验还必须提供合格分数线,有的还要提供误判概率。常模参照性测验还必须提供测验常模。
b.测验质量参数和测验常模都要通过取样测试。选择测试样本(包括前面试题测试求取试题参数的样本)要注意保证样本对总体有充分代表性。
⑤编写测验指导书,正式出版发行
测验指导书内容包括测验目的、适用对象和范围、测验操作要求、测验质量参数、标准答案、评分规则等项目。测验常模可以附印在指导书后,也可以单独印刷。当然正式发行还需有负责机构的批准。
11. 举例说明诊断测验如何实现它的诊断功能?
(1)诊断测验
诊断测验主要用来测查学生在各个具体教学内容、教学目标上学习的长处和弱点,分析学生学习困难的原因,并提出相应补救措施。在对学习障碍儿童、学习缓慢儿童的鉴别评定上也具有较高的实用价值。
(2)举例说明诊断测验如何实现它的诊断功能
例如,对于学习障碍儿童的鉴别,由专家结合心理学测量知识,确定了明确的内容范围编制出一套测量儿童学习能力的试题,并且经过预测,表明该测量的各项统计学指标都良好。经过统一标准的施测情境、施测程序、指导语等,收集儿童的测验成绩,通常情况下人们认为心理特质的分布是呈现正态分布的,所以低于三个标准差的儿童可以认为其学习有问题,至于是否存在学习障碍,还需要医学鉴定等。
12. 题库的基本要求是哪些?您认为建设题库有什么好处?
(1)题库的基本要求
①基于一种科学的测量理论。
②贮备有一定数量的试题,所有试题品质优良,技术参数完备。
③题库内部结构层次清楚、分类严谨,试题检索方便。
④题库管理方便、可控性强、易于维护更新。
⑤保密性强。
(2)建设题库的好处
建设题库可以解决一些大规模的标准化学绩测验应用范围广,施测周期短,对试卷的需要比较频繁的问题。应用题库组拼标准化学绩测验的试卷,具有经济、高效,而且保密性强的特点。
13. 就您的经验谈谈教师自编测验存在哪些不足?改进的途径是什么?
(1)自编测验的缺陷:
①教师不一定能深入研究教材,深入调查学生;
②自编测验很难有准确稳定的合格标准;
③教师对自己的命题技术缺乏正确评价;
④各种题型使用不合理;
⑤容易出现评分误差,简单粗糙;
⑥缺乏定量分析研究。
(2)改进的途径
①审查测验目的
教师应该认真审查自己编制测验的目的:
a.在了解测验对象的基础上,深入了解这些对象的学习水平和特点;
b.了解测验内容、明确具体的教学要求和教学目标;
c.单确定是学绩测验还不够,还应明确学绩测验的性质,教师在动手编制测验前应认真审查自己的测验目的,理清自己的思路和各种关系。
②制订测验编制计划
教师自编课堂测验也应该有一个详细的测验编制计划。编制测验既要在试卷结构上全面合理安排,又要在一个个测题上深入细致地研究,这就要求思维既要有广度,又要有深度。值得提醒的是对于教学目标的分类,教师应紧密结合测验实际,制订详细的分类体系,切忌生搬硬套。
③命题与组卷
a.命题与组卷的首要问题是教师应该严格按照测验计划进行,特别是要严格按照测验双向细目表规定的教学目标编制出符合要求的试题,教师应该结合专业,学习一点心理与教育学知识,并且注意积累经验,在命题中逐步提高命题技术。教师命题还有三条要求:提前;超量;审查。
b.关于组卷,还应考虑试题的编排顺序。另外,教师也应过问试卷的编辑和印刷。编印的一般要求是清晰、正确、有条理,要留足学生作答空区,要注意不要把一道试题分印在两页上,影响学生解题。
二、论述题1. 比较教师自编课堂测验和标准化成就测验的特点,并谈谈如何提高教师自编测验的质量。
(1)教师自编课堂测验及其特点
教师自编课堂测验由教师依照标准化测验的命题形式,依据自己的教学经验和风格编制的测验,是为特定的教学服务的。其特点主要有:
①测验形式灵活多变,与测验目的完全一致;
②测验内容与教材内容高度一致;
③测验难度切合学生的实际水平;
④测验编制简单快速,可及时给学生提供反馈,了解学生学习情况;
⑤与标准化测验相比,其内容范围较窄,适用范围较小;
⑥评分有一定的主观性,难易程度不易控制。
(2)标准化成就测验及其特点
标准化成就测验是指由专家或学者们所编制的适用于大规模范围内评定个体学业成就水平的测验。其特点主要有:
①测验由专家根据共同教育目标编制;
②所有受试人所做的试题、时限、计分手段等条件完全相同;
③能提供常模进行比较,客观性强,可用于大规模正规测试;
④编制费时费力,灵活性和针对性不强。
(3)提高教师自编测验质量的方法
为了提高教师自编测验的质量,需要在审查测验目的、制订测验编制计划的基础上,进行命题与组卷。其方法主要有:
①教师要深入研究教材,深入调查学生;
②要维护准确、稳定的合格标准;
③要客观评价自己的命题技术,合理使用各种题型;
④要注意总结命题经验,提高命题技术;
⑤要尽量控制评分误差,防止简单粗糙;
⑥要作一些定量分析研究,如计算试题难度、区分度、信度、效度等,逐步总结命题经验,提高命题技术。