简答题1. 心理与教育测量在教育评价中有哪些主要应用领域?有哪些测验可资利用?
(1)在测量学生的学习与发展状况中的应用
①评价学生的学习与发展,在教育评价中居于主导地位,它包括三个方面的作用:
a.摸清学生的学习和发展状况,是因材施教的前提。
b.弄清学生的学习和发展状况,是评价教育过程中不同阶段成效的依据。
c.弄清学生的学习和发展状况,是评价一种新的教育思想、新的教育措施、新的教育技术等有效与否的重要指标。
②对学生的学习和发展状况的评价主要包括:学生的品德、学习能力、创造力、学习成绩、职业兴趣、性格、气质、心理健康状况。
(2)测量在教师与管理者评价中的应用
对教师的评价主要包括如下四个方面:
①教师的资格评定,即教师的专业知识水平是否达到基本要求,专业知识包括文化知识和教育心理学方面的知识;
②教师的教学艺术水平的评定,即教师的教学能力;
③教师的管理水平的评定,即教师在学生班级管理方面的能力;
④教师的个性评定。
其中,教师的资格和教学艺术水平是其中的核心内容。
2. 结合实际的测验例子试述学绩测验的性质和作用。
学绩测验是对个体在一个阶段的学习或训练之后知识、技能的发展水平的测定。
(1)学绩测验的性质主要表现在以下几个方面:
①学绩测验和一般的心理测验不同,它更希望测量个体通过一次或一个时期的学习训练之后,这种专门的知识和技能的发展水平。
②学绩测验与能力测验一样在测量学中属于最佳行为测验。
③编制学绩测验对于主试来讲就是要设计出与被试认知特质紧密相关的试题并组拼成试卷,通过施测、评阅将被试的认知发展水平与一个数字系统中的某个确定值相对应,以便区别被试的水平差异。
④与典型行为测验不一样,学绩测验担心所编测验达不到诱发被试发挥出最高水平的目的。
⑤学绩测验所测为认知性心理品质。认知性心理品质的优劣表现在两个方面:认知内容的多寡和认知能力的高低。
⑥学绩测验通常用于对个体经学习、训练之后学习成绩的鉴定和诊断,有时也用来预测被试在今后的学习或工作中的成就,但是它与一般的性向测验又有不同:性向测验所测认知能力较具广泛性,有时还带有情感因素,其根本目的是要为被试能不能参加这种专门学习或训练提供依据。
(2)学绩测验的作用主要包括以下几个方面:
①学校使用学绩测验鉴定学生的学业成绩。
②学绩测验的结果反馈给学生,学生可以总结学习经验,纠正不足,利于学生进一步学习。
③学绩测验结果反馈给教师,教师可以总结教学经验,有利于教师进一步改进教学。
④学校还使用学绩测验甄别学习困难儿童,诊断学生学习困难的原因,以便及时制定和采取补救措施,帮助学生全面掌握所学知识,全面提高专业能力。
⑤学校还可以应用学绩测验辅助教学管理。
⑥现代社会的人事管理也应用学绩测验。
结合实例略。
3. CTT模型及其假设的主要内容是什么?
(1)CTT模型
经典测验理论(CTT)假定,观察分数(记为X)与真分数(T)之间是一种线性关系,并只相差一个随机误差(记之为E)。即:X=T+E,这就是CTT的数学模型。
(2)CTT模型假设的内容
根据CTT模型,可以引申出三个相关联的假设公理:
①若一个人的某种心理特质可以用平行的测验反复测量足够多次,则其观察分数的平均值会接近于真分数,即:E(X)=T,或E(E)=0;
②真分数和误差分数之间的相关为零,即:ρ(T,E)=0;
③各平行测验上的误差分数之间相关为零,即:ρ(E1,E2)=0。
其中,第②、第③条假设意在说明E是个随机误差,没有包含系统误差在内,第①条假设则在于说明E是个服从均值为零的正态分布的随机变量。
4. 目标参照测验的信度与效度为何不适宜以相关系数为指标?
(1)目标参照测验的信度不适宜以相关系数为指标的原因
①信度是指测量结果的一致性或稳定性。任何类型的测验,都应该保证测验结果的信度。在常模参照测验的信度评估中,通常是以相关系数作为信度指标,相关程度越高,信度就越高,测验越可靠。
②由于以相关系数表示的测验信度的高低在很大程度上受到受测者团体异质性的影响,即被试异质性越高,测验分数分布就越广,从而相关系数越高,测验信度相应也就越高,因而,这些信度指标在目标参照测验上的应用价值就不免受到怀疑:目标参照测验的目的一般不在于鉴别个体差异,而在于了解个体在所测内容上的掌握水平。
③在大多数情况下,被试团体在目标参照测验上的分数分布比较集中,如高中毕业会考,一般来讲,绝大多数考生都能达到所要求的水平。这样一来,若用相关系数作信度指标,由于其受到分数分布的影响,那么即使测验本身具有较高的稳定性和一致性,所得的信度系数也会很低。可见,通常以相关系数所表示的信度指标在目标参照测验上是不太适用的。
(2)目标参照测验的效度不适宜以相关系数为指标的原因
①测验的效度是任何一个测验的质量好坏的最重要的指标,因而,效度分析在目标参照测验的质量评估中同样占据重要地位。目标参照测验的效标关联效度分析方法与常模参照测验中所介绍的方法在具体实施中没有太大差异,其不同之处主要在于统计指标上。以相关系数所表示的效度指标在目标参照测验上是不太适用的。
②如在效标关联效度中,常模参照测验一般用测验与效标间的相关系数作为测验效标关联效度的指标,而相关系数大小受到分数分布的影响,不适用于目标参照测验,因而有人提出以“决策效度”来评估目标参照测验的效标关联效度。
5. 什么叫差异系数?计算它有何意义?
又称离散系数,是用来对两组数据的差异程度进行相对比较的。因为在比较相关的两组数据的差异程度时,方差和标准差是以均值为中心计算出来的,因而有时直接比较方差是不准确的,需要剔除均值大小不等的影响,计算并比较离散系数。
6. 心理与教育测量从卡特尔到比内的发展过程中可以看出什么特点?
心理与教育测量从卡特尔到比内的发展过程
①卡特尔是美国心理学家,首次提出了“心理测验”这个术语。卡特尔认为,心理学只有立足于实验与测量,才能达到如同自然科学的准确性;心理测验只有建立普遍的统一标准,并要与常模相比较,才能充分地实现其科学价值和实用价值。这些观点都已成为测量学上的重要观念。
②比内认为,测量比较复杂的心理功能,不必苛求精确度,因为这些功能的个别差异较大。他认为智力是高级心理过程,包括推理、判断以及动用已知知识解决新问题的能力。比内与其助手西蒙合作完成了世界上第一个智力测验量表——比内一西蒙量表,史称1905年量表,可用来测量各种能力,特别是判断、理解和推理能力。
(2)特点
心理与教育测量从卡特尔到比内的发展过程中表现出以下特点:
①测量对象逐渐扩大和复杂化。卡特尔的测量对象主要是肌肉力量等一些低级的机能,而比内开始涉足高级的心理机能比如人的智力等。
②测验法开始系统化。卡特尔最早提出“心理测验”这一概念,但是比内给测验法以有系统的、精密的设计。比内的智力测验出现了以后,测验法才真正完善起来。
7. 研究者假设,接受指导语“在看到单词时努力形成该单词的表象”的被试对单词的回忆率要比不接受这样的指导语的被试的回忆率要高。另外,研究者也想考察回忆测试的延迟在其间的影响。于是对两组被试进行了测试。一组是女生,接受形成心理表象的指导语;一组是男生,不接受这样的指导语。给所有的被试呈现的都是50个具体的名词,每10秒呈现一个。每组中的一半被试在一小时后接受自由回忆任务,另一半被试在一星期后接受自由回忆任务。自由回忆任务的时限是20分钟。结果如下,进一步的统计分析表明,两个因素的主效应都显著,交互作用不显著。
表象组 无表象组
延迟1小时 75% 50%
延迟1星期 50% 25%
问题1:在以上实验中,自变量是什么?因变量是什么?是什么样的实验设计?
问题2:用图的形式表示实验数据并描述研究结果。
问题3:该研究可以得出什么样的结论?为什么?
[问题1] (1)自变量:①是否在看到单词时形成该单词的表象,两个水平:是和否;
②延迟时间,两个水平:延迟一个小时和延迟一个星期;
(2)因变量:对50个具体词的回忆率;
(3)实验设计:是一个2×2的被试间设计,两个自变量均为被试间变量;
[问题2]
(1)图:

(2)实验结果的描述:
①两个自变量的主效应显著,说明:
a.是否看到单词时形成该词的表象这一变量对被试的回忆量有影响,表象组的回忆率显著高于无表象组的回忆率。
b.延迟时间对被试的回忆量也有影响,延迟1小时的回忆率显著高于延迟1星期的回忆率。
②无交互作用,说明是否在看到单词时形成该单词的表象,不影响延迟时间对被试回忆量的影响。
[问题3] 该研究的结论是:
(1)延迟时间的长短影响回忆量的大小,延迟时间越短,回忆量越多。因为在本研究中,显示延迟1小时的回忆率显著高于延迟1星期的回忆率。
(2)在看到该单词时形成该单词的表象,可能有助于回忆量的提高,因为表象组的回忆率显著高于无表象组。但是,因为在本研究中,是否在看到单词时形成该单词的表象这一变量和性别变量相混淆,是否在看到单词时形成该单词的表象引起的差异可能是由性别的不同引起的。所以,不能下结论说,在看到该单词时形成该单词的表象,一定有助于回忆量的提高。
(3)延迟时间对回忆量的影响不受是否在看到单词时形成该单词的表象的调节。
8. 林肯的故事
一天,林肯和一位朋友乘车外出游玩,途中争论纯粹利他主义是否存在。林肯认为助人总是源于自私或利己的目的。朋友则认为真正的利他主义是完全存在的。忽然,两人被一阵试图从一条河中救出小猪的母猪的叫声打断。林肯让马车停下,跳出车外,跑向小河,把小猪带到安全地带。回来时,朋友说:“自私在这段小插曲中起了什么作用?”林肯答:“天哪!埃德,这正是自私的表现。如果我把那痛苦的母猪和小猪留下不管,我的心思将整天不得安宁。我做这些都是为了让自己心安理得,你不明白吗?”
在这个故事中你是如何理解看待移情理论对利他行为的解释,试着分析一下移情是如何影响利他行为的?利他行为又受其他哪些因素的影响?
本题考查的是利他行为。
①移情:把我们置于他人的位置,并以那个人的方式体验事件和情绪(如震后的痛苦、绝望)的能力。移情一利他主义家说:当我们对他人产生移情,会试图出于纯粹的利他主义理由来帮助这个人,而无论我们会得到什么结果或付出什么代价。
②巴特森(Batson)认为,如果没有移情,助人行为多半符合交换理论的解释。而当移情产生时,助人就与社会交换没有关系。这与利他行为中的无偿性特征相吻合。因此只有当有一个很好的移情时,他才能产生更好的利他行为。自己组织语言,在理即可。
③除了移情对利他行为有影响,还有个人因素、情景因素、社会文化因素等对利他行为有影响。然后分别从这三个方面阐述。如情景因素、自然环境,在舒适的气候和环境中使人心情愉快,从而更容易导致利他行为增多等等。自己进行分析阐述,言之有理即可。
9. 就您的经验谈谈教师自编测验存在哪些不足?改进的途径是什么?
(1)自编测验的缺陷:
①教师不一定能深入研究教材,深入调查学生;
②自编测验很难有准确稳定的合格标准;
③教师对自己的命题技术缺乏正确评价;
④各种题型使用不合理;
⑤容易出现评分误差,简单粗糙;
⑥缺乏定量分析研究。
(2)改进的途径
①审查测验目的
教师应该认真审查自己编制测验的目的:
a.在了解测验对象的基础上,深入了解这些对象的学习水平和特点;
b.了解测验内容、明确具体的教学要求和教学目标;
c.单确定是学绩测验还不够,还应明确学绩测验的性质,教师在动手编制测验前应认真审查自己的测验目的,理清自己的思路和各种关系。
②制订测验编制计划
教师自编课堂测验也应该有一个详细的测验编制计划。编制测验既要在试卷结构上全面合理安排,又要在一个个测题上深入细致地研究,这就要求思维既要有广度,又要有深度。值得提醒的是对于教学目标的分类,教师应紧密结合测验实际,制订详细的分类体系,切忌生搬硬套。
③命题与组卷
a.命题与组卷的首要问题是教师应该严格按照测验计划进行,特别是要严格按照测验双向细目表规定的教学目标编制出符合要求的试题,教师应该结合专业,学习一点心理与教育学知识,并且注意积累经验,在命题中逐步提高命题技术。教师命题还有三条要求:提前;超量;审查。
b.关于组卷,还应考虑试题的编排顺序。另外,教师也应过问试卷的编辑和印刷。编印的一般要求是清晰、正确、有条理,要留足学生作答空区,要注意不要把一道试题分印在两页上,影响学生解题。
10. 请给出一个交互作用(interaction effect)的例子,并给出各种变量(因变量、自变量和控制变量)和实验设计类型。
(1)交互作用指在多变量实验研究中出现的,当一个自变量产生的效果在第二个自变量的每一个水平上出现不一样的现象。在交互作用下,单独讨论每一个自变量的效应就不够了。交互作用的存在为实验提供了更多的信息,使得实验更加具有应用价值。
(2)举例:2[组间]×3[组内]的混合实验,研究被试对红、黄、绿三种灯光的反应是否与灯光的强度有关的实验。其中,红、黄、绿是颜色的三个水平,灯光的强和弱是两个水平;选择被试的数量;一个自变量(灯光的颜色)采取组内设计,而另一个自变量(灯光的强弱)采取组间设计。
(3)在这个实验设计中,实验类型是混合设计。一个自变量的不同水平之间采用的是组内设计,另一个自变量的不同水平之间采用的是组间设计。
实验的因变量是被试对红、黄、绿三种颜色两种强度的反应。
实验的自变量有两个,一个是灯光的颜色,包括红、黄、绿三个水平;一个是灯光的强度,包括强和弱两个水平。
实验的控制变量很多,包括情绪、态度、动机等被试因素,噪音等环境方面的因素,主试指导语等的控制。
11. 简述动机的三种功能。
动机是由目标或对象引导、激发和维持个体活动的一种内在心理过程或内部动力。动机具有三种功能。
(1)激活功能:动机具有发动行为的作用,推动个体产生某种行为。
(2)指向功能:动机能使个体的行为指向某个特定目标。
(3)维持和调整功能:动机的维持功能体现在行为的坚持性上,当活动指向个体所追求的目标时,这种活动就会在相应的动机维持下继续;动机下降,相应的活动就会减弱或停止。
12. 影响测验效度的因素有哪些。
效度是指测量的有效性,即一个测验或量表实际测出其所要测量的心理特质的程度,主要有三种类型,内容效度、结构效度和效标效度。
效度的影响因素有很多,严格来说,凡是与测验目的无关的、稳定的和不稳定的变异来源都会影响测验的效度。这就是说,测验本身的构成、受测被试的特点、施测的过程、阅卷评分、分数转换与解释、所选效标的性质和测验信度等都可能影响测验的效度。
(1)测验的构成。当组成测验的试题样本没有较好的代表性时,测量的内容效度就必然不高。同时,若题目语义不清、指导语不明、题目太难或太易、题目太少或安排不当等,也会降低测量的效度。
(2)测验的实施过程。一个测验在实施过程中,如不遵从指导语的要求,或出现外界干扰、评分记分差错等问题,都会降低测量的效度。
(3)接受测验的被试。被试的应试动机、情绪、态度、身体状态等,都会影响测量的信度,进而影响测量的效度。被试团体如果缺乏必要的同质性,很可能会得到不恰当的效度。同样一个测验,对于年龄、性别、文化程度、职业等方面不同的被试团体,常常具有不同的测量效度。被试团体的年龄、性别、文化程度与职业等方面的特征,常常成为干涉变量。
(4)所选效标的性质。由于同一个测验可以有不同的效标,同一个观念效标也可以有不同的效标测量,所以还要考虑测验分数与效标之间是否符合线性关系的问题。因为积差相关的前提之一是两个变量之间具有线性关系,否则会得出错误的效度结论。在选用相关系数的计算公式时,要注意各公式的适用条件。
(5)测量的信度。测量的信度是测量的随机误差的反映,而任何误差的增加都会降低测量的效度,因此信度不高的测验不可能具有很高的测量效度。
13. 近一个世纪以来,某城市的居民患抑郁症、焦虑症、强迫症的比例非常接近。近期,临床心理学家为了考察该城市居民的心理健康状况,进行了一项调查研究。结果发现,抑郁症患者85人,焦虑症患者124人,强迫症患者91人。请问该城市居民三种神经症患者比例是否发生明显变化(

=5.99,F
0.05(3,2)=9.55,Z
0.05=1.96)。
已知:抑郁症、焦虑症、强迫症三组的实际频次(f
o)分别为85人、124人、91人,df=2。
解:根据题意可以使用卡方检验来解决此问题。
H
0:该城市居民三种神经症患者比例未发生变化(或该城市居民三种神经症患者比例服从均匀分布)
从题目中可以得出,抑郁症、焦虑症、强迫症三组的理论频次(f
e)均为100人。

∵df=2时,

∴

结论:该城市居民三种神经症患者比例已发生了明显变化。
[解析] 本题考查的是考生对χ2检验的理解和掌握。χ2检验是一种非参数检验方法,对数据总体的分布形态不作任何假设。χ2检验能够处理一个因素两项或多项分类的实际观察频数与理论频数分布是否相一致的问题,或说有无显著性差异问题。所谓实际频数,是指在实验或调查中得到的计数资料,又称为观察频数,在本题中就是三组患者的实际人数。理论次数是指根据频率原理、某种理论、某种理论次数分布或经验次数分布计算出来的次数,又称为期望次数,在本题中应该是三组患者总人数均分到三组的人数。
14. 什么是效标和效标测量?
(1)效标就是衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得的人们所感兴趣的行为。人们所感兴趣的行为往往是一个观念上的东西(观念效标),它必须用一个数字或等级来进行表达(效标测量)。其中,效标测量的特点有:多样性;复杂性;特殊性;时间性。
(2)效标测量要想较好地体现观念效标,效标测量本身就必须是有效的和可靠的,而且还必须客观、实用。如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标来推论测量的结构效度。这里有两种做法:
①根据效标把人分成两类,考察其得分的差异。
②根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明该测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不太大,则说明该测验符合理论构想。
15. 测验分数为什么要合成?说明合成测验分数的主要方法。
使用测验时,需要将几个分数或几个预测源组合起来获得一个合成分数或做出总的预测。包括项目的组合、分测验或量表的组合、测验或预测源的组合等。
(1)测验分数合成的原因
测验分数要合成是因为测验施测以后,将受测者的反应与答案作比较即可得到每个人在测验上的分数,这种直接从测验上得到的分数是原始分数。它本身没有太大的意义。而为了使原始分数有意义,同时为了使不同的原始分数可以比较,必须把它们转换成具有一定的参照点和单位的测验量表上的数值。通过统计方法由原始分数转化到量表上的分数称为导出分数。有了导出分数,才能对测验结果作出有意义的解释。
(2)合成测验分数的主要方法
①临床判断。研究者根据直觉经验,主观地将各种因素组合以得出结论或预测的方法。其优点是能从整体上对各因素加以综合考虑,考虑到了各因素间的交互作用;同时,也能考虑到每个人的具体情况。其缺点是主观加权可能受判断者的偏见的影响,不够客观,没有精确的数量指标,判断者需要受过训练并具有丰富的经验。
②推理方法。不考虑各个变量之间的经验关系,而是根据某种先验的理想程序来做推理性加权。包括单位加权和等量加权。单位加权最简单的方法是将各个变量直接相加而得到一个合成分数;等量加权需要将所有分数转换成标准分数(z分数)。
③多重分段。当用测验来决定取舍时,必须确定一个分数线,分数在这条线以上的人接受,在这条线以下的拒绝,这是只有一个预测源的情况。在实际决策中,人们往往不只使用一个预测源。这种方法只是把人分为达到最低标准(接受)与未达到最低标准(拒绝)两类,而不在两组人内部做进一步的区分。根据确定分数线的不同情况,多重分段可有两种主要模式:综合分段、连续栅栏等。
④多重回归。当同时采用几个预测源来预测一个效标,而这些预测源变量之间又具有互偿性时,多重回归是最常用来组合分数的模式。多重回归方程式的导出一般是借助计算机来进行的。
⑤合成分数的特殊方法。在某些情况下需要采用一些特殊的方法来组合分数,比如:完形记分、轮廓分析等。完形记分就是将各个变量看作一个整体,不是孤立地看每一个反应结果,而是看总的反应模式。轮廓分析主要是考虑被试在各个测验或量表上所得分数的轮廓,而不是将各个变量做简单的线性组合。