二、选择(在下列各题中选择出一个或一个以上的正确选项) 三、简答(本题共15分)1. 造成统计数据误差的原因有哪些?如何减少和控制统计数据中的误差?
统计数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。数据的误差有两类:抽样误差和非抽样误差。
抽样误差是由抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差是由抽样的随机性导致的。通过增加样本量可以减小抽样误差,当样本量大到与总体单位相同时,也就是抽样调查变成普查时,抽样误差就减小到零。
非抽样误差是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。非抽样误差包括抽样框误差、回答误差、无回答误差、调查员误差、测量误差等。非抽样误差控制的重要方面是调查过程的质量控制。这包括调查员的挑选、调查员的培训、督导员的调查专业水平、对调查过程进行控制的具体措施、对调查结果进行检验评估、对现场调查人员进行奖惩的制度等。
2. 比较众数、中位数和平均数的异同之处。
众数是一组数据中出现次数最多的变量值;中位数是一组数据排序后处于中间位置上的变量值;平均数是一组数据相加后除以数据的个数得到的结果。
三者的联系表现为:众数、中位数和平均数都是反映数据集中趋势的测度值,当数据的分布对称时,众数、中位数和平均数相等。
三者的区别表现为:众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不惟一性,一组数据可能有一个众数,也可能有多个众数,也可能没有众数。众数只有在数据量较多时才有意义,当数据量较少时,不宜使用众数。众数主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。平均数是针对数值型数据计算的,而且利用了全部数据信息,它是实际中应用最广泛的集中趋势测度值。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。
3. 从总体中抽取样本,主要有哪些抽样方法?各种抽样方法的特点及适用场合是什么?
从总体中抽取样本的方式分为两类:概率抽样和非概率抽样。
概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。经常采用的概率抽样有简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样等。非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样主要有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等。
概率抽样是依据随机原则抽选样本,样本统计量的理论分布是存在的,若调查的结果要求对总体的有关参数进行估计,并对估计的精度提出了要求,这时应选取概率抽样,如调查不同年龄层段的消费水平等。
非概率抽样的特点是操作简单、时效快、成本低,而且对于抽样中的统计学专业技术要求不是很高。非概率抽样适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试,如产品包装测试、广告测试等,这时不需要将调查结果投影到总体的情况。
四、论述(本大题共24分)1. 系统论述统计活动的基本程序、统计方法的构成内容及应用范围。
(1)统计活动的基本程序包括:统计设计、统计调查、统计整理、统计资料的表现形式、统计分析。
①统计设计是统计工作的初始阶段,即统计工作实际进行之前的准备阶段,是根据统计研究的目的,对统计工作各个环节的统筹考虑和安排。
②统计调查就是按照统计设计和调查方案,有计划、有组织地向调查单位搜集统计资料的工作过程。
③统计整理,是指根据统计研究目的,将统计调查所取得原始资料进行科学的分类汇总,或对已经加工的次级资料进行再加工,为统计分析准备系统化、条理化的综合资料的工作过程。
④统计资料通过整理,最后以指标及指标体系、统计表和统计图等形式表现出来。
⑤统计分析是指根据研究的目的,运用统计方法,以统计资料为依据,结合具体情况,对客观事物进行科学的分析,揭示其本质和规律性,提出解决问题和矛盾的方法的一种活动。
(2)统计方法可分为描述统计方法和推断统计方法。
描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。主要包括数据的频数分析、集中趋势分析、离散程度分析、数据的分布及一些基本的统计图形。推断统计是研究如何利用样本数据来推断总体特征的统计方法。该方法是以概率形式来决断数据之间是否存在某种关系,包括总体参数估计和假设检验,常用方法有Z检验、T检验、卡方检验等。
描述统计和推断统计二者彼此联系,相辅相成,描述统计是推断统计的基础,推断统计是描述统计的升华。具体研究中,是采用描述统计还是推断统计,应视具体的研究目的而定,如研究的目的是要描述数据的特征,则需描述统计;若还需对多组数据进行比较或需以样本信息来推断总体的情况,则需用推断统计。例如,在教育领域中,在对某幼儿园大班开展一项识字教改实验,期末进行一次测试,并对测试所得数据进行统计分析。如果只需了解该班儿童识字的成绩(平均数及标准差)及其分布,此时,应采用描述统计方法;若还需进一步了解该实验班与另一对照班(未进行教改实验)儿童的识字成绩有无差异,从而判断教改实验是否有效时,除了要对两个班的成绩进行描述统计之外,还需采用推断统计方法。
五、计算一项调查获如下容量为20的样本数据:
要求:1. 确定该数据的中位数
将数据按照升序重新排序,结果如下:
所以中位数为:
,即
。
2. 以0~4、5~9、10~14等为组限,绘制等距式频数分布表及累积频数分布表。
3. 绘制频数分布直方图和累积频数分布图。
频数分布直方图如下:
频数分布直方图
累计频数分布图如下:
向上累积频数分布图 向下累积频数分布图
下面是两个变量的5次观察值:
要求:6. 观察散点图,指出x与y之间存在何种可能的关系?
7. 计算相关系数并解释其计算结果的含义。
相关系数
,说明x与y之间存在中度正相关的线性关系。
甲乙两个班级统计学考试成绩资料如下:
甲班的平均分数为75分,标准差为7分;乙班的考试成绩频数分布表如下:
要求:8. 计算乙班的平均考试分数。
乙班平均考试分数计算过程如下表所示:
乙班平均考试分数的分组数据表
由上表中数据可得
9. 计算乙班考试分数的方差及标准差。
方差计算过程如下表所示:
由上表中数据可得:
11. 比较甲乙两个班级考试分数的离散程度的大小。
,说明两个班的统计学考试成绩相比较,甲班的成绩较集中,乙班的成绩较分散。
12. 从一个标准差为6的总体中,随机抽取了一个容量为45的样本,并计算得样本均值为30。试以95%的置信度给出总体均值的置信区间(Z
0.025=1.96)。
由题意可知,
,
,
,参数估计使用
统计量,所以总体均值的置信区间为:
即(28.247,31.753)。
某城市某种工业产品产量资料如下表所示:
要求:13. 绘制时间序列动态图
绘制的时间序列动态图如下:
工业产品产量序列动态图
14. 计算该城市该种工业产品产量各年的环比增长率和定基增长率。
计算该城市该种工业产品产量各年的环比增长率和定基增长率的过程如下表所示:
15. 计算该城市该种工业产品产量从2005年到2009年4年间的平均增长率。
该城市该种工业产品产量从2005年到2009年4年间的平均增长率为
16. 运用最小二乘法确定趋势直线方程
两种商品基期和报告期的销售量及销售价格数据如下表所示:
要求:17. 计算两种商品的拉氏价格指数。
两种商品的拉氏价格指数为:
18. 计算两种商品的帕氏价格指数。
两种商品的帕氏价格指数为:
19. 比较拉氏价格指数与帕氏价格指数计算结果的差异,并指出产生差异的原因。
比较第一小题和第二小题的计算结果可知,拉氏价格指数与帕氏价格指数计算结果不同,产生差异的原因是权数确定的时期不同:拉氏价格指数将权数的同度量因素固定在基期;帕氏价格指数将权数的同度量因素固定在报告期。