二、简答题(每小题10分,共50分)1. 简述假设检验的过程。
假设检验的过程如下:
(1)根据所研究问题的要求提出原假设
(或称为零假设、无效假设)和备择假设
;确定显著性水平,显著性水平为作假设检验时犯第一类错误的概率。
(2)选择合适的检验方法,构造适当的检验统计量,确定统计量的分布,并代入样本数据计算在原假设成立条件下它的数值。
(3)根据计算出的检验统计量观测值,查阅统计表,确定相对应的
值;将
值与显著性水平
比较,若
,则拒绝H
0,接受H
1;若
,则不能拒绝H
0。
2. 请给出你所知道的概率抽样的组织方式。
概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
调查的实践中经常采用的概率抽样方式有以下几种:
(1)简单随机抽样。简单随机抽样指从包括总体N个单位的抽样框中随机地、逐个地抽取n个单位作为样本,每个单位入样的概率是相等的;
(2)分层抽样。分层抽样是指将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计;
(3)整群抽样。整群抽样是指首先将总体中若干个单位合并为组,这样的组称为群,抽样时直接随机抽取一个群,然后对中选群中的所有单位全部实施调查;
(4)系统抽样。系统抽样是指将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位;
(5)多阶段抽样。采用类似整群抽样的方法,首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查;因为取得这些接受调查的单位需要两个步骤,所以将这种抽样方式称为二阶段抽样;这里,群是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多,就称为多阶段抽样。
3. 在盒子图(箱线图)的作图中,会使用哪些描述指标。
箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。故箱线图使用的描述指标有:最小值、第一四分位数、中位数、第三四分位数与最大值。
4. 下列调查问卷中的提问都有问题,请修改。
(1)您和您爱人是否对现有住房满意?
(2)您最近一次是几点上班的?
(3)绝大多数喝过明光牛奶的人都认为它口味纯正,您认为是这样的吗?
(1)您对现有住房满意吗?您爱人呢?
(2)您最近一次是几点离开家去上班的?
(3)您认为明光牛奶的口味纯正吗?
5. 如果有百分之五的人是左撇子,而小明和他弟弟都是左撇子;那么小明和他弟弟都是左撇子这个事件的概率是不是0.05×0.05=0.0025?为什么?
不是。
显然,小明和他弟弟都是左撇子的事件不是独立的,所以这种计算方法错误。
当两个事件相互独立时:
(1)
当两个事件不相互独立时:
(2)
记事件A为小明是左撇子,事件B为小明的弟弟是左撇子。显然小明是左撇子和他弟弟是左撇子这两个事件不相互独立,所以选择第二个公式计算小明和他弟弟都是左撇子这个事件的概率。
三、计算与分析题(本大题共70分)离散型随机变量X的概率分布率如下。
1. 确定概率分布率中a的值。
根据离散型随机变量的概率分布列的正则性,即
可知:
得
。
2. 试给出随机变量X的分布F(x)。
当
时,
;
当
时,
;
当
时,
;
当
时,
;
当
时,
。
所以随机变量
的分布为:
一家紧急救护中心目前每天的值班护士人数相同。表1是2010年11月1日至2010年11月26日到紧急救护中心的病人数(紧急救护中心周六,周日不营业),表2和表3分别是表1数据的描述统计和方差分析的结果。
根据表1、表2和表3中的数据和统计分析结果,请你替这家紧急救护中心的主任给他的上级主管部门撰写一份报告,阐明根据一周每天病人人数安排相应的值班护士人数的理由。
报告至少涵盖下面两项内容:4. 一周中每天的病人人数是否存在差异?
提出假设:
由表3可知,方差分析中F检验的P-value=6.26E-12
,故拒绝原假设,认为周一至周五每天病人的平均人数之间有显著差异。
5. 如果存在差异,哪些天似乎是最繁忙的?
由表二我们知道周一至周五每天病人的平均人数里周一和周五最多,周四病人的平均人数最少,故可减少周四相应的值班护士人数增派安排到周一和周五,以达到护士人员的合理安排优化配置。
报告略。
6. 某汽车租赁公司的财务主管发现有位司机报销的年度维修费用过高,你怀疑他和汽车维修公司合伙,开出虚高的发票。这位财务主管收集了6位非常可靠的司机的汽车年度维修费用和对应的汽车使用年限数据(见表1)。以年度维修费用为因变量y,相应汽车的使用年限为自变量x,建立回归模型
或者
在EXCEL中,通过回归分析,得到表2和表3的输出结果。这位司机提交的年度维修费用发票共8001元,他的汽车的使用年限为5年。根据表2和表3,可以计算使用年限为5年的汽车对应的年度维修费用的95%置信预测区间为[4498.722,7348.021]。
请你为这位财务主管给他的上级主管部门撰写一个500字以内的报告,阐明调查这位司机的理由。
报告至少涵盖下面两项内容:
(1)解释模型的合理性;
(2)区间预测的合理性。
注:在计算预测区间时使用了下面的公式。给定汽车的使用年限x
p,汽车年度维修费用的置信度为1-α的预测区间为:
,
。
其中,
s是ε标准差的估计。
表1 维修费用记录表
表2 方差分析
表3 系数估计
(1)
表4 回归结果
由表3可以得到,线性回归方程为:
回归系数
表示:汽车的使用年限每延长1年,汽车的年度维修费用平均增加814.7429元。
由表4可知R
2=92.8704%,表明在汽车年度维修费用的变差中被汽车的使用年限与年度维修费用的线性关系所解释的比例为92.8704%,回归方程的拟合程度十分好。
估计标准误差s
e=0.558497,表示,当用汽车的使用年限来预测年度维修费用时,平均的预测误差为0.558497%,表明预测误差十分小。
(2)由表2可知,Significance F=0.001953<α=0.05,即回归方程的线性关系显著。回归系数检验的
表明回归系数显著,即汽车使用年限是影响汽车年度维修费用的显著性因素。表明该模型十分合理,故可以用来进行预测。通过计算使用年限为5年的汽车对应的年度维修费用的95%置信预测区间为[4498.722,7348.021],表4中汽车使用年限为5年的年度维修费用为6449元,显然落在了置信区间内,由此可说明区间预测的合理性。据此可判断这位司机提交的年度维修费用发票共8001元未落在置信区间内,明显不合常理,不能排除他和汽车维修公司合伙,开出虚高的发票的疑点。
报告略。