银符考试题库-在线练习-华东师范大学432应用统计硕士(MAS)考试统计学真题2014年

华东师范大学432应用统计硕士(MAS)考试统计学真题2014年

一、单项选择题
(在每小题给出的四个选项中，只有一个符合题目要求。)

1. 假设男子身高服从正态分布，根据调查，2009年上海成年男子身高68%的区间估计为[167.32，175.02]，据此推算，99.7%的上海成年男子的身高的区间估计是______。

A.[161.32，177.02]
B.[159.62，182.72]
C.[163.47，178.87]
D.[155.77，186.57]

A B C D

[解析] 由正态分布的

准则，对于正态分布

，数值分布在

间的概率为0.68，分布在

间的概率为0.997。本题中，

即

置信区间关于样本均值对称，故样本均值

即

。不妨设99.7%的区间估计为[a,b]，同理有

因此

，

。代入数据计算得，a=159.62，b=182.72。

2. 为探索收入与时间关系的趋势，下列图形中，最适合的是______。

A.雷达图
B.相关图
C.直方图
D.茎叶图

A B C D

[解析] 相关图是用来反映两个变量之间相关关系的图，适用于探索收入与时间关系的趋势；雷达图是显示多个变量的图示方法，可用于显示或对比各变量的数值；直方图用于展示分组数据的分布；茎叶图用于反映原始数据的分布。雷达图、直方图、茎叶图均不能反映变量间的相关关系。

3. BMI指数(英文为Body Mass Index，简称BMI)，是用体重公斤数除以身高米数平方得出的数字，是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准。当我们需要比较及分析一个人的体重对于不同高度的人所带来的健康影响时，BMI值是一个中立而可靠的指标。WTO的正常值范围是18.5～24.9，如果这些范围是95%的区间估计，那么BMI的点估计是：

A.18.5
B.21.7
C.24.9
D.22.8

A B C D

[解析] 区间估计的形式为：X±C，具有对称性，由此得到的点估计值为区间两端点的算术平均数，所以BMI的点估计值为(18.5+24.9)/2=21.7。

4. 某银行在分析其不良贷款率(Y)时，分析出4个可能影响不良贷款因素，它们之间的相关系数如下表所示，如果建立回归方程，那么最合适的是______。

不良贷款与4个因素之间的相关系数

A.一元回归
B.二元回归
C.三元回归
D.四元回归

A B C D

[解析] 对于线性相关系数r，当|r|≥0.8时，可视为高度相关；0.5≤|r|＜0.8可视为中度相关；0.3≤|r|＜0.5时，可视为低度相关；|r|＜0.3时，说明两个变量之间的相关程度极弱，可视为不相关。由表中数据知，四个自变量与因变量为中度相关或高度相关，因此，应建立四元回归方程进行分析。四个自变量间相关性较强，可能存在多重共线性，因此，建立四元回归方程后还应根据实际情况进一步分析。

5. 交警部门发布报告称：在被怀疑酒驾司机中，72%的司机被要求采用呼吸仪测量，36%的司机被要求采用血液仪测量，18%的司机被要求既采用呼吸仪测量又采用血液仪测量，那么，一个被怀疑酒驾的司机，不用这两种仪器测量的比例是______。

A.0.5
B.0.25
C.0.2
D.0.1

A B C D

[解析] 不妨设事件A为“采用呼吸仪测量”，事件B为“采用血液仪测量”。由题知，P(A)=0.72，P(B)=0.36，P(AB)=0.18，则

因此，“不用这两种仪器测量的概率”为

6. 某大学研究生与本科生共有20000名，其中研究生占40%，如果用分层抽样抽100名学生的随机样本，那么______。

A.每个研究生被抽到的概率大于每个本科生被抽到的概率
B.每个研究生被抽到的概率小于每个本科生被抽到的概率
C.每个研究生被抽到的概率等于每个本科生被抽到的概率
D.每个研究生被抽到的概率是八十分之一

A B C D

[解析] 该校研究生人数为20000×40%=8000，抽样数目在研究生与本科生间按比例分层，则抽取100×40%=40名研究生、60名本科生，每个研究生与每个本科生被抽中的概率相等，均为1/200。

7. 莎士比亚在戏剧里的用字长度的分布是右偏的，说明莎翁______。

A.更习惯用长的字
B.更习惯用短的字
C.用字的长度无规律
D.不能说明任何问题

A B C D

[解析] 用字长度右偏，即用字长度频数分布的高峰偏左，短的字出现的频数较大，说明他更习惯用短的字。

8. 以下关于极差离散系数的说法错误是______。

A.极差离散系数等于极差除以均值
B.极差离散系数越大的数据，方差也越大
C.极差离散系数不是稳健的统计量
D.极差离散系数未必等于标准差离散系数

A B C D

[解析] 极差离散系数为极差与均值之比，标准差离散系数为标准差与均值之比，二者都可用于比较不同水平的变量数列的离散程度。极差为数列最大值与最小值之差，容易受极端值影响，因此，极差离散系数不是稳健的统计量。极差离散系数与标准差系数不一定相等，与数列方差没有必然联系。

9. 已知一总体服从指数分布，其均值为μ，取样本x₁，…，x_n(n＞1)，得到样本均值

。以下说法错误的是______。

A.μ的矩估计和极大似然估计都是
B.是μ的充分统计量
C.在μ所有估计中，的均方误差最小
D.当样本量趋于无穷时，的极限是μ

A B C D

[解析] A项，均值为

的指数分布的密度函数为

，

，期望

故

的矩估计为

。似然函数

对数似然函数

对数似然函数关于μ求导得

令导数为零得到极大似然估计

；B项，由因子分解定理知，

所以

是μ的充分统计量；C项，均方误差即样本方差，在μ的所有估计中，

不是均方误差最小的；D项，由大数定律，当样本量趋于无穷时，

的极限是μ。

10. 正态性检验有很多方法，其中有一种W检验(它是国家标准GB4882-85推荐使用的犯第二类错误最小的检验)，这种检验适用的样本量最小值和最大值分别为______。

A.35，50
B.50，不限
C.8，50
D.8，35

A B C D

[解析] W检验是检验样本容量8≤n≤50时，样本是否符合正态分布的方法。

11. 一种药冷藏2年后的有效率为25%，通过改良，希望有效率提高到原来的一倍，为了检验改良效果，随机确定20名自愿者进行试验，如果20人中至少有9人以上注射后有效果，则认为改良是成功的，若低于9人，则认为改良是不成功的，这个检验的两类错误之和______。

A.小于0.5
B.在0.5与1之间
C.等于1
D.大于1

A B C D

[解析] 不妨用

表示该药的有效率，用p表示有效的样本比例，则有

检验的原假设

，备择假设

，拒绝域

。犯第一类错误的概率，即原假设为真拒绝原假设的概率

犯第二类错误的概率，即原假设为假而接受原假设的概率

两类错误之和

。

12. 对于方差已知为

的正态总体均值的假设检验问题：H₀：μ=μ₀，H₁：μ＜μ₀，显著性水平取为α，样本量为n。当真实的均值为

时，检验的势为______。

A B C D

[解析] 检验统计量为

拒绝域为

即

检验的势为检验统计量落入拒绝域的概率。真实均值为

时，检验的势为

13. 两变量的线性相关系数为r，对二者建立一元回归模型y=β₀+β₁x+ε，其中的系数均采用最小二乘估计，则根据以下关系式不成立的是______。

A B C D

[解析] A项，

故

B项，使用最小二乘估计，

线性相关系数

CD两项，

故

14. 在单因子方差分析中，因子A有4个水平，每个水平下各重复5次试验，现已求得每个水平下试验结果的样本标准差分别为1、2、2、3，若ST=180，则F值为______。

A.5.33
B.4
C.8
D.16

A B C D

[解析] 根据题中数据有，组内平方和

自由度为20-4=16；组间平方和

自由度为4-1=3，则

15. 一个打篮球的男生跟您说，他投篮命中率为80%，如果您请他投20个球，结果中了8个，那么，根据假设检验原理，原假设H₀：p=0.8，该检验的P值为______。

A B C D

[解析] P值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明这种情况发生的概率很小，而如果出现了，根据小概率原理，就有理由拒绝原假设，P值越小，拒绝原假设的理由就越充分。本题中，P值为在原假设成立，即p=0.8时，投20个进球数少于或等于8个的概率，为

。

16. 单因子方差分析要求各个水平具有等方差，利用SPSS可以检验这个假设。下表是某个方差分析问题的部分输出结果：
Test of Homogeneity of Variances
销售数据

根据这些输出，您的结论是______。

A.各个水平具有等方差
B.各个水平不具有等方差
C.还要结合实际方差大小才能确定
D.需要做多重比较才能确定

A B C D

[解析] 检验原假设和备择假设分别为：H₀：各个水平具有等方差；H₁：各个水平方差不全相等。由表知P值为0.838，p值度量了由样本得到的信息对原假设的支持程度，p值大于显著性水平0.1，即没有充分理由说明样本数据不支持原假设，因而不能拒绝原假设，因此，可以认为各个水平具有等方差。

17. 自变量x和因变量y建立一元回归模型。若y不服从正态分布，通常会考虑著名的Box-cox变换，这种数据是______

A.对数变换
B.幂变换
C.线性变换
D.三角函数变换

A B C D

[解析] box-cox变换用于连续的响应变量不满足正态分布的情况，变换之后，可以在一定程度上减小不可观测的误差和预测变量的相关性。对数变换是box-cox变换的特殊情形，是常用的box-cox变换。

18. 箱线图(box plot)不仅可以反映出一组数据的分布特征，还可以进行多组数据分布特征的比较，其绘制过程中除了需要最大、最小、两个四分位数外，还需要______

A.平均数
B.众数
C.中位数
D.方差

A B C D

[解析] 箱线图主要包含五个数据节点，从小到大依次是最小值、下四分位数、中位数、上四分位数、最大值，在有异常值时还应标出异常值。

19. 卡方检验应用非常广泛，特别是处理分类数据检验问题。这一方法是英国统计学家______于1900年提出的。

A.K.Pearson
B.R.A.Fisher
C.M.G.Kendall
D.F.Galton

A B C D

[解析] 卡方检验是英国统计学家皮尔逊于1900年提出的。

20. 多重比较中常使用的检验方法有两种S法和T法，下列说法正确的是______。

A.样本重复数不等用S法
B.样本重复数不等用T法
C.样本重复数不等不能用S法和T法
D.S法和T法在各种场合都可以使用

A B C D

[解析] 方差分析中的多重比较原假设和备择假设分别为：

。S法适用于各个水平下进行的试验次数不相同的情形。S法中，根据显著性水平α及k-1，N-k，查表得临界值

，计算

若

，则认为

与

的差异有统计学意义，反之，认为差异无统计学意义；T法适用于各个水平下进行的试验次数相同的情形。根据检验水平α及因素水平个数k和n-k，查表得临界值

，计算

若

，则认为

与

的差异有统计学意义，反之，认为差异无统计学意义。

21. 检验一个总体是否服从Poisson分布，可通过以下哪种检验方法实现?______

A.卡方检验
B.正态概率纸
C.列联表检验
D.方差齐性检验

A B C D

[解析] 卡方拟合优度检验可用于检验总体是否服从某个指定的分布；正态概率纸用于检验总体是否服从正态分布；列联表检验一般用于检验两变量的独立性；方差齐性检验用于检查不同样本的总体方差是否相同。

22. 设X₁，X₂，…，X_n是来自正态总体N(μ，σ²)的一个样本，下列统计量中，均方误差最小的是______

A B C D

[解析] 不妨令

由正态分布的性质有，

由卡方分布的性质有，

因此各统计量的期望

，

方差

各统计量均方误差计算如下：

比较各均方误差得

23. 设X₁，X₂，…，X_n是来自正态总体N(μ，σ²)的一个简单随机样本，σ²的极大似然估计为

则

的渐近分布是______

A.N(σ²，2σ⁴)
B.N(σ²，σ⁴)
C.
D.

A B C D

[解析] 由正态分布的性质有，

由卡方分布的性质有

所以

当n趋于无穷大时，由中心极限定理知，

近似服从

。

24. 时间序列长期趋势的测定的主要方法有线性模型法、移动平均法和______

A.趋势剔除法
B.季节平均法
C.循环波动法
D.指数平滑法

A B C D

[解析] 时间序列长期趋势的测定主要方法有线性模拟法、移动平均法、指数平滑法。

25. 以下关于抽样分布的说法错误的是______。

A.抽样分布一般与样本量有关
B.常用的t分布、χ²分布、F分布都是基于正态总体得来的
C.抽样分布主要用于评价估计量的效果以及构造置信区间和拒绝域
D.可以通过随机模拟的方法获得抽样分布

A B C D

[解析] A项，抽样分布是统计量的分布，一般与样本量有关；B项，在正态总体条件下，主要有χ²分布、t分布、F分布，常称之为统计三大分布；C项，抽样分布是统计推断的理论基础，可用于评价估计量的效果以及构造置信区间和拒绝域；D项，可以通过随机模拟方法获得抽样分布的近似分布，但不可以直接得到抽样分布。

26. 对两个正态总体方差的检验

有以下三个说法：
(1)当μ₁和μ₂均未知时，应采用F作为检验统计量
(2)当μ₁和μ₂均已知时，应采用F作为检验统计量
(3)当μ₁和μ₂其中一个已知、另一个未知时，应采用F作为检验统计量
那么，您的结论是______

A.只有(2)正确
B.(1)和(2)正确，(3)错误
C.(2)和(3)正确，(1)错误
D.(1)、(2)、(3)都正确

A B C D

[解析] 对两正态总体方差的检验，无论μ₁、μ₂是否已知，都应采用F作为检验统计量。

27. 在△ABC的两边AB、AC上各任取一点P、Q，则四边形PBCQ的面积的数学期望等于△ABC面积的______。

A.2/3
B.3/4
C.4/5
D.1/2

A B C D

[解析] 不妨设

的AB、AC两边长度分别为c、b；AP长度为

，AQ长度为

。

由题意知，随机变量

，

，且

、

相互独立。因此，

，

四边形PBCQ面积的期望

28. 均值μ的95%的置信区间是(-0.3，10.2)，而利用同样的样本计算得均值μ的90%的置信区间是(0.5，9.4)，则对假设检验问题H₀：μ=0 vs H₁：μ≠0，下列选项中，______最有可能是该检验P值。

A.0.0648
B.0.1296
C.0.0162
D.0.0324

A B C D

[解析] 均值μ的1-α置信区间为

，由区间估计的对称性知

取1-α=95%，则有

求得

。假设检验统计量为

，原假设为真时

P值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率，即

查表知

，代入计算得

与A项最接近。

29. CPI是居民消费价格指数(consumer price index)的简称。居民消费价格指数，是一个反映居民家庭一般所购买的消费商品和服务价格水平变动情况的宏观经济指标，目前我国居民消费价格指数涵盖全国城乡居民生活消费的食品、烟酒及用品、衣着、家庭设各用品及维修服务、医疗保健和个人用品、交通和通信、娱乐教育文化用品及服务、居住等八大类，包括______个基本分类的商品与服务价格

A.155
B.199
C.228
D.262

A B C D

[解析] 目前全国居民消费价格指数(CPI)涵盖全国城乡居民生活消费的食品、烟酒及用品、衣着、家庭设备用品及维修服务、医疗保健和个人用品、交通和通信、娱乐教育文化用品及服务、居住等八大类、262个基本分类的商品与服务价格。

30. 华东师范大学图书馆一个电梯上的标签标出：限乘16人，限重2500磅，假设学生和教职员工的体重近似服从均值为150磅、方差为1600的正态分布，那么，在随机16人乘电梯的过程中，超重的概率是______

A.0.16
B.0.26
C.0.36
D.0.46

A B C D

[解析] 不妨设16个学生和教职工的体重为

。依题意有，

，由正态分布的性质，

超重的概率为

二、简要回答下列问题
(每小题10分，共40分)

1. 简述线性回归模型的基本假设及其检验方法。

(1)线性回归模型的基本假设：
①解释变量

是非随机变量，观测值

是常数；
②等方差及不相关的假定条件

③正态分布的假定条件

④通常为了便于数学上的处理，还要求n＞p，即样本容量的个数要多于解释变量的个数。
(2)线性回归模型的检验方法：
①t检验，用于检验回归系数的显著性。
检验的原假设和备择假设：

；

检验统计量：

其中

拒绝域：给定显著性水平α，双侧检验的临界值为

，当

时拒绝原假设，认为

显著不为零；当

时接受原假设，认为

为零。
②F检验，用于检验线性回归方程的整体显著性。
检验的原假设和备择假设：

。
检验统计量：

拒绝域：当

时，拒绝原假设

，认为在显著性水平

下，

对

有显著的线性关系，也即回归方程是显著的；反之，当

时，则认为回归方程不显著。

2. 判断一组数据异常值有哪些方法?

(1)关于因变量y的异常值：
使用删除残差判断数据关于因变量y的异常值。删除残差的构造思想是，在计算第i个观测值的残差时，用删除掉这第i个观测值的其余n-1个观测值拟合回归方程，计算出第i个观测值的删除拟合值

，这个删除拟合值与第i个值无关，不受第i个值是否为异常值的影响，第i个观测值的删除残差为

删除学生化残差为

的观测值即判定为异常值。
(2)关于自变量x的异常值：
使用库克距离判断关于自变量x的异常值。库克距离的计算公式为

其中，

为帽子矩阵中主对角线的第i个元素，即杠杆值。对于库克距离大小标准的粗略判断标准是：当

时，认为不是异常值点；当

时，认为是异常值点。

3. 简述试验设计的三个基本原则。

(1)随机化原则，即被研究的样本是从总体中任意抽取的。随机化是试验分析使用数理统计方法的基石。
(2)重复性原则，即任何试验都必须可重复。重复的作用有两方面：
①降低试验误差，扩大试验的代表性；
②估计试验误差的大小，判断试验可靠程度。
(3)试验条件一致性原则，即整个试验过程中，除欲处理的试验的因素外，其他条件要求前后一致。这要求对影响试验结果的可能因素进行全面认真的分析，逐个消除无关因素，突出某一试验因素。

4. 给出t分布的定义，计算t的期望与方差，并回答当自由度趋向无穷时极限分布是什么。

(1)t分布的定义如下：
设随机变量