银符考试题库-在线练习-对外经济贸易大学硕士研究生入学考试432统计学真题2022年

对外经济贸易大学硕士研究生入学考试432统计学真题2022年

一、单项选择题

1. 将调查对象划分为若干类，然后从每一类中随机抽取若干单位进行观察，这种方法称为______。

A.等距抽样
B.整群抽样
C.分层抽样
D.简单随机抽样

A B C D

2. 设随机变量X与Y相互独立，均服从分布B(1，2/3)，则P{X=Y}等于______。

A.1
B.0
C.5/9
D.2/9

A B C D

3. 已知某餐厅一天来的顾客数服从参数为λ=200的泊松分布，而每个进入该餐厅的顾客购买某套餐的概率均为0.001，且每个人的购物行为是独立的，则每天有人会购买该套餐的概率为______。

A.0.2
B.0.4
C.1-e^-0.2
D.1-e^-0.4

A B C D

4. 设X₁，X₂，…，X_n是来自总体X的简单随机样本，X的分布函数为F(x)。定义经验分布函数

则对固定的x，

的方差为______。

A.nF(x)[1-F(x)]
B.F(x)[1-F(x)]/n
C.F²(1)
D.[1-F(x)]²

A B C D

5. 设X₁，X₂，X₃，X₄是来自正态总体N(0，1)的简单随机样本，如果Y=a(X₁+X₂)²+b(2X₄-X₃)²～χ²(2)，则常数(a，b)等于______。
A．(1/2，1/5)
B．

C．(1/2，1/3)
D．

A B C D

6. 设X₁，X₂，…，X_n是来自正态总体N(0，σ²)的简单随机样本，为使得

为σ²的无偏估计，则c等于______。

A.1/(n-1)
B.1/n
C.1/(2n-2)
D.1/(2n)

A B C D

7. 设X₁，X₂，…，X_n是来自正态总体N(μ，1)的简单随机样本，其中μ未知，如果要求μ的95%置信区间的长度不超过0.6，则样本量n至少需要等于______。

A.42
B.43
C.44
D.45

A B C D

8. 某地区家庭平均年收入的95%置信区间为6～8万元，下列说法正确的是______。

A.该地区家庭平均年收入的点估计值为8万元
B.在100户家庭中，有95户家庭的年收入在6～8万元之间
C.该置信区间的估计误差为1万元
D.可以用95%的概率保证该地区家庭平均年收入在6～8万元之间

A B C D

9. 某工厂2020年的调查发现，产品中有10%是次品，2021年将再做一次调查检验次品比率π是否显著下降，建立的原假设和备择假设为______。

A.H₀:π=10%，H₁:π≠10%
B.H₀:π≥10%，H₁:π＜10%
C.H₀:π＜10%，H₁:π＞10%
D.H₀:π＞10%，H₁:π≤10%

A B C D

10. 对于线性回归方程E(y|x)=a+bx的回归系数b，下列说法正确的是______。

A.b的绝对值介于0～1之间
B.b接近0表明自变量对因变量的影响不显著
C.x和y的相关系数r与b的符号相同
D.b为随机变量

A B C D

二、判断题

1. 变异系数反映了随机变量取均值时的离散程度。

对错

2. 偏度系数大于零，表明该组数据是左偏分布。

对错

3. 具有函数关系的两个随机变量一定不独立。

对错

4. 设随机变量X～N(0，1)，密度函数为f(x)，则恒有0＜f(x)＜1。

对错

5. 当自由度趋于无穷时，卡方分布的极限分布是正态分布。

对错

6. 在总体数量固定的条件下进行统计推断，无论样本量多大，都称为小样本问题。

对错

7. 在回归分析中，给定自变量的取值，求出的因变量平均值的置信区间比因变量个别值的预测区间更宽。

对错

8. 在线性回归模型中增加一个自变量之后，回归直线的拟合优度R²相比于增加之前一定不会减少。

对错

9. 移动平均法是通过计算逐项移动的时序平均数来形成派生序列，从而消除非偶然因素引起的不规则变动。

对错

10. 多元线性回归模型中的判定系数可能出现负值。

对错

三、名词解释
(每题4分，共20分)

1. 概率的统计定义。

在相同条件下随机试验n次，某事件A出现m次(m≤n)，则比值m/n称为事件A发生的频率。随着n的增大，该频率围绕某一常数p上下波动，且波动的幅度逐渐减小，趋于稳定，这个频率的稳定值即为该事件的概率，记为

2. 平均差。

平均差也称平均绝对离差，是各变量值与其平均数离差绝对值的平均数，用M_d表示。根据未分组数据计算的平均差为

根据分组数据计算的平均差为

平均差以平均数为中心，反映了每个数据与平均数的平均差异程度，能全面准确地反映一组数据的离散状况。平均差越大，说明数据的离散程度越大；反之，则说明数据的离散程度越小。

3. 样本量的圆整法则。

在计算样本量时，计算出来的样本量不一定是整数，通常将样本量取成较大的整数，也就是将小数点后面的数值一律进位成整数，比如23.6和23.2都取24。这就是样本量的圆整法则。

4. 显著性水平。

显著性水平是指当原假设H₀为真时，却错误地拒绝了原假设，导致由部分推断总体的判断发生错误，犯这种错误的概率用α表示，统计上把α称为假设检验中的显著性水平。显著性水平取α，意味着在原假设成立时，如果事件的发生概率小于α则认为原假设不成立。换言之，我们有1-α的把握拒绝原假设。α取不同的水平，将直接影响到拒绝域的临界值，进而影响到判断结果。

5. 方差分析中的多重比较方法。

通过方差分析可以得到不同水平之间存在显著差异的结论，这时就需要用到方差分析的多重比较，它通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。

四、简答题
(每小题5分，共30分)

1. 什么是回答误差?请给出导致回答误差的三种主要原因。

回答误差是指被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有多种，主要有理解误差，记忆误差和有意识误差。
(1)理解误差。
不同的被调查者对调查问题的理解不同，每个人都按自己的理解回答，大家的标准不一致，由此造成理解误差。
(2)记忆误差。
有时，调查的问题是关于一段时期内的现象或事实，需要被调查者回忆。需要回忆的时间间隔越久，回忆的数据可能就越不准确。
(3)有意识误差。
当调查的问题比较敏感，被调查者不愿意回答，迫于各种原因又必须回答时，可能就会提供一个不真实的数字，由此造成有意识误差。

2. 一枚硬币连续抛10次，8次都是正面朝上，利用假设检验的方式推测硬币不均匀是否合理?

若硬币为均匀的，则出现正面与出现反面的概率应相等，均为0.5。根据题意建立原假设与备择假设为
H₀:p=0.5，H₁:p≠0.5。
由题意得，n=10，x₀=8，可计算检验的p值为

因此不拒绝原假设，认为硬币不均匀不合理。

3. 在单侧假设检验H₀:μ≥μ₀，H₁:μ＜μ₀以及H₀:μ≤μ₀，H₁:μ＞μ₀中，有可能出现两个检验都不拒绝H₀的现象，这种现象矛盾吗?请说明原因。

不矛盾。
不拒绝H₀并不代表H₀一定是正确的，只能说明目前没有充分的理由证明H₀是错误的。同时，得到不拒绝H₀的结论有可能犯第二类错误。
以假设正态总体，方差已知，α=0.05为例：
针对假设为H₀:μ≥μ₀，H₁:μ＜μ₀的问题，拒绝域为
W={u＜1.645}。
针对假设为H₀:μ≤μ₀，H₁:μ＞μ₀的问题，拒绝域为
W={u＞1.645}。
以上两个假设的接受域存在交集(-1.645，1.645)，而用样本计算的检验统计量值可能处于-1.645～1.645之间，此时对于以上两个假设均落入接受域，均不拒绝原假设，并不存在矛盾。

4. 在多元线性回归中，为什么在线性关系的F检验之后，通常还要对每个回归系数进行是否为0的t检验?

在多元线性回归中，线性关系检验(回归方程的检验)主要是检验因变量同多个自变量的线性关系是否显著，在k个自变量中，只要有一个自变量与因变量的线性关系显著，F检验就能通过，但这不一定意味着每个自变量与因变量的关系都显著。
回归系数检验则是对每个回归系数分别进行单独的检验，它主要用于检验每个自变量对因变量的影响是否显著。如果某个自变量没有通过检验，就意味着这个自变量对因变量的影响不显著，也就没有必要将这个自变量放进回归模型中了。另外，通过该步骤还可以初步判断自变量间是否存在多重共线性，当某些重要的自变量的回归系数t检验不通过而同时整个回归方程的线性关系检验又能通过时，则通常预示着自变量间存在多重共线性。

5. 如果一个时间序列存在趋势但是不存在季节性，请给出合理的预测方法。

当时间序列存在趋势但是不存在季节性时，主要的预测方法有线性趋势预测，非线性趋势预测和白回归模型预测等，具体采用哪种预测方法需要判断是线性趋势还是非线性趋势。
(1)通过时间序列图观察序列呈现的是线性趋势还是非线性趋势。如果明确是线性趋势则可以采取线性趋势预测，并采用最小二乘法拟合趋势方程。如果明确其为非线性趋势，则采用非线性方程进行描述，对于曲线方程中的参数，可采用线性化手段将其化为线性的形式，再按线性回归求得曲线方程。
(2)如果通过时间序列图观察无法明确区分序列呈现的是线性趋势还是非线性趋势，则可拟合多个方程，通过拟合优度或者均方误差来对比哪种曲线方程更优。

6. 在价格指数的编制中，为什么通常使用加权平均指数而非加权综合指数?

加权综合指数和加权平均指数虽然在形式上是相同的，但本质上还是有区别的，主要表现在是全面资料还是样本资料。如果是全面资料，可以采用加权综合指数，计算生产量指数一般属于这种情况，因为生产量指数要包含所有产品的生产情况；而计算价格指数时是无法得到全面资料的，因为市场商品的项目成千上万，做不到全面统计，只能采取选种方法，挑选代表规格品，在这种背景下，若采用加权综合指数，其结果就是仅仅计算r代表规格品的价格变化。价格指数要反映市场所有商品价格的变化，代表规格品是样本，其中的每一项都代表一类商品，每一项代表规格品要有自己的权数。在加权平均指数中，权数的本质是

其实就是用代表规格品所代表的那一类商品的销售额在全部销售额中的比重作为权数。在这样的背景下计算指数，只能采取加权平均指数方法。所以，加权平均指数方法主要用于价格指数的计算。

五、计算题
(每小题6分，共30分)

1. 设有n个袋子，每个袋子中装有a只黑球和b只白球，从第一个袋中取出一球放入第二袋中，然后从第二个袋中取出一球放入第三袋中，如此下去，问从最后一个袋中取出一球为黑球的概率是多少?

解：记A_i=“从第i个口袋中取出的是黑球”，P(A_i)=p_i，i=1，2，…，n。
由题意可得

则全概率公式为

由归纳法可得

因此

2. 假设总体X的分布为

现从此总体中抽取简单随机样本X₁，X₂，X₃，求样本中位数的概率分布。

解：根据题意可得，从中取出容量为3的样本，其一切可能取值有4³=64(种)，中位数可以取到0，1，3，5，根据X的分布列，记样本中位数为X₍₂₎。
X₍₂₎=0时，样本取值情况为(1)三个样本均取0；(2)两个样本取到0，另一个样本取到1，3，5中任意一个，

同理，X₍₂₎=5时，样本取值情况为(1)三个样本均取5；(2)两个样本取到5，另一个样本取到0，1，3中任意一个，

X₍₂₎ =1时，样本取值情况为(1)一个样本取到1，其余两个样本一个取到0，另一个取到3，5；
(2)两个样本取到1，另一个样本取到0，3，5中任意一个；(3)三个样本均取到1，

同理X₍₂₎=3时，样本取值情况为(1)一个样本取到3，其余两个样本一个取到5，另一个取到0，1；
(2)两个样本取到3，另一个样本取到0，1，5中任意一个；(3)三个样本均取到3，

则样本中位数的概率分布列为

3. 为适应市场需求，保险公司新推出一项保险业务，综合分析显示该业务每份保单的年赔付金额X服从参数为1/500的指数分布，其密度函数为

请问参保人数为900时，为使得保险公司在该项业务上有95%的把握盈利，每份保单的售价应该定为多少?(z_0.025=1.96，z_0.05=1.65)

解：由题意可得，每份保单的年赔付金额X的数学期望与方差为
E(X)=500，
D(X)=250000。
设总赔付金额为Y，则

根据中心极限定理有Y～N(900×500，900×250000)，设每份保单的售价为a，总售价为900a，则保险公司在该项业务上有95%的把握盈利，即

每份保单的售价应该定为527.5。

4. 考虑无截距项的一元线性回归模型y=βx_i+ε_i，i=1，2，…n。其中y是因变量，x是自变量，β是影响系数，ε_i是扰动项．ε_i～N(0，σ²)。请求β的最小乘估计量

的方差

解：根据最小二乘法可以得到

因此

的方差为

5. 已知某个经济变量从2010年至2015年的观测值分别是100、105、110、99、104、109，如果利用指数平滑法进行预测，目，以均方误差来衡量测量误差的大小，请问平滑系数α=0.3和α=0.5哪个更好一些?给出计算过程。

解：指数平滑公式为F_t+1=αY_t+(1-α)F_t，平滑系数为0.3时，F_t+1=0.3Y_t+0.7F_t，
F₂₀₁₁=0.3Y₂₀₁₀+0.7F₂₀₁₀=0.3Y₂₀₁₀+0.7Y₂₀₁₀=100，
F₂₀₁₂=0.3Y₂₀₁₁+0.7F₂₀₁₁=0.3×105+0.7×100=101.5，
F₂₀₁₃=0.3Y₂₀₁₂+0.7F₂₀₁₂=0.3×110+0.7×101.5=104.05，
F₂₀₁₄=0.3Y₂₀₁₃+0.7F₂₀₁₃=0.3×99+0.7×104.05=102.535，
F₂₀₁₅=0.3Y₂₀₁₄+0.7F₂₀₁₄=0.3×104+0.7×102.535=102.9745，
F₂₀₁₆=0.3Y₂₀₁₅+0.7F₂₀₁₅=0.3×109+0.7×102.9745=104.78215。
平滑系数为0.5时，F_t+1=0.5Y_t+0.5F_t，同理分别得到预测值如下表：

年份	Y	F(α=0.3)	误差平方(α=0.3)	F(α=0.5)	误差平方(α=0.5)
2010	100	—	—	—	—
2011	105	100	25	100	25
2012	110	101.5	72.25	102.5	56.25
2013	99	104.05	25.5025	106.25	52.5625
2014	104	102.535	2.146225	102.625	1.890625
2015	109	102.9745	36.30665	103.3125	32.34766
2016	—	104.78215		106.15625