银符考试题库B12
现在是:
试卷总分:150.0
您的得分:
考试时间为:
点击“开始答卷”进行答题
试卷加载完成,请点击开始答卷
中国科学技术大学432应用统计硕士(MAS)考试统计学真题2013年
一、单项选择题
1.  抛掷一枚均匀硬币5次,那么硬币正面出现的次数多于反面出现次数的概率为______。
  • A.3/10
  • B.2/5
  • C.1/2
  • D.3/5
  A  B  C  D  
C
[解析] 解法一:抛掷一枚均匀硬币5次,硬币正面出现的次数多于反面出现次数,说明正面至少出现三次,则有
   
   解法二:由于抛掷五次,正面次数多于反面和反面次数多于正面概率相同,所以均为
 
2.  设随机事件相互独立,且,则______。
  • A.1/3
  • B.2/3
  • C.3/4
  • D.11/12
  A  B  C  D  
B
[解析]
   
   由于随机事件相互独立,则
   
 
3.  设随机变量X和Y独立同分布,其分布为正态分布,则分布为______。
  • A.自由度为1,1的F分布
  • B.自由度1,2的F分布
  • C.自由度为2,1的F分布
  • D.自由度2,2的F分布
  A  B  C  D  
A
[解析] 随机变量X和Y独立同分布,,则有
   
   
   即
   
   
   因此
   
 
4.  某个班级有6个女生和10个男生,现随机组成8个小队进行比赛,每小队两个人,记X为两个人都是女生的小队个数,则E(X)=______。
  • A.0.5
  • B.1.0
  • C.1.5
  • D.2.0
  A  B  C  D  
B
[解析] 两个人都是女生的小队个数即X的取值可能为0、1、2、3。总共有可能分组情形
   
   其中,包含情形
   
   
   包含情形
   
   
   包含情形
   
   
   包含情形
   
   因此
   
 
5.  设每日登陆A购物网站的人数服从均值参数λ=2000的Poisson分布,而进入该网站的每个人购买商品B的概率均为0.0001,且每个人是否购物是独立的。则每天商品B被购买的概率为______。
  • A.1/5
  • B.2/5
  • C.
  • D.
  A  B  C  D  
A
[解析] 泊松分布的均值为λ,而每个人是否购物是独立的,所以每天商品B被购买的概率=每个人购买商品B的概率×来到人数的期望值=2000×0.0001=0.2。
 
6.  设随机变量X和Y的联合分布是二维正态分布,则X+Y______服从正态分布。
  • A.是
  • B.不是
  • C.不一定
  A  B  C  
C
[解析] X、Y的联合分布是二维正态分布,只有这个条件的话X、Y的独立性无法判断,因此X+Y是否服从正态分布无法判断。
 
7.  若随机事件A和C独立,B和C独立,则A+B和C______。
  • A.独立
  • B.不独立
  • C.不一定独立
  A  B  C  
C
[解析] 若事件A和C独立,B和C独立,则有P(AC)=P(A)P(C),P(BC)=P(B)P(C),P(A∪B)P(C)=(P(A)+P(B)-P(AB))P(C)=P(A)P(C)+P(B)P(C)-P(AB)P(C)=P(AC)+P(BC)-P(AB)P(C)。另一方面,P((A∪B)C)=P(AC∪BC)=P(AC)+P(BC)-P(ABC)。只有当事件A∩B与事件C相互独立时,即P(AB)P(C)=P(ABC)时,有P(A∪B)P(C)=P((A∪B)C),此时A+B与C独立;其他情形A+B与C不独立。
 
8.  某零件的9个样品的长度(单位:cm)分别为:9.8,10.2,10.3,10.1,9.6,10.2,9.7,10.3,9.8。假设该零件长度服从正态分布,则μ的95%置信区间为______。
  • A.[9.8355,10.1645]
  • B.[9.804,10.196]
  • C.[9.815,10.185]
  • D.[9.704,10.296]
  A  B  C  D  
B
[解析] 已知总体服从正态分布,且总体方差已知,n=9为小样本,此时仍可选用统计量,且有
   
   则总体均值μ的95%置信区间为:
   
   代入数据可得厘米,又,因此的95%置信区间为:
 
9.  样本,...,为来自总体的样本,考虑如下假设检验问题:
   
    拒绝域取为,若使该检验犯第二类错误的概率不大于0.025,则样本量至少取为______。
  • A.9
  • B.10
  • C.97
  • D.100
  A  B  C  D  
C
[解析] 犯第二类错误的概率
   
   解得:,即样本量至少取为97。
 
10.  对于线性回归模型,,假设的第一列的元素全为1,且为y的最小二乘预测值。定义
   
    那么______。
  • A.A=B
  • B.A>B
  • C.A<B
  • D.A和B大小关系不确定
  A  B  C  D  
A
[解析] 对于线性回归模型,由普通最小二乘估计的过程知
   
   因此
   
   
 
二、简答题
(每小题10分,共20分)
1.  给出数学期望和中位数的定义,试比较数学期望和中位数的优缺点。
  
中位数是一组数据排序后处于中间位置上的变量值。中位数主要用于测度顺序数据的集中趋势,当然也适用于作为数值型数据的集中趋势,但不适用于分类数据。中位数是一个位置代表值,其特点是不受极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。平均数也称为均值或数学期望,它是一组数据相加后除以数据的个数得到的结果。平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。但平均数的主要缺点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。
 
2.  给出假设检验问题中第一类错误和第二类错误的定义,试解释它们之间的关系。
  
拒真错误是假设检验中的第一类错误,是指原假设H0为真却被拒绝了,犯这种错误的概率用α表示,所以也称α错误。
   采伪错误是假设检验中的第二类错误,是指原假设不正确而接受原假设的错误,犯这种错误的概率用β表示,所以也称β错误。
   二者关系:在样本容量不变的条件下,α与β常常呈现反向的变化,即如果减小α错误,就会增大犯β错误的机会;若减小β错误,也会增大犯α错误的机会。要使α和β同时变小,只有增大样本量。但样本量不可能没有限制,否则就会使抽样调查失去意义,因此,在假设检验中,就有一个对两类错误进行控制的问题。一般来说,哪一类错误所带来的后果越严重,危害越大,在假设检验中就应当把哪一类错误作为首要的控制目标。在假设检验中,通常首先控制犯α错误,这样做最主要的原因是,从实用的观点看,原假设是什么常常是明确的,而备择假设是什么则常常是模糊的。
 
三、计算分析题
(共90分)
现有一种诊断某复杂疾病的试剂,经临床试验有如下记录:该疾病患者被检测出阳性的概率为98%,无该疾病的人被检测出阴性的概率为95%。
    已知某社区该疾病发生率为0.5%,用试剂对这个社区进行疾病普查,问:
1.  对该社区每个人进行一次试剂测试,当某人反应为阳性时,此人患这种复杂疾病的概率是多少?
  
设事件分别代表“此人患病”、“此人不患病”,事件分别代表“检测结果为阳性”、“检测结果为阴性”。
   根据全概率公式得:
   
   根据条件概率公式得:
   
   即当某人反应为阳性时,此人患这种复杂疾病的概率是8.97%。
 
2.  若对这个人再独立进行一次测试,检验结果依然是阳性,问在发现两次反应结果都为阳性时,此人患这种复杂疾病的概率是多少?
  
若对这个检查结果为阳性的人再独立进行一次测试,此时
   根据全概率公式得:
   
   根据条件概率公式得:
   
   即在发现两次反应结果都为阳性时,此人患这种复杂疾病的概率是65.9%。
 
3.  比较第一小题和第二小题的结果,试解释之。
  
第一小题结果表明,在检查结果呈阳性的人中,真患某复杂疾病的人为8.97%,因为该复杂疾病的发病率很低,在10000个人中约有50个,而约有9950个人不患该复杂疾病。对10000个人用该种试剂进行检查,按其错检的概率可知,9950个人不患该种复杂疾病者中约有9950×5%=497.5个呈阳性,另外50个真患此种复杂疾病患者的报告中约有50×98%=49个呈阳性,仅从546.5个呈阳性者中看,真患此种复杂疾病的49人约占8.97%。
   在实际中由于技术和操作等种种原因,降低错检的概率是很困难的,所以,在实际中,常采用复查的方法减少错误率。此时被怀疑的对象群体中,该种复杂疾病的发病率已大大提高了。
   通过第一小题和第二小题的结果,可知对首次检查得阳性的人群再进行复查,大大提高了该种诊断试剂的准确率了。
 

为考察A,B两种制鞋材料的耐磨性,用它们制作了10双鞋,其中每双鞋的两只鞋分别用A和B两种材料制作(左、右脚随机地采用A或B)。
    10个男孩试穿这10双鞋之后的磨损情况数据如下:
   
4.  在显著水平0.05下,两种材料的耐磨性是否存在差异,你的结论是什么?
  
根据表格中的数据计算可知:
   首先验证总体方差是否相等。建立假设:
   
   检验统计量为:
   
   其观察值为:
   
   而,因为F<F0.05,所以接受
   下面在两总体方差相等的条件下,检验两种材料的耐磨性是否存在差异。
   建立假设:
   
   由于方差未知,且相等。因此可用t检验。取统计量
   
   其观察值为:
   
   由于
   
   检验统计量的值没有落在拒绝域内,即不能拒绝原假设,即没有理由认为两种材料的耐磨性存在差异。
 
5.  计算两种材料的耐磨性均值之差的95%置信区间,给出你的结论。
  
由第一小题可知,两个总体的方差未知但相等,此时可用两个样本的方差来代替,两个样本均值之差经过标准化后服从自由度为分布,因此,两种材料的耐磨性均值之差的95%置信区间为:
   
   其中,
   
   代入数据可得两种材料的耐磨性均值之差的95%置信区间为:(-0.41±2.101×1.11),即(-2.742,1.922)。
 
6.  试解释第一小题和第二小题的结果之间的关系。
  
第一小题的结论,不拒绝原假设意味着所构造的与原假设相矛盾的小概率事件没有发生,但可能还有许多其他的与原假设矛盾的小概率事件,只能解释为“在显著性水平下没有发现充足的证据反对”。
   第一小题的结论包含在第二小题所建立的置信区间里。
 

为考察家庭收入和人的幸福感之间的关系,设计一个问卷调查,其中家庭收入分为三类:高收入,中等收入,低收入;幸福感也分为三类:不太幸福,比较幸福,非常幸福。综合社会调查数据如下:
   
7.  假设家庭收入和人的幸福感是相互独立的,试计算出表格中各个元素的期望值。
  

   表中各项的期望值的计算方法为:
   
   
   
   
   
   
   
   
   
 
8.  在显著水平0.05下,家庭收入和幸福感之间是否有显著的关联?
  
提出假设:
   
   由第一个小题的计算结果可得到:
   
   此调查数据是3行3列的列联表,其自由度为=(3-1)×(3-1)=4,,而
   
   故拒绝原假设,认为家庭收入与人的幸福感有关。
 
9.  基于第一个小题和第二小题中的结论,试解释高收入,低收入和不太幸福,非常幸福之间的关系。
  
由第二个小题的结论我们知道家庭收入与人的幸福感是相关的。
   由第一小题的结论可知,高收入者中占非常幸福人群的百分比为110/414=26.57%,高收入者中占不太幸福人群的百分比为21/168=12.5%;低收入者中占非常幸福人群的百分比为83/414=20.05%,低收入者中占不太幸福人群的百分比为94/168=55.95%。据此可知,人们不太幸福的感觉大部分因素归结于收入过低。
 

设(X1,…,Xn)为抽自总体X的简单随机样本,其中X的密度函数为:当x>0时,
   
    当x≤0时,f(x,θ)=0,其中θ>0。
10.  试求θ的矩估计和极大似然估计θ*
  

   令,则
   
   即θ的矩估计
   ②似然函数:
   
   对数似然函数:
   
   令,则
   
   得到θ的极大似然估计值为
   
 
11.  讨论和θ*是否为θ的无偏估计,并证明你的结论。
  
   
   即是θ的无偏估计。
   
   不妨令随机变量,则Y的分布函数
   
   两边同时对y求导,则有随机变量Y的密度函数为
   
   即随机变量Y服从参数为的伽马分布。由伽马分布的可加性,
   
   即
   
   不妨令
   
   则随机变量Z的密度函数为
   
   θ*的期望
   
   θ*的期望与n的取值有关,因此,θ*不是θ的无偏估计。
 
12.  试求θ2的无偏估计。
  
解法一:
   
   因此
   
   
   即θ2的一个无偏估计为
   解法二:由第二小题知,,由伽马分布的性质,,剩余步骤同解法一。
 

在动物学研究中,动物的体积相对体重不容易测量,我们想利用动物的体重来预测其体积的大小。下面是某种动物的10个随机样本的体重X(kg)和体积的测量数据:
   
13.  基于线性回归模型:Y=α+βX+e,试求α和β的最小二乘估计,并给出估计的方差估计。
  
①根据表格中的数据计算可知:
   
   
   
   
   
   
   设估计的回归方程为,则根据最小二乘法可解得参数的最小二乘估计,计算公式如下,代入数据可得:
   
   
   所以关于的回归方程为:
   
   ②两个参数的方差分别为
   
   
   其中,的估计量为
   
   代入数据计算得
   
   
   
   的方差的估计
   
   
   的方差的估计
   
 
14.  对于体重为Xn=15.3的动物,试预测它的体积Y0,并给出该预测值的方差估计。
  
①当Xn=15.3时,Y0的预测值
   
   ②预测值的方差的估计为
   
   其中代入数据计算得,该预测值的方差估计
   
   附:可能用到的上分位数
   
 
隐藏
一、单项选择题
12345678910
二、简答题
12
三、计算分析题
1234567891011121314

  深色:已答题  浅色:未答题