第一章 概率论的基本概念
第二章 随机变量及其分布
第三章 多维随机变量及其分布
第四章 随机变量的数字特征
第五章 大数定理及中心极限定理
第六章 样本及抽样分布
第七章 参数估计
第八章 假设检验
第六章 样本及抽样分布
从本章开始,将讲述数理统计数理统计以概率论为理论基础,根据试验或观察所得数据,研究随机现象,对研究对象的客观规律性作出合理估计或判断。
- 概率论——随机变量的分布已知,研究其性质、特点及规律性。
- 数理统计——随机变量的分布未知,通过对随机变量进行重复独立的观察,得到观察值,对数据分析,从而对所研究的随机变量作出种种推断。
6.1 随机样本
总体与个体
-
总体:试验的全部可能的观察值称为总体。
-
个体:总体中的每个可能观察值称为个体。
-
容量:总体重所包含的个体的个数称为总体的容量。
-
有限总体和无限总体:
- 容量为有限的称为有限总体。
- 容量为无限的称为无线总体。
-
总体X及分布
一般地,我们总研究的总体,即研究对象的某项数量指标X,其取值在客观上有一定的分布,X是一个随机变量。
X的分布函数和数字特征就称为总体的分布函数和数字特征,今后将不区分总体与相应的随机变量,统称为总体X。
-
样本值
在数理统计中,人们都是通过从总体中抽取一部分个体,根据获得的数据来对总体分布得出判断的.被抽出的部分个体叫做总体的一个样本。
所谓从总体抽取一个个体,就是对总体X进行一次观察并记录其结果。
当n次观察一经完成,我们就得到一组实数 x_1,x_2,…,x_n,它们依次是随机变量X_1,X_2,...,X_n的观察值,称为样本值。
随机样本的定义
-
样本的定义
设X是具有分布函数F的随机变量,若X_1,X_2,…,X_n,是具有同一分布函数F、相互独立的
随机变量,则称X_1,X_2,…,X_n,为从分布函数F(或总体F、或总体X)得到的容量为n的简单
随机样本,简称样本。它们的观察值x_1,x_2,...,x_n称为样本值,又称为X的n个独立的观察值。
若将样本看成随机向量,可写成\big(X_1,X_2,\cdots,X_n\big),则样本值写成(x_1,x_2,\cdots,x_n)。
-
样本的分布
获得简单随机样本的抽样方法称为简单随机抽样。
若X_1,X_2,...X_n为F的一个样本,则X_1,X_2,...X_n相互独立,且它们的分布函数都是F,所以\big(X_1,X_2,\cdots,X_n\big)的分布函数为:
\begin{aligned} & \\ &F^*(x_1,x_2,\cdots,x_n)& =\prod^n_{i=1}F(x_i)\text{.} \\ & \end{aligned}
又若X具有概率密度f,则\big(X_1,X_2,\cdots,X_n\big)的概率密度为:
f^*(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^n f(x_i).
6.3 抽样分布
统计量的定义
设X_1,X_2,...X_n是来自总体X的一个样本,g(X_1,X_2,...X_n)是X_1,X_2,...X_n的函数,若g中不含未知参数,则称g(X_1,X_2,...X_n)是一个统计量。
设x_1,x_2,...,x_n是相应于样本的样本值,则称g(x_1,x_2,...,x_n)是g(X_1,X_2,...X_n)的观察值。
几个常用统计量的定义
设X_1,X_2,...X_n是来自总体的一个样本,x_1,x_2,...,x_n是这一样本的观察值。
-
样本平均值:
X=\frac{1}{n}\sum_{i=1}^n X_i
其观察值:
\overline{x}=\frac{1}{n}\sum_{i}^{n}x_{i}
-
样本方差
S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2=\frac{1}{n-1}\left(\sum_{i=1}^{n}X_i^2-n\overline{X}^2\right)
其观察值:
s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2=\frac{1}{n-1}\left(\sum_{i=1}^nx_i^2-n\overline{x}^2\right)
-
样本标准差
S=\sqrt{S^2}=\sqrt{\frac{1}{n-1}}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2
其观察值:
s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}
-
样本k阶(原点)矩:
A_k=\frac{1}{n}\sum_{i=1}^n X_i^k,k=1,2,\cdots
其观察值:
\alpha_k=\frac 1n\sum_{i=1}^n x_i^k,k=1,2,\cdots
-
样本k阶中心矩
B_k=\frac1n\sum\limits_{i=1}^n\left(X_i-\overline{X}\right)^k,k=2,3,\cdots
其观察值:
b_k=\frac{1}{n}\sum_{i=1}^n\left(x_i-x\right)^k,k=2,3,\cdots
由以上定义得出下述结论:
- 若总体X的k阶矩E(X^k)记成\mu_k存在,则当n\rightarrow\infty时,A_k\overset{P}{\longrightarrow}\mu_k\text{,}k=1,2,\cdots。
-
经验分布函数
总体分布函数F(x)相应的统计量称为经验分布函数。经验分布函数的做法如下:
设X_1,X_2,...X_n是总体F的一个样本,用S(x)(-\infty<x<+\infty)表示X_1,X_2,...X_n中不大于x的随机变量的个数,定义经验分布函数F_n(x)为:
F_n(x)=\frac 1nS(x),\quad (-\infty<x<+\infty)
一般地,设x_1,x_2,...,x_n是总体F的一个容量为n样本值,现将x_1,x_2,...,x_n按自小到大的次序排列,并重新编号,x_{(1)}\leq x_{(2)}\leq...\leq x_{(n)},则经验分布函数F_n(x)的观察值为:
F_n(x)=\left\{\begin{array}{ll}0,&x<x_{(1)}\\ \frac kn,&x_{(k)}\le x<x_{(k+1)}\\ 1&x\ge x_{(n)},\end{array}\right.
格里汶科定理
对于任意实数x,当n\rightarrow\infty时,F_n(x)以概率1一致收敛于分布函数F(x),即:
P\left\{\lim\limits_{n\to\infty}\sup\limits_{-\infty<x<+\infty}\left|F_n(x)-F(x)\right|=0\right\}=1.
对于任意实数x,当n充分大时,经验分布函数的任一个观察值F_n(x)与总体分布函数F(x)只有微小的差别,从而在实际上可当作F(x)来使用。
正态分布表

\chi^2分布
设X_1,X_2,...X_n是来自总体N(0,1)的样本,则称统计量:
\chi^2=X_1^2+X_2^2+...+X_n^2
服从自由度为n的\chi^2分布,记为\chi^2\sim\chi^2(n)。自由度是指上式右端包含的独立变量的个数。
\chi^2(n)分布的概率密度为:
f(y)=\left\{\begin{array}{cc}\frac{1}{2^\frac2n\Gamma(\frac{n}{2})}y^{\frac{n}{2}-1}\text{e}^{-\frac{y}{2}},&y>0\\ 0,&其他\end{array}\right.
- \chi^2分布的性质
- 设\chi_1^2\sim\chi_1^2(n),\chi_2^2\sim\chi_2^2(n),并且\chi^2_1,\chi^2_2独立,则\chi^2_1+\chi^2_2=\chi^2(n_1+n_2)。
- 若\chi^2\sim\chi^2(n),则E(\chi^2)=n,D(\chi^2)=2n。
-
\chi^2分布的分位点
对于给定的正数\alpha,0<\alpha<1,则满足条件:
P\{\chi^2>\chi_\alpha^2(n)\}=\int_{\chi_\alpha^2(n)}^\infty f(y)\text{d}y=\alpha
的点\chi^2_\alpha(n)为\chi^2(n)分布的上\alpha分位点。对于不同的\alpha和n,可以通过查表求得\alpha分位点的值。

-
费舍尔证明:当n充分大时,
\chi_a^2(n)\approx\frac{1}{2}(z_a+\sqrt{2n-1})^2
其中z_\alpha是标准正态分布的上\alpha分位点。
t分布
设X\sim N(0,1),Y\sim\chi^2(n),且X,Y独立,则称随机变量t=\frac{X}{\sqrt{Y/n}}服从自由度为n的t分布,记为t\sim t(n)。
t(n)分布的概率密度函数为:
\begin{aligned} h(t)& =\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^{2}}{n}\right)^{-\frac{n+1}{2}},-\infty<t<+\infty & \end{aligned}
当n充分大时,t分布近似于N(0,1)分布,但对于较小的n,t分布与N(0,1)分布相差很大。
-
t分布的上分位点
对于给定的\alpha,0<\alpha<1,称腕足条件:
P\{t>t_\alpha(n)\}=\int_{t_\alpha(n)}^\infty h(t)\mathrm{d}t=\alpha
的点t_\alpha为t(n)分布的上\alpha分位点。
由分布的对称性可知:t_{1-\alpha}(n)=-t_\alpha(n)。

F分布
设U\sim \chi^2(n_1),V\sim \chi^2(n_2),且U,V独立,则称随机变量F=\frac{U/n_1}{V/n_2}服从自由度为(n_1,n_2)的F分布,记为F\sim F(n_1,n_2)。
F(n_1,n_2)分布的概率密度函数为:
\psi(y)=\begin{cases} \dfrac{\Gamma(\dfrac{n_1+n_2}{2})(\dfrac{n_1}{n_2})^{\frac{n_1}{2}}y^{\frac{n_1}{2}-1}}{\Gamma(\dfrac{n_1}{2})\Gamma(\dfrac{n_2}{2})\big[1+(\dfrac{n_1y}{n_2}){}\big]^{\frac{n_1+n_2}{2}}}&y>0\\0,&其他 \end{cases}
根据定义可知:若F\sim F(n_1,n_2),则\frac 1F\sim F(n_2,n_1)。
-
F分布的分位点
对于给定的\alpha,0<\alpha<1,称满足条件
P\{F>F_\alpha(n_1,n_2)\}=\int_{F_\alpha(n_1,n_2)}^{+\infty}\psi(y)\mathrm dy=\alpha
的点F_\alpha(n_1,n_2)为F(n_1,n_2)分布的上\alpha分位点。

- F分布的性质
- F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)};
- X\sim t(n),则X^2\sim F(1,n)。
正态分布的样本均值与样本方差的分布
总体X不论分布,均值为\mu,方差为\sigma^2,X_1,X_2,...,X_n是取自总体X的一个样本,\overline X=\frac 1n\sum\limits^n_{i=1}X_i,有:
E(\overline X)=\mu,~D(\overline X)=\sigma^2/n
-
定理1
设X_1,X_2,...,X_n是来自正态总体N(\mu,\sigma^2)的样本,\overline X是样本均值,则有:
\overline X\sim N(\mu,\sigma^2/n)\\\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)
-
定理2
设X_1,X_2,...,X_n是总体N(\mu,\sigma^2)的样本,\overline X与S^2分别是样本均值和样本方差,则有:
- \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1);
- \overline X和S^2独立。
-
定理3
设X_1,X_2,...,X_n是总体N(\mu,\sigma^2)的样本,\overline X与S^2分别是样本均值和样本方差,则有:
\frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)
-
定理4
设X_1,X_2,...,X_{n_1}与Y_1,Y_2,...,Y_{n_2}分别是具有相同方差的两正态总体N(\mu_1,\sigma^2),N(\mu_2,\sigma^2)的样本,且这两个样本相互独立。设\overline X=\sum\limits^{n_1}_{i=1}X_i,\overline Y=\frac 1{n_2}\sum\limits^{n_2}_{i=1}Y_i分别是这两个样本的均值,S_1^2=\frac1{n_1-1}\sum\limits^{n_1}_{i=1}(X_i-\overline X)^2,S_2^2=\frac1{n_1-1}\sum\limits^{n_1}_{i=1}(Y_i-\overline Y)^2分别是这两个样本的方差,则有:
\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma^2_2}\sim F(n_1-1,n_2-1)
-
当\sigma_1^2=\sigma^2_2=\sigma^2时,
\begin{array}{c}(\overline{X}-\overline{Y})-(\mu_1-\mu_2)\\ \hline S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\end{array}\sim t(n_1+n_2-2),
其中$\begin{aligned}
S {w}{2}=\frac{(n_{1}-1)S_{1}{2}+(n{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2} \\end{aligned},S_w=\sqrt{S^2_w}$。
习题
设X_1,X_2,...,X_n是来自总体N\sim(\mu,\sigma^2)的样本,则\sum\limits^N_{i=1}(\frac{X_i-\mu}{\sigma})^2服从什么分布?
-
答案
\chi^2(n)
只要是正态分布的n个平方和都服从\chi^2分布。
设X_1,X_2,...,X_n相互独立,且X_i服从参数为\frac 12的指数分布,则当n充分大时,随机变量Y_n=\frac 1n\sum\limits^n_{i=1}X_i近似服从()。
N(\frac12,\frac1{4n})
-
评论区