第一章概率论的基本概念
 第二章随机变量及其分布
 第三章多维随机变量及其分布
 第四章随机变量的数字特征
 第五章大数定理及中心极限定理
 第六章样本及抽样分布
 第七章参数估计
 第八章假设检验

第六章样本及抽样分布

从本章开始，将讲述数理统计数理统计以概率论为理论基础，根据试验或观察所得数据，研究随机现象，对研究对象的客观规律性作出合理估计或判断。

概率论——随机变量的分布已知，研究其性质、特点及规律性。
数理统计——随机变量的分布未知，通过对随机变量进行重复独立的观察，得到观察值，对数据分析，从而对所研究的随机变量作出种种推断。

6.1 随机样本

总体与个体

总体：试验的全部可能的观察值称为总体。
个体：总体中的每个可能观察值称为个体。
容量：总体重所包含的个体的个数称为总体的容量。
有限总体和无限总体：
- 容量为有限的称为有限总体。
- 容量为无限的称为无线总体。
总体 $X$ 及分布

一般地，我们总研究的总体，即研究对象的某项数量指标 $X$ ，其取值在客观上有一定的分布， $X$ 是一个随机变量。

$X$ 的分布函数和数字特征就称为总体的分布函数和数字特征，今后将不区分总体与相应的随机变量，统称为总体 $X$ 。
样本值

在数理统计中，人们都是通过从总体中抽取一部分个体，根据获得的数据来对总体分布得出判断的.被抽出的部分个体叫做总体的一个样本。

所谓从总体抽取一个个体，就是对总体X进行一次观察并记录其结果。

当n次观察一经完成，我们就得到一组实数 $x_1,x_2,\dots,x_n$ ,它们依次是随机变量 $X_1,X_2,...,X_n$ 的观察值，称为样本值。

随机样本的定义

样本的定义

设X是具有分布函数F的随机变量，若 $X_1,X_2,\dots,X_n$ ,是具有同一分布函数 $F$ 、相互独立的
随机变量，则称 $X_1,X_2,\dots,X_n$ ,为从分布函数 $F$ (或总体 $F$ 、或总体 $X$ )得到的容量为 $n$ 的简单
随机样本，简称样本。

它们的观察值 $x_1,x_2,...,x_n$ 称为样本值，又称为 $X$ 的 $n$ 个独立的观察值。

若将样本看成随机向量，可写成 $\big(X_1,X_2,\cdots,X_n\big)$ ，则样本值写成 $(x_1,x_2,\cdots,x_n)$ 。

💡 若$(x_1,x_2,\cdots,x_n)$与$(y_1,y_2,\cdots,y_n)$都是$\big(X_1,X_2,\cdots,X_n\big)$的样本值，一般它们是不同的。
样本的分布

获得简单随机样本的抽样方法称为简单随机抽样。

若 $X_1,X_2,...X_n$ 为 $F$ 的一个样本，则 $X_1,X_2,...X_n$ 相互独立，且它们的分布函数都是 $F$ ，所以 $\big(X_1,X_2,\cdots,X_n\big)$ 的分布函数为：

$\begin{aligned} & \\ &F^*(x_1,x_2,\cdots,x_n)& =\prod^n_{i=1}F(x_i)\text{.} \\ & \end{aligned}$

又若 $X$ 具有概率密度 $f$ ，则 $\big(X_1,X_2,\cdots,X_n\big)$ 的概率密度为：

$f^*(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^n f(x_i).$

6.3 抽样分布

统计量的定义

设 $X_1,X_2,...X_n$ 是来自总体 $X$ 的一个样本， $g(X_1,X_2,...X_n)$ 是 $X_1,X_2,...X_n$ 的函数，若 $g$ 中不含未知参数，则称 $g(X_1,X_2,...X_n)$ 是一个统计量。

设 $x_1,x_2,...,x_n$ 是相应于样本的样本值，则称 $g(x_1,x_2,...,x_n)$ 是 $g(X_1,X_2,...X_n)$ 的观察值。

几个常用统计量的定义

设 $X_1,X_2,...X_n$ 是来自总体的一个样本， $x_1,x_2,...,x_n$ 是这一样本的观察值。

样本平均值：

$X=\frac{1}{n}\sum_{i=1}^n X_i$

其观察值：

$\overline{x}=\frac{1}{n}\sum_{i}^{n}x_{i}$
样本方差

$S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2=\frac{1}{n-1}\left(\sum_{i=1}^{n}X_i^2-n\overline{X}^2\right)$

其观察值：

$s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2=\frac{1}{n-1}\left(\sum_{i=1}^nx_i^2-n\overline{x}^2\right)$
样本标准差

$S=\sqrt{S^2}=\sqrt{\frac{1}{n-1}}\sum_{i=1}^n\left(X_i-\overline{X}\right)^2$

其观察值：

$s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$
样本 $k$ 阶（原点）矩：

$A_k=\frac{1}{n}\sum_{i=1}^n X_i^k,k=1,2,\cdots$

其观察值：

$\alpha_k=\frac 1n\sum_{i=1}^n x_i^k,k=1,2,\cdots$
样本 $k$ 阶中心矩

$B_k=\frac1n\sum\limits_{i=1}^n\left(X_i-\overline{X}\right)^k,k=2,3,\cdots$

其观察值：

$b_k=\frac{1}{n}\sum_{i=1}^n\left(x_i-x\right)^k,k=2,3,\cdots$

由以上定义得出下述结论：

若总体 $X$ 的 $k$ 阶矩 $E(X^k)$ 记成 $\mu_k$ 存在，则当 $n\rightarrow\infty$ 时， $A_k\overset{P}{\longrightarrow}\mu_k\text{,}k=1,2,\cdots$ 。

经验分布函数

总体分布函数 $F(x)$ 相应的统计量称为经验分布函数。经验分布函数的做法如下：

设 $X_1,X_2,...X_n$ 是总体 $F$ 的一个样本，用 $S(x)(-\infty<x<+\infty)$ 表示 $X_1,X_2,...X_n$ 中不大于 $x$ 的随机变量的个数，定义经验分布函数 $F_n(x)$ 为：

$F_n(x)=\frac 1nS(x),\quad (-\infty<x<+\infty)$

一般地，设 $x_1,x_2,...,x_n$ 是总体 $F$ 的一个容量为 $n$ 样本值，现将 $x_1,x_2,...,x_n$ 按自小到大的次序排列，并重新编号， $x_{(1)}\leq x_{(2)}\leq...\leq x_{(n)}$ ，则经验分布函数 $F_n(x)$ 的观察值为：

$F_n(x)=\left\{\begin{array}{ll}0,&x<x_{(1)}\\ \frac kn,&x_{(k)}\le x<x_{(k+1)}\\ 1&x\ge x_{(n)},\end{array}\right.$

格里汶科定理

对于任意实数 $x$ ，当 $n\rightarrow\infty$ 时， $F_n(x)$ 以概率1一致收敛于分布函数 $F(x)$ ，即：

$P\left\{\lim\limits_{n\to\infty}\sup\limits_{-\infty<x<+\infty}\left|F_n(x)-F(x)\right|=0\right\}=1.$

对于任意实数 $x$ ，当 $n$ 充分大时，经验分布函数的任一个观察值 $F_n(x)$ 与总体分布函数 $F(x)$ 只有微小的差别，从而在实际上可当作 $F(x)$ 来使用。

正态分布表

$\chi^2$ 分布

设 $X_1,X_2,...X_n$ 是来自总体 $N(0,1)$ 的样本，则称统计量：

$\chi^2=X_1^2+X_2^2+...+X_n^2$

服从自由度为 $n$ 的 $\chi^2$ 分布，记为 $\chi^2\sim\chi^2(n)$ 。自由度是指上式右端包含的独立变量的个数。

$\chi^2(n)$ 分布的概率密度为：

$f(y)=\left\{\begin{array}{cc}\frac{1}{2^\frac2n\Gamma(\frac{n}{2})}y^{\frac{n}{2}-1}\text{e}^{-\frac{y}{2}},&y>0\\ 0,&其他\end{array}\right.$

$\chi^2$ 分布的性质

设 $\chi_1^2\sim\chi_1^2(n)$ ， $\chi_2^2\sim\chi_2^2(n)$ ，并且 $\chi^2_1，\chi^2_2$ 独立，则 $\chi^2_1+\chi^2_2=\chi^2(n_1+n_2)$ 。
若 $\chi^2\sim\chi^2(n)$ ，则 $E(\chi^2)=n,D(\chi^2)=2n$ 。

$\chi^2$ 分布的分位点

对于给定的正数 $\alpha$ ， $0<\alpha<1$ ，则满足条件：

$P\{\chi^2>\chi_\alpha^2(n)\}=\int_{\chi_\alpha^2(n)}^\infty f(y)\text{d}y=\alpha$

的点 $\chi^2_\alpha(n)$ 为 $\chi^2(n)$ 分布的上 $\alpha$ 分位点。对于不同的 $\alpha$ 和 $n$ ，可以通过查表求得 $\alpha$ 分位点的值。
费舍尔证明：当 $n$ 充分大时，

$\chi_a^2(n)\approx\frac{1}{2}(z_a+\sqrt{2n-1})^2$

其中 $z_\alpha$ 是标准正态分布的上 $\alpha$ 分位点。

$t$ 分布

设 $X\sim N(0,1),Y\sim\chi^2(n)$ ，且 $X,Y$ 独立，则称随机变量 $t=\frac{X}{\sqrt{Y/n}}$ 服从自由度为 $n$ 的 $t$ 分布，记为 $t\sim t(n)$ 。

$t(n)$ 分布的概率密度函数为：

$\begin{aligned} h(t)& =\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{\pi n}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{t^{2}}{n}\right)^{-\frac{n+1}{2}},-\infty<t<+\infty & \end{aligned}$

当 $n$ 充分大时， $t$ 分布近似于 $N(0,1)$ 分布，但对于较小的 $n$ ， $t$ 分布与 $N(0,1)$ 分布相差很大。

$t$ 分布的上分位点

对于给定的 $\alpha$ ， $0<\alpha<1$ ，称腕足条件：

$P\{t>t_\alpha(n)\}=\int_{t_\alpha(n)}^\infty h(t)\mathrm{d}t=\alpha$

的点 $t_\alpha$ 为 $t(n)$ 分布的上 $\alpha$ 分位点。

由分布的对称性可知： $t_{1-\alpha}(n)=-t_\alpha(n)$ 。

$F$ 分布

设 $U\sim \chi^2(n_1),V\sim \chi^2(n_2)$ ，且 $U,V$ 独立，则称随机变量 $F=\frac{U/n_1}{V/n_2}$ 服从自由度为 $(n_1,n_2)$ 的 $F$ 分布，记为 $F\sim F(n_1,n_2)$ 。

$F(n_1,n_2)$ 分布的概率密度函数为：

$\psi(y)=\begin{cases} \dfrac{\Gamma(\dfrac{n_1+n_2}{2})(\dfrac{n_1}{n_2})^{\frac{n_1}{2}}y^{\frac{n_1}{2}-1}}{\Gamma(\dfrac{n_1}{2})\Gamma(\dfrac{n_2}{2})\big[1+(\dfrac{n_1y}{n_2}){}\big]^{\frac{n_1+n_2}{2}}}&y>0\\0,&其他 \end{cases}$

根据定义可知：若 $F\sim F(n_1,n_2)$ ，则 $\frac 1F\sim F(n_2,n_1)$ 。

$F$ 分布的分位点

对于给定的 $\alpha$ ， $0<\alpha<1$ ，称满足条件

$P\{F>F_\alpha(n_1,n_2)\}=\int_{F_\alpha(n_1,n_2)}^{+\infty}\psi(y)\mathrm dy=\alpha$

的点 $F_\alpha(n_1,n_2)$ 为 $F(n_1,n_2)$ 分布的上 $\alpha$ 分位点。

F分布的性质
1. $F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}$ ；
2. $X\sim t(n)$ ，则 $X^2\sim F(1,n)$ 。

正态分布的样本均值与样本方差的分布

总体 $X$ 不论分布，均值为 $\mu$ ，方差为 $\sigma^2$ ， $X_1,X_2,...,X_n$ 是取自总体 $X$ 的一个样本， $\overline X=\frac 1n\sum\limits^n_{i=1}X_i$ ，有：

$E(\overline X)=\mu,~D(\overline X)=\sigma^2/n$

定理1

设 $X_1,X_2,...,X_n$ 是来自正态总体 $N(\mu,\sigma^2)$ 的样本， $\overline X$ 是样本均值，则有：

$\overline X\sim N(\mu,\sigma^2/n)\\\frac{\overline X-\mu}{\sigma/\sqrt n}\sim N(0,1)$
定理2

设 $X_1,X_2,...,X_n$ 是总体 $N(\mu,\sigma^2)$ 的样本， $\overline X$ 与 $S^2$ 分别是样本均值和样本方差，则有：
1. $\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)$ ;
2. $\overline X$ 和 $S^2$ 独立。
定理3

设 $X_1,X_2,...,X_n$ 是总体 $N(\mu,\sigma^2)$ 的样本， $\overline X$ 与 $S^2$ 分别是样本均值和样本方差，则有：

$\frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)$
定理4

设 $X_1,X_2,...,X_{n_1}$ 与 $Y_1,Y_2,...,Y_{n_2}$ 分别是具有相同方差的两正态总体 $N(\mu_1,\sigma^2)$ ， $N(\mu_2,\sigma^2)$ 的样本，且这两个样本相互独立。设 $\overline X=\sum\limits^{n_1}_{i=1}X_i,\overline Y=\frac 1{n_2}\sum\limits^{n_2}_{i=1}Y_i$ 分别是这两个样本的均值， $S_1^2=\frac1{n_1-1}\sum\limits^{n_1}_{i=1}(X_i-\overline X)^2,S_2^2=\frac1{n_1-1}\sum\limits^{n_1}_{i=1}(Y_i-\overline Y)^2$ 分别是这两个样本的方差，则有：
$\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma^2_2}\sim F(n_1-1,n_2-1)$
1. 当 $\sigma_1^2=\sigma^2_2=\sigma^2$ 时，
  
  $\begin{array}{c}(\overline{X}-\overline{Y})-(\mu_1-\mu_2)\\ \hline S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\end{array}\sim t(n_1+n_2-2),$
  
  其中$\begin{aligned}
  S {w}^{{2}=\frac{(n_{1}-1)S_{1}}{2}+(n{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2} \
  
  \end{aligned} $，$ S_w=\sqrt{S^2_w}$。
习题

设 $X_1,X_2,...,X_n$ 是来自总体 $N\sim(\mu,\sigma^2)$ 的样本，则 $\sum\limits^N_{i=1}(\frac{X_i-\mu}{\sigma})^2$ 服从什么分布？
- 答案
  
  $\chi^2(n)$
  
  只要是正态分布的 $n$ 个平方和都服从 $\chi^2$ 分布。
设 $X_1,X_2,...,X_n$ 相互独立，且 $X_i$ 服从参数为 $\frac 12$ 的指数分布，则当 $n$ 充分大时，随机变量 $Y_n=\frac 1n\sum\limits^n_{i=1}X_i$ 近似服从（）。

$N(\frac12,\frac1{4n})$

目录CONTENT

概率论与数理统计第六章笔记

第六章样本及抽样分布

6.1 随机样本

总体与个体

随机样本的定义

6.3 抽样分布

统计量的定义

几个常用统计量的定义

格里汶科定理

正态分布表

$\chi^2$ 分布

$t$ 分布

$F$ 分布

正态分布的样本均值与样本方差的分布

习题

评论区

概率论与数理统计第六章笔记

第六章 样本及抽样分布

6.1 随机样本

总体与个体

随机样本的定义

6.3 抽样分布

统计量的定义

几个常用统计量的定义

格里汶科定理

正态分布表

\chi^2分布

t分布

F分布

正态分布的样本均值与样本方差的分布

习题

评论区

第六章样本及抽样分布

$\chi^2$ 分布

$t$ 分布

$F$ 分布