第一章概率论的基本概念
 第二章随机变量及其分布
 第三章多维随机变量及其分布
 第四章随机变量的数字特征
 第五章大数定理及中心极限定理
 第六章样本及抽样分布
 第七章参数估计
 第八章假设检验

第七章参数估计

7.1 点估计

设总体 $X$ 的分布形式已知，但它的一个或多个参数为未知，借助于总体 $X$ 的一个样本来估计总体未知参数的值的问题称为点估计问题。

矩估计法

设 $X$ 为连续性随机变量，其概率密度为 $f(x;\theta_1,\theta_2,...,\theta_k)$ ，或 $X$ 为离散型随机变量，其分布率为 $P\{X=x\}=p(x;\theta_1,\theta_2,...,\theta_k)$ ，其中 $\theta_1,\theta_2,...,\theta_k$ 为待估参数， $X_1,X_2,...,X_n$ 是来自 $X$ 的一个样本，假设总体 $X$ 的前 $k$ 阶矩存在，且均为 $\theta_1,\theta_2,...,\theta_k$ 的函数，即 $E(X^l)=\mu_l=g(\theta_1,\theta_2,...,\theta_k)$ 。

用样本矩来估计总体矩，用样本矩的连续函数来估计总体矩的连续函数，这种估计法称为矩估计法。

方法：

求出总体矩：

$\begin{cases}\mu_1=E(X)=\mu_1(\theta_1,\theta_2,...,\theta_k)\\ \mu_2=E(X^2)=\mu_2(\theta_1,\theta_2,...,\theta_k)\\...\\ \mu_k=E(X^k)=\mu_k(\theta_1,\theta_2,...,\theta_k)\end{cases}$
以 $A_i$ 来替换上式中的 $\mu_i$ 。

矩估计法优缺点

优点：简单易行，并不需要事先知道总体是什么分布；
缺点：当总体类型已知时，没有充分利用分布提供的信息。一般场合下，矩估计量不具有唯一性。

最大似然估计

最大似然估计是在总体的分布类型已知的前提下，使用的一种参数估计法。

当总体 $X$ 属离散型：

似然函数的定义：

设分布律 $P\{X=k\}=p(x;\theta),\theta$ 为待估参数， $\theta\in$ $\Theta$ (其中 $\Theta$ 是 $\theta$ 可能的取值范围)， $X_1,X_2,...,X_n$ 是来自总体 $X$ 的样本，则 $X_1,X_2,...,X_n$ 的联合分布率为：

$\prod\limits^n_{i=1}p(x_i;\theta)$

又设 $x_1,x_2,...,x_n$ 为相应于样本 $X_1,X_2,...,X_n$ 的一个样本值，则样本 $X_1,X_2,...,X_n$ 渠道观察值 $x_1,x_2,...,x_n$ 的概率：

$L(\theta)=L(x_1,x_2,...,x_n;\theta)=\prod\limits^n_{i=1}p(x_i;\theta),~~\theta\in\Theta$

$L(\theta)$ 称为样本似然函数。

取得样本值 $x_1,x_2,...,x_n$ 时，选取似然函数 $L(\theta)$ 取得最大值的 $\theta$ 作为未知参数 $\theta$ 的估计值，即 $L(x_1,x_2,...,x_n;\theta)=\max\limits_{\theta\in\Theta}{L(x_1,x_2,...,x_n;\theta)}$ 。这样得到的 $\theta$ 与样本值 $x_1,x_2,...,x_n$ 有关，记为 $\theta(x_1,x_2,...,x_n)$ ，为参数 $\theta$ 的最大似然估计值， $\theta(X_1,X_2,...,X_n)$ 为参数 $\theta$ 的最大似然估计量。

当总体 $X$ 属于连续型：

似然函数的定义

设概率密度为 $f(x;\theta)$ ， $\theta$ 为待估参数， $\theta\in\Theta$ ， $X_1,X_2,...,X_n$ 是来自总体 $X$ 的样本，则 $X_1,X_2,...,X_n$ 的联合密度为：

$\prod\limits^n_{i=1}f(x_i;\theta)$

又设 $x_1,x_2,...,x_n$ 为相应于样本 $X_1,X_2,...,X_n$ 的一个样本值：

$L(\theta)=L(x_1,x_2,...,x_n;\theta)=\prod\limits^n_{i=1}f(x_i;\theta)$

$L(\theta)$ 称为样本的似然函数。

取得样本值 $x_1,x_2,...,x_n$ 时，选取似然函数 $L(\theta)$ 取得最大值的 $\theta$ 作为未知参数 $\theta$ 的估计值，即 $L(x_1,x_2,...,x_n;\theta)=\max\limits_{\theta\in\Theta}{L(x_1,x_2,...,x_n;\theta)}$ 。这样得到的 $\theta$ 与样本值 $x_1,x_2,...,x_n$ 有关，记为 $\theta(x_1,x_2,...,x_n)$ ，为参数 $\theta$ 的最大似然估计值， $\theta(X_1,X_2,...,X_n)$ 为参数 $\theta$ 的最大似然估计量。
求最大似然估计量的步骤：

写出似然函数：

$L(\theta)=L(x_1,x_2,...,x_n;\theta)=\prod\limits^n_{i=1}p(x_i;\theta)$

或者：

$L(\theta)=L(x_1,x_2,...,x_n;\theta)=\prod\limits^n_{i=1}f(x_i;\theta)$
取对数

$\ln{L(\theta)}=\sum\limits^n_{i=1}\ln p(x_i;\theta)$

或者：

$\ln{L(\theta)}=\sum\limits^n_{i=1}\ln f(x_i;\theta)$
对 $\theta$ 求导 $\dfrac{\mathrm d\ln L(\theta)}{\mathrm d\theta}$ ，并令 $\dfrac{\mathrm d\ln L(\theta)}{\mathrm d\theta}=0$ （对数似然方程）

解方程即得未知参数 $\theta$ 的最大似然估计值 $\theta$ 。

最大似然估计的性质：不变性

设 $\theta$ 的函数 $u=u(\theta)$ ， $\theta\in\Theta$ 具有单值反函数 $\theta=\theta(u)$ ， $u\in U$ ，又设 $\hat \theta$ 是 $X$ 的概率分布中参数 $\theta$ 的最大似然估计，则 $\hat u=u(\hat \theta)$ 是 $u(\theta)$ 的最大似然估计。

7.3 估计量的评选标准

对于同一个参数，我们采用不同的估计方法得出的估计量可能不相同。如何评价一个估计量的“好”与“坏”？

无偏性

若 $X_1,X_2,...,X_n$ 为总体 $X$ 的一个样本， $\theta\in\Theta$ 时包含在总体 $X$ 的分布中的待估参数。若估计量 $\hat\theta=\hat\theta(X_1,X_2,...,X_n)$ 的数学期望 $E(\theta)$ 存在，且对于任意 $\theta\in\Theta$ 有 $E(\hat\theta)=\theta$ ，则称 $\hat\theta$ 是 $\theta$ 的无偏估计量。

无偏性的意义是：用估计量 $\hat\theta$ 估计参数 $\theta$ ，有时可能估计偏高，有时可能偏低。但是平均来说它等于 $\theta$ 。

特别的：不论总体 $X$ 服从什么分布，只要它的数学期望存在， $\overline X$ 总是总体 $X$ 的数学期望 $\mu_1=E(X)$ 的无偏估计量。故 $k$ 阶样本矩 $A_k$ 是 $k$ 阶总体矩 $\mu_k$ 的无偏估计。

有效性

比较参数 $\theta$ 的量个无偏估计量 $\hat\theta_1$ 和 $\hat\theta_2$ ，如果在样本容量 $n$ 相同的情况下， $\hat\theta_1$ 的观察值在真值的附近较 $\hat\theta_2$ 更密集，则认为 $\hat\theta_1$ 较 $\hat\theta_2$ 有效。

设 $\hat\theta_1=\hat\theta_1(X_1,X_2,...,X_n)$ 与 $\hat\theta_2=\hat\theta_2(X_1,X_2,...,X_n)$ 都是 $\theta$ 的无偏估计量，若对任意的 $\theta\in\Theta$ ，有 $D(\hat\theta_1)\le D(\hat\theta_2)$ ，且至少对某一个 $\theta\in\Theta$ 上式中的不等号成立，则称 $\hat\theta_1$ 较 $\hat\theta_2$ 有效。

相合性

若 $\hat\theta(X_1,X_2,...,X_n)$ 是参数 $\theta$ 的估计量，若对任意的 $\theta\in\Theta$ ，当 $n\rightarrow\infty$ ， $\hat\theta(X_1,X_2,...,X_n)$ 依概率收敛于 $\theta$ ，则称 $\hat\theta$ 为 $\theta$ 的相合估计量。

7.4 区间估计

置信区间的定义

设总体 $X$ 的分布函数 $F(x;\theta)$ 含有一个未知参数 $\theta$ ， $\theta\in\Theta$ ，对于给定值 $\alpha(0<\alpha<1)$ ，若由样本 $X_1,X_2,...,X_n$ 确定的两个统计量 $\underline\theta=\underline\theta(X_1,X_2,...,X_n)$ 和 $\overline \theta=\overline \theta(X_1,X_2,...,X_n)(\theta<\overline\theta)$ ，对于任意 $\theta\in\Theta$ 满足：

$P\{\underline{\theta}(X_1,X_2,\cdots,X_n)<\theta<\overline{\theta}(X_1,X_2,\cdots,X_n)\}\geq1-\alpha,$

则称随机区间 $(\underline\theta,\overline\theta)$ 是 $\theta$ 的置信度为 $1-\alpha$ 的置信区间 $\underline \theta$ 和 $\overline\theta$ 分别称为置信度为 $1-\alpha$ 的双侧置信区间的置信下限和置信上限, $1-\alpha$ 为置信水平。

置信区间的求法

明确问题：是求什么参数的置信区间？置信水平 $1-\alpha$ 是多少？
寻求样本： $X_1,X_2,...,X_n$ 和 $\theta$ 的函数：

$W=W(X_1,X_2,...,X_n;\theta)$

使 $W$ 的分布不依赖于 $\theta$ 以及其他未知参数，称具有这种性质的函数 $W$ 为枢轴量。
对于给定的置信度 $1-\alpha$ ，定出两个常数 $a,b$ ，使得：

$P\{a<W(X_1,X_2,\cdots,X_n;\theta)<b\}={1-\alpha}$
从 $a<W(X_1,X_2,\cdots,X_n)<b$ 得到的等价不等式 $\underline\theta<\theta<\overline\theta$ ，其中 $\underline\theta=\underline\theta(X_1,X_2,...,X_n)$ ， $\overline\theta=\overline\theta(X_1,X_2,...,X_n)$ 都是统计量，那么 $(\underline\theta,\overline\theta)$ 就是 $\theta$ 的一个置信度为 $1-\alpha$ 的置信区间。

7.5 正态总体均值与方差的区间估计

单个总体 $N(\mu,\sigma^2)$ 的情况

设给所有置信水平为 $1-\alpha$ ，并设 $X_1,X_2,...,X_n$ 为总体 $N(\mu,\sigma^2)$ 的样本， $\overline X,S^2$ 分别是样本均值和样本方差。

均值 $\mu$ 的置信区间

当 $\sigma^2$ 为已知， $\mu$ 的一个置信水平为 $1-\alpha$ 的置信区间：

$\left(\overline{X}\pm\frac{\sigma}{\sqrt{n}}z_{\alpha/2}\right)$
当 $\sigma^2$ 为未知， $\mu$ 的一个置信水平为 $1-\alpha$ 的置信区间：

$\bigg(X\pm\frac{S}{\sqrt{n}}t_{\alpha/2}(n-1)\bigg)$

方差 $\sigma^2$ 的置信区间

当 $\mu$ 为未知，方差 $\sigma^2$ 的置信度为 $1-\alpha$ 的置信区间：

$\left(\frac{(n-1)S^2}{\chi_{\alpha/2}^2(n-1)},\frac{(n-1)S^2}{\chi_{1-\alpha/2}^2(n-1)}\right)$

两个总体 $N(\mu_1,\sigma_1^2)$ , $N(\mu_2,\sigma_2^2)$ 的情况

两个均值差 $\mu_1-\mu_2$ 的置信区间

$\sigma_1^2$ 和 $\sigma_2^2$ 均已知， $\mu_1-\mu_2$ 的置信度为 $1-\alpha$ 的置信区间：

$\left(\overline{X}-\overline{Y}\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}\right)$
$\sigma_{1}^{2}=\sigma_{2}^{2}=\sigma^{2}$ ，但 $\sigma^2$ 未知， $\mu_1-\mu_2$ 的置信度为 $1-\alpha$ 的置信区间：

$\bigg(\overline X-\overline Y\pm t_{\alpha/2}(n_1+n_2-2)S_w\sqrt{\frac 1 n_1+\frac{1}{n_2}}\bigg)$

两个总体方差比 $\dfrac{\sigma_1^2}{\sigma^2_2}$ 的置信区间

$\mu_1,\mu_2$ 均未知， $\dfrac{\sigma_1^2}{\sigma^2_2}$ 的置信度为 $1-\alpha$ 的置信区间：

$\bigg(\frac{S_1^2}{S_2^2}\frac{1}{F_{\alpha/2}(n_1-1,n_2-1)},\frac{S_1^2}{S_2^2}\frac{1}{F_{1-\alpha/2}(n_1-1,n_2-1)}\bigg)$

7.7 单侧置信区间

基本概念

对于给定值 $\alpha(0<\alpha<1)$ ，若由样本 $X_1.X_2,...,X_n$ 确定的统计量 $\underline\theta=\underline\theta(X_1,X_2,...,X_n)$ ，对于任意 $\theta\in\Theta$ 满足：

$P\{\theta>\underline{\theta}\}\geq1-\alpha$

则称随机区间 $(\underline\theta,+\infty)$ 是 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信区间， $\underline\theta$ 称为 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信下限。

又如果统计量 $\overline\theta=\overline\theta(X_1,X_2,...,X_n)$ ，对于任意 $\theta\in\Theta$ 满足：

$P\{\theta<\overline{\theta}\}\geq1-\alpha$

则称随机区间 $(-\infty,\overline\theta)$ 是 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信区间， $\overline\theta$ 称为 $\theta$ 的置信水平为 $1-\alpha$ 的单侧置信上限。

正态总体均值与方差的单侧置信区间

设正态总体 $X$ 的均值是 $\mu$ ，方差是 $\sigma^2$ （均为未知）。

正态均值 $\mu$ 的置信水平为 $1-\alpha$ 的置信下限：

$\underline\mu=\overline X-\frac{S}{\sqrt{n}}t_\alpha(n-1)$
正态均值 $\mu$ 的置信水平为 $1-\alpha$ 的置信上限：

$\overline\mu=\overline X-\frac{S}{\sqrt{n}}t_\alpha(n-1)$
正态方差 $\sigma^2$ 的置信水平为 $1-\alpha$ 的置信上限：

$$
\overline{\sigma^2}=\frac
{(n-1)S^2 }
{\chi_{1-\alpha}^2(n-1) }

$$
正态方差 $\sigma^2$ 的置信水平为 $1-\alpha$ 的置信下限：

$$
\underline{\sigma^2}=\frac
{(n-1)S^2 }
{\chi_{\alpha}^2(n-1) }

$$

习题

答案

答案

答案

答案

答案

答案

答案

答案

目录CONTENT

概率论与数理统计第七章笔记

第七章参数估计

7.1 点估计