我们给出区间估计的定义以及在一般情况下,区间估计的步骤与方法。
1,区间估计:就是估计未知参数大概的取值范围。
2,置信区间:设 \(\hat{\theta_1}\) 和 \(\hat{\theta_2}\) 是两个统计量,\(0<\alpha<1\) 固定,若
\[P\{\hat{\theta_1}\le\theta\le \hat{\theta_2}\}\ge 1-\alpha\]
则称区间 \([\hat{\theta_1},\hat{\theta_2}]\) 为 \(\theta\) 的置信水平为 \(1-\alpha\) 的置信区间。一般要求\(\hat{\theta_1},\hat{\theta_2}\) 满足上式的等号。但对于离散型随机变量,有时候给定 \(\alpha\),不一定正好能找到 \(\hat{\theta_1},\hat{\theta_2}\) 满足上面的等式,这时候我们尽量找到 \(\hat{\theta_1},\hat{\theta_2}\),使得 \(P\{\hat{\theta_1}\le\theta\le \hat{\theta_2}\}\) 尽量接近 \(1-\alpha\)。
这里:
\([\hat{\theta_1},\hat{\theta_2}]\):置信区间
\(1-\alpha\):置信水平
\(\hat{\theta_1}\):置信下限,\(\hat{\theta_2}\):置信上限
3,单侧置信区间:
(1)\(P\{\theta\le \hat{\theta}\}\ge 1-\alpha\):上侧置信区间;
(2)\(P\{\theta\ge \hat{\theta}\}\ge 1-\alpha\):上侧置信区间;
我们用一个例子来说明区间估计的具体方法与步骤。
例1,设 \(x_1,x_2,\cdots,x_n\) 为来自于总体 \(N(\mu,\sigma^2)\) 的一组样本, \(\sigma^2\) 已知,求 \(\mu\) 的置信水平为 \(95\%\) 的置信区间。
解:我们知道 \(\mu\) 的一个无偏估计为 \(\bar{x}\),而且 \(\bar{x}\sim N(\mu,\frac{\sigma^2}{n})\),标准化后,
\[\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\]
这个结论在之前的正态总体的抽样分布那一部分也叙述过。由这个结论,我们寻求 \(a,b\) ,使得
\[P\left\{a\le \frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\le b\right\}=95\%\]
从这里解出 \(\mu\),就是 \(\mu\) 的置信区间。
这里是双侧置信区间,我们一般要求随机变量落在两端之外的概率相等,也就是
\[P\left\{\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}> b\right\}=2.5\%,\quad P\left\{\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}< a\right\}=2.5\%\]
也就是说
\[P\left\{\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\le b\right\}=97.5\%,\quad P\left\{\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}< a\right\}=2.5\%\]
因为正态分布是对称的,我们知道 \(a=-b\),查标准正态分布表得
\[P\left\{\frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\le 1.96\right\}=97.5\%\]
所以
\[P\left\{-1.96\le \frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\le 1.96\right\}=95\%\]
从不等式 \(\displaystyle -1.96\le \frac{\bar{x}-\mu}{\sigma/\sqrt{n}}\le 1.96\) 解出 \(\mu\),
\[\bar{x}-1.96\cdot \frac{\sigma}{\sqrt{n}}\le \mu\le \bar{x}+1.96\cdot \frac{\sigma}{\sqrt{n}}\]
就是 \(\mu\) 的置信水平为 \(95\%\) 的置信区间,即\(\mu\) 的置信水平为 \(95\%\) 的置信区间为
\[\left[\bar{x}-\frac{1.96\cdot\sigma}{\sqrt{n}},\bar{x}+\frac{1.96\cdot\sigma}{\sqrt{n}}\right]\]
4,区间估计的基本方法:总结上面的例子可以知道区间估计的基本方法是:
(1)取一个只与未知参数 \(\theta\) 及样本有关的函数(统计分布)\(G(\theta;x_1,\cdots,x_n)\),称为枢轴量;
(2)取常数 \(a,b\),使得 \(P\{a\le G\le b\}=1-\alpha\);
(3)从不等式 \(a\le G\le b\) 中解出 \(\theta_1\le \theta\le \theta_2\),区间 \([\theta_1,\theta_2]\) 就是 \(\theta\) 的置信水平为 \(1-\alpha\) 的置信区间。