除了样本的信息,还有参数的先验信息。

例1. 抛硬币试验。

设正面朝上的概率为$\theta$ ,假设未知参数$\theta$的先验概率服从$\beta$分布,记为$\theta \sim Be(\alpha, \beta)$,其概率密度是

不妨用$x_i=1$表示正面朝上,$x_i=0$表示反面朝上。
抛硬币服从二项分布$X \sim b(1,\theta)$,即$X$的分布律为:

因为此时的$\theta$为随机变量,所以$p(x;\theta)$应该看成给定$\theta$时$X$的条件概率,改用$p(x|\theta)$来表示,即$X$的分布律为:

已知先验信息$p(\theta)$,样本$X_1, X_2, \cdots, X_n$取到观察值$x_1, x_2, \cdots, x_n$,

参数$\theta$的后验概率为:

令$L(\theta)=p(\theta|x_1,x_2, \cdots, x_n)$

令$\frac{\partial \ln L(\theta)}{\partial \theta} =0$

当$n \to \infty$时,$\hat \theta \to \frac{1}{n} \sum_{i=1}^n x_i= \overline x$,此时正好是最大似然估计。

当$n=1$时,只有一个样本($x_i=0或1$),

$\hat \theta=\frac{\alpha-1}{\alpha+\beta-1}$, ($x_i=0$);

$\hat \theta=\frac{\alpha}{\alpha+\beta-1}$, ($x_i=1$)。


例2. 推导下列正态分布均值$\mu$的贝叶斯估计。

样本数据$x_1,x_2,\cdots,x_n$来自正态分布$N(\mu,\sigma^2)$,其中$\mu$未知,$\sigma$已知。假设$\mu$的先验分布为正态分布$\mu \sim N(0, \tau^2)$ ,根据样本$x_1,x_2,\cdots,x_n$写出$\mu$的贝叶斯估计。

令$L(\mu)=p(\mu|x_1,x_2,\cdots,x_n)$

令$ \frac{\partial \ln L(\mu)}{\partial \mu}=0$

当$n \to \infty$时,$\hat \theta \to \frac{1}{n}\sum_{i=1}^n x_i = \overline x$,此时正好是最大似然估计。


总结:

问题:已知样本集$D=\{x_1,x_2, \cdots, x_n\}$服从某个概率分布,但是参数$\theta$未知。

最大似然估计

(1)参数$\theta$是一个未知的定值

(2)目标:找到一个参数$\theta$,使得样本集$D$发生的概率最大

贝叶斯估计

(1)参数$\theta$是未知的随机变量,本身服从一定的概率分布(先验分布)

(2)目标:样本集$D$发生的情况下,哪一个$\theta$发生的概率最大


贝叶斯估计求解的一般步骤:

(1)确定参数$\theta$的先验分布$p(\theta)$

(2)由样本集$D=\{x_1,x_2, \cdots, x_n\}$ 求出样本的联合分布$p(D|\theta)$,它是$\theta$的函数:

(3)利用贝叶斯公式,求$\theta$的后验分布:

(4)取对数 $\ln L(\theta)$

(5)求偏导 $\frac{\partial \ln L(\theta)}{\partial \theta}$

(6)解方程(组) $\frac{\partial \ln L(\theta)}{\partial \theta}=0$,求解出$\hat \theta$


参考文献:

[1] 邰淑彩, 孙韫玉, 何娟娟. 应用数理统计(第二版)[M]. 武汉: 武汉大学出版社, 2005.