最大似然估计(MLE)与最大后验概率(MAP)估计
参数估计
根据样本统计量的数值对总体参数进行估计的过程
点估计:点估计就是用样本统计量的某一具体数值直接推断未知的总体参数
区间估计:在推断总体参数时,还要根据统计量的抽样分布特征,估计出总体参数的一个区间。估计小学生的平均身高在1.4~1.5米之间,置信程度为95%,这种估计就属于区间估计。
概率与统计的区别
概率(probabilty)、统计(statistics)
概率:概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。
统计:统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。
贝叶斯公式
$$
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
$$
贝叶斯公式在描述你有多大把握能够相信一件证据。
概率函数和似然函数的区别
似然(likelihood)、概率(probability)
概率函数:如果 θ 是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。(相当于机器/深度学习模型的测试过程,此时参数已训练好,是确定的)
似然函数:如果x是已知确定的, θ 是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。(相当于机器/深度学习模型的训练过程,此时参数还未确定,x是确定的)
最大似然估计:求参数 θ , 使似然函数 P(x|θ) 最大。
最大后验概率估计:求参数$ θ$ ,使$P(x|θ)P(θ) $最大. 求得的 $θ$ 不单单让似然函数大,$ θ$自己出现的先验概率$ P(θ) $也得大。 (这有点像正则化里加惩罚项的思想,不过正则化里是利用加法,而MAP里是利用乘法)
最大后验概率估计就是在已知一系列结果的情况下,求参数可能的最大的那一个,也就是求解下面式子:
$$
\hat{\theta}_{MAP}(x) = {\underset{\theta}{\arg\max} , P(\theta|x)} = {\underset{\theta}{\arg\max} ,\frac{P(x|\theta) P(\theta)}{P(x)}}
$$
就是在序列x0 , x1 , … , xn已知的情况下,θ等于某个值的概率,然后求出θ一个个的取完所有的值的所有概率,选择其中使概率最大的那一个的θ,即为最大后验概率。