最小二乘损失函数的概率解释

最小二乘损失函数的概率解释

概率论与统计学基础

求“概率”时,已知模型和参数,预测结果。进行“统计”时,已知数据,推测模型与参数(明天要答辩了,希望不要被锤)。


先验概率(Apriori)

Apriori,拉丁文意为“来自先前的东西”,即在未考虑“观测数据”之前,根据以往经验和分析得到的概率,如“抛均匀硬币时正面向上的概率为0.5”。

条件概率

在样本空间$\Omega$中的两个事件A、B,那么在事件B发生的条件下,事件A发生的概率是

后验概率

基于观测数据(经验)$X$,修正原来的先验概率后所获得的更接近实际情况的概率估计。是给定证据$X$后参数$\theta$的概率,如“已知不透明袋子里的黑白球数目,连续两次不放回取出小球,知道第二次取出了白球,求第一次取出白球的概率”,此时证据$X$为“第二次取出白球”,参数$\theta$为“第一次取出白球”。后验概率是一种条件概率,但条件概率不一定是后验概率

似然函数

对于观测数据$X$,在参数集合$\theta$上的似然,就是在给定参数值的基础上,观测到某一个结果的可能性,也就是说似然是是关于参数的函数,对于参数给定的条件,观察到的$X$的值的条件分布(我认为参数给定并不是指参数不变,似然中不变的应是观察到的证据$X$,而似然函数就是用可能的$\theta$参数去求证据$X$的概率分布)。

似然函数的重要性不是它的具体取值,而是当参数变化时似然函数的值在如何变化。

考虑连续两次抛掷一枚硬币,每次抛掷正面向上的概率都为$\theta$,若观测到抛掷结果为正正,则其似然函数可以定义为$\theta^2$,此时$\theta$的值越大越符合我们观测到的$X$(似然性越大),即两次都正面向上。若观测到抛掷结果为正反,则其似然函数可以定义为$\theta(1-\theta)$,此时$\theta=0.5$时似然函数值最大,最符合我们观测到的结果。

概率与似然的区别

似然函数在统计推测中发挥重要的作用,因为它是关于统计参数的函数,所以可以用来评估一组统计的参数,也就是说在一组统计方案的参数中,可以用似然函数做筛选。在非正式的语境下,“似然”会和“概率”混着用;但是严格区分的话,在统计上,二者是有不同。

概率是给定参数值$\theta$的情况下观察值$X$的函数,似然是给定观察值$X$时,描述参数$\theta$的情况。

贝叶斯定理(Bayes’s Theorem)

根据条件概率:

整理这两个方程式,可以得到乘法公式:

两边同时除以$P(A)$:

将这个式子进一步推广:
随机试验的样本空间为$\Omega$,$A\subset\Omega$,$B_i(i=1,2,…,n)$是$\Omega$的一个有限划分,$P(A)>0,P(B_i)>0$。

由全概率公式

后验概率与似然函数的关系

后验概率是基于观测到的证据$X$,参数$\theta$的概率:$p(\theta|X)$。
似然函数是给定参数$\theta$的集合,证据$X$的概率分布:$p(X|\theta)$。

后验概率:“已知不透明袋子里的黑白球数目,连续两次不放回取出小球,知道第二次取出了白球,求第一次取出白球的概率”,此时证据为“第二次取出白球”,参数为“第一次取出白球”。

似然函数:“已知不透明袋子里的黑白球数目,连续两次不放回取出小球,知道第二次取出了白球,给定参数集合{第一次取出白球,第一次取出黑球},求在该集合上的似然”,此时证据$X$为“第二次取出白球”,求似然即求在不同的参数下,结果(证据)$X$出现的可能性,这个可能性不代表出现的概率,事实上,一个似然函数乘以一个正的常数之后仍然是似然函数。

贝叶斯推断与后验分布

这部分内容引用自《概率导论(Dimitri P.Bertsekas)》
假定我们知道$\Theta$和$X$的联合分布,其中$\Theta$是感兴趣的未知变量,$X$是观察到的随机变量的值,目标即基于X提取$\Theta$的信息,这是不是和后验概率很像呢,事实上,贝叶斯推断问题的答案就由$\Theta$的后验分布来决定。
假定我们已知:

  • 先验分布$P(\Theta)$
  • 条件分布$P(X|\Theta)$

则我们得到X的观测值后,就可以运用贝叶斯法则计算后验分布列。

最小二乘损失函数的概率解释

前面写了这么多,其实我在看CS229的讲义时发现里面的相关定义在我脑海里已经成了一团浆糊,于是稍微回顾了一下,现在回到正轨来看最初疑惑的问题。

目标变量和输入变量的关系:

$\epsilon^{(i)}$是未建模影响或者随机噪声的误差项。同时$\epsilon^{(i)}$是独立同分布的,并且满足均值为0方差为$\sigma^2$的高斯分布。

这样书写公式后,如果$\theta$和$x^{(i)}$已知,则上式就是$y^{(i)}$的分布了,它的值越大,代表这个$\theta$描述目标变量与输入变量越准确。
给定$X$和$\theta$,数据的概率(这里是原文,我想应该是指$y^{(i)}$的分布)为$p(\overrightarrow y|X;\theta)$
但当我们把上式看作$\theta$的函数时,我们称之为似然函数。

注意到$\epsilon^{(i)}$的独立假设,上式可以书写为

最大似然估计就是要将似然函数最大化。
对该式取自然数为底数的对数。

得到

所以,问题就变成了最小化

,这时的$\theta$能够最好的描述输入变量与输出变量的关系。

参考文献