机器学习中的这些概念你都懂吗?

踏雪寻梅——在图像的世界里邂逅数学 我们要谈的数字图像处理技术,数学对其的影响可能更为直接。众所周知,数字图像处理技术的研究与开发对数学基础的要求很高,一些不断涌现的新方法中,眼花…

踏雪寻梅——在图像的世界里邂逅数学

我们要谈的数字图像处理技术,数学对其的影响可能更为直接。众所周知,数字图像处理技术的研究与开发对数学基础的要求很高,一些不断涌现的新方法中,眼花缭乱的数学推导令很多期待深入研究的人望而却步。在阅读图像处理方面的论文时,面对梯度、散度、黑塞矩阵、傅里叶变换等这些本该在微积分中早已耳熟能详的概念时,很多人仍然感觉一筹莫展。

其中,在贝叶斯学派的观点中,先验概率、后验概率以及共轭分布的概念非常重要。而在机器学习中,我们阅读很多资料时也要频繁地跟他们打交道。所以理清这些概念很有必要。


贝叶斯定理:一个例子

其实我们在之前介绍朴素贝叶斯分类器时就介绍过它,如果你有点忘了,这里就通过一个例子来帮你回忆一下。

假设有一所学校,学生中60%是男生和40%是女生。女生穿裤子与裙子的数量相同;所有男生穿裤子。现在有一个观察者,随机从远处看到一名学生,因为很远,观察者只能看到该学生穿的是裤子,但不能从长相发型等其他方面推断被观察者的性别。那么该学生是女生的概率是多少?

用事件G表示观察到的学生是女生,用事件T表示观察到的学生穿裤子。于是,现在要计算的是条件概率P(G|T),我们需要知道:

  • P(G) 表示一个学生是女生的概率。由于观察者随机看到一名学生,意味着所有的学生都可能被看到,女生在全体学生中的占比是 40% ,所以概率是 P(G)=0.4 。注意,这是在没有任何其他信息下的概率。这也就是先验概率。后面我们还会详细讨论。

  • P(B) 是学生不是女生的概率,也就是学生是男生的概率,这同样也是指在没有其他任何信息的情况下,学生是男生的先验概率。 B 事件是 G 事件的互补的事件,于是易得 P(B)=0.6 。

  • P(T|G) 是在女生中穿裤子的概率,根据题目描述,女生穿裙子和穿裤子各占一半,所以 P(T|G)=0.5 。这也就是在给定 G 的条件下,T 事件的概率。

  • P(T|B) 是在男生中穿裤子的概率,这个值是1。

  • P(T) 是学生穿裤子的概率,即任意选一个学生,在没有其他信息的情况下,该名学生穿裤子的概率。根据全概率公式 P(T)=∑ni=1P(T|Ai)P(Ai)=P(T|G)P(G)+P(T|B)P(B) ,计算得到 P(T)=0.5×0.4+1×0.6=0.8。

根据贝叶斯公式

P(Ai|T)=P(T|Ai)P(Ai)∑ni=1P(T|Ai)P(Ai)=P(T|Ai)P(Ai)P(T)

基于以上所有信息,如果观察到一个穿裤子的学生,并且是女生的概率是

P(G|T)=P(T|G)P(G)P(T)=0.5×0.4÷0.8=0.25.


先验概率(Prior probability)

在贝叶斯统计中,先验概率分布,即关于某个变量X的概率分布,是在获得某些信息或者依据前,对X之不确定性所进行的猜测。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。

先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断。例如,X可以是投一枚硬币,正面朝上的概率,显然在我们未获得任何其他信息的条件下,我们会认为P(X)=0.5;再比如上面例子中的,P(G)=0.4。

在应用贝叶斯理论时,通常将先验概率乘以似然函数(LikelihoodFunction)再归一化后,得到后验概率分布,后验概率分布即在已知给定的数据后,对不确定性的条件分布。


似然函数(Likelihood function)

似然函数(也称作似然),是一个关于统计模型参数的函数。也就是这个函数中自变量是统计模型的参数。对于观测结果x,在参数集合θ上的似然,就是在给定这些参数值的基础上,观察到的结果的概率L(θ)=P(x|θ)。也就是说,似然是关于参数的函数,在参数给定的条件下,对于观察到的x的值的条件分布。

似然函数在统计推断中发挥重要的作用,因为它是关于统计参数的函数,所以可以用来对一组统计参数进行评估,也就是说在一组统计方案的参数中,可以用似然函数做筛选。

你会发现,“似然”也是一种“概率”。但不同点就在于,观察值x与参数θ的不同的角色。概率是用于描述一个函数,这个函数是在给定参数值的情况下的关于观察值的函数。例如,已知一个硬币是均匀的(在抛落中,正反面的概率相等),那连续10次正面朝上的概率是多少?这是个概率。

而似然是用于在给定一个观察值时,关于描述参数的函数。例如,如果一个硬币在10次抛落中正面均朝上,那硬币是均匀的(在抛落中,正反面的概率相等)概率是多少?这里用了概率这个词,但是实质上是“可能性”,也就是似然了。


后验概率(Posterior probability)

后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。

后验概率是关于参数θ在给定的证据信息X下的概率,即P(θ|X)。若对比后验概率和似然函数,似然函数是在给定参数下的证据信息X的概率分布,即P(X|θ)。二者有如下关系:

  • 我们用 P(θ) 表示概率分布函数,用 P(X|θ) 表示观测值 X 的似然函数。后验概率定义为 P(θ|X)=P(X|θ)P(θ)P(X),注意这也是贝叶斯定理所揭示的内容。

  • 鉴于分母是一个常数,上式可以表达成如下比例关系(而且这也是我们更多采用的形式):Posteriorprobability∝Likelihood×Priorprobability


Gamma 函数

Gamma函数Γ(x)定义为

Γ(x)=∫∞0tx−1e−tdt

通过分部积分法,可以很容易证明Gamma函数具有如下之递归性质

Γ(x+1)=xΓ(x)

也是便很容易发现,它还可以看做是阶乘在实数集上的延拓,即

Γ(x)=(x−1)!

在此基础上,我们还可以定义Beta函数如下

B(a,b)=Γ(a)Γ(b)Γ(a+b)

Beta函数的另外一种定义形式为(注意这两种定义是等价的)

B(a,b)=∫10ta−1(1−t)b−1dt


Beta 分布

之所以提到Gamma函数,那是因为在定义Beta分布时我们会用到它。Beta分布的概率密度函数(PDF)定义为:

Beta(θ|a,b)=Γ(a+b)Γ(a)Γ(b)θa−1(1−θ)b−1

Beta(θ|a,b)=1B(a,b)θa−1(1−θ)b−1

可见,Beta分布有两个控制参数a和b,而且当这两个参数取不同值时,Beta分布的PDF图形可能会呈现出相当大的差异。

机器学习中的这些概念你都懂吗?

本文选自新书《图像处理中的数学修炼》

国内首本详细介绍图像处理中之数学原理的著作,为你打开一道通往图像世界的数学之门。

机器学习中的这些概念你都懂吗?

内容简介:

本书系统地介绍了图像处理技术中所涉及的数学基础。在前四章中,笔者设法化繁为简,从众多繁冗的数学知识中萃取了在学习和研究图像处理技术时所必须的内容,以期有效地帮助读者筛选出最为必要的理论基础,包括微积分、场论、变分法、复变函数、偏微分方程、泛函分析、概率论和统计学等。本书的后半部分每章围绕一个主题详尽地介绍了一些实际应用中的技术,这部分内容涉及到的子话题和具体算法十分丰富,其中很多都是当前研究的热点。更重要的是,在后四章里,读者将反复用到本书前半部分所介绍的数学原理。这不仅能帮助读者夯实基础、强化所学,更能帮助读者建立一条连接数学和图像处理世界的桥梁,做到学以致用。本书可作为图像处理和机器视觉等领域的从业人员的技术指导资料,也可作为大专院校相关专业师生研究或学习的参考书籍。

作者简介:

左飞,技术作家、译者。他的著作涉及图像处理、编程语言和数据挖掘等多个领域,并译有《编码》等计算机领域的经典著作。曾荣获“最受读者喜爱的IT图书作译者奖”。现在的研究兴趣主要集中在图像处理、数据挖掘等领域。

-END-

为您推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注

返回顶部
本页面加载共:43 次查询 | 用时 0.338 秒 | 消耗 15.32MB 内存