1. 概率图模型的概率图模型
概率图模型是一类用图形模式表达基于概率相关关系的模型的总称。概率图模型结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。近10年它已成为不确定性推理的研究热点,在人工智能、机器学习和计算机视觉等领域有广阔的应用前景。 概率图理论共分为三个部分,分别为概率图模型表示理论,概率图模型推理理论和概率图模型学习理论。 基本的概率图模型包括贝叶斯网络、马尔可夫网络和隐马尔可夫网络。基本的Graphical Model 可以大致分为两个类别:贝叶斯网络(Bayesian Network)和马尔可夫随机场(Markov Random Field)。它们的主要区别在于采用不同类型的图来表达变量之间的关系:贝叶斯网络采用有向无环图(Directed Acyclic Graph)来表达因果关系,马尔可夫随机场则采用无向图(Undirected Graph)来表达变量间的相互作用。这种结构上的区别导致了它们在建模和推断方面的一系列微妙的差异。一般来说,贝叶斯网络中每一个节点都对应于一个先验概率分布或者条件概率分布,因此整体的联合分布可以直接分解为所有单个节点所对应的分布的乘积。而对于马尔可夫场,由于变量之间没有明确的因果关系,它的联合概率分布通常会表达为一系列势函数(potential function)的乘积。通常情况下,这些乘积的积分并不等于1,因此,还要对其进行归一化才能形成一个有效的概率分布——这一点往往在实际应用中给参数估计造成非常大的困难。概率图模型有很多好的性质 提供了一种简单的可视化概率模型的方法,有利于设计和开发新模型; 通过对图的深入研究了解概率模型的性质; 用于表示复杂的推理和学习运算,简化了数学表达;
2. 概率图模型的介绍
概率图模型是图灵奖获得者Pearl开发出来的用图来表示变量概率依赖关系的理论。概率图模型理论分为概率图模型表示理论,概率图模型推理理论和概率图模型学习理论。
3. 概率图模型的概率图模型表示理论
概率图模型的表示方法,研究如何利用概率网络中的独立性来简化联合概率分布的方法表示。概率图模型能有效处理不确定性推理,从样本数据中准确高效地学习概率图模型是其在实际应用中的关键问题.概率图模型的表示由参数和结构两部分组成,PGM的分类如图1. :(1)根据边有无方向性分类;(2)根据表示的抽象级别不同分类。根据边有无方向性,PGM可以分为三类(1)有向图模型,也称为贝叶斯网(BayesianNetwork,BN),其网络结构使用有向无环图;(2)无向图模型,也称为马尔可夫网(MarkovNetwork,MN),其网络结构为无向图;(3) 局部有向模型,即同时存在有向边和无向边的模型,包括条件随机场(ConditionalRandomField,CRF)和链图(ChainGraph). 根据表示的抽象级别不同,PGM可分两类: (1)基于随机变量的概率图模型,如贝叶斯网、马尔可夫网、条件随机场和链图等;(2)基于模板的概率图模型.这类模型根据应用场景不同又可分为两种:(a)为暂态模型,包括动态贝叶斯网(Dynamic Bayesian Network,DBN)[6]和状态观测模型,其中状态观测模型又包括线性动态系统(Linear Dynamic System,LDS)和隐马尔可夫模型(Hidden Markov Model,HMM);(b)为对象关系领域的概率图模型,包括盘模型(Plate Model,PM)、概率关系模型(Probabilistic Relational Model,PRM)和关系马尔可夫网(Relational Markov Network,RMN). 总结如下 (1)单个节点上的条件概率分布的表示模型及其引起的独立性,包括表格CPD、确定性CPD、特定上下文CPD、因果影响CPD、高斯模型和混合模型,并把单个分布模型推广到指数分布族中。(2)贝叶斯网络中的独立性以及图与概率分布的关系,高斯分布和指数分布族的贝叶斯网络表示理论。马尔可夫网络的参数化问题及其独立性,高斯分布和指数分布族的马尔可夫网络表示理论。(3)两种局部有向图模型:条件随机场和链图。(4)基于模板的概率模型表示,包括动态贝叶斯网络和状态观测模型这两种暂态模型,(5)盘模型和概率关系模型这两种对象关系领域的有向概率模型,对象关系领域的无向表示。
4. 1. 概率图模型
对现实世界的不确定性进行建模
1.4 贝叶斯公式 通过上面的加法规则和乘法规则,以及P(X,Y)=P(Y,X)。我们可以得到 贝叶斯公式 :
其中P(X)为:
贝叶斯公式写成另外的一种常见的符号形式:
其中D表示观察到的数据,也成为Evidence, w表示相应的参数。 p(D|w)表示似然函数(likehood function)。P(w)成为参数w的先验。p(w|D)表示参数w的后验概率。 所以可以得到:
其中
优点:
图模型分为三类。
常用于描述变量之间的因果关系 贝叶斯网络中的联合概率: p(x)=P(xk|parent)
假设三个变量a,b,c上的联合概率分布p(a,b,c). 那么p(a,b,c)=p(c|ba)p(ba)=p(c|ba)p(b|a)p(a)
上面的图是全连接的。但是真实世界中变量之间确实是全连接的吗? 而且真正传递出概率分布性质的有趣信息是图中信息的缺失。 ** 为什么呢?** 因为对于全连接的图模型可以用来代表所有的概率分布。这样的状态空间是巨大的。意义不大。 但是对于图中缺少边的模型,则只能对应于具有某些条件独立性质的 概率分布。 比如说: 对于如下的图模型:
非全链接的图模型中包含了相应的领域知识和因果关系。
对于下面一个关于学生成绩的例子。
我们假设各个随机变量出现的概率如下:
有了每个因子的分布之后, 就可以得到任意的概率分布了。方法就是:使用加法公式和乘积公式。
另外的一个问题是: 对于图模型中的变量怎么快速的知道它们之间是否相互影响。例如:
在左边对应的六种情况下,只有最后一种情况X→W←Y下X的概率不会影响到Y的概率。这是因为W不是被观察变量,其值是未知的,因此随机变量X的值不会影响随机变量Y的取值。有趣的是,当中间W变量成为被观察变量,上述结论就会发生变化。如下图所示
当WєZ时,即W为观察变量时,所有判断会变得相反。仍然以 X→W← Y 为例,此时W的值已知,比如已知某个学生Grade为B,那么此时学生的聪明程度Intelligence和课程难度Difficulty就不再条件独立了。比如,这种情况下如果课程比较容易,那边学生很聪明的概率较小;反之,若课程很难,则学生很聪明的概率较大。
结论: 概率影响的流动性反应了贝叶斯网络中随机变量条件独立性关系 那么贝叶斯网络中的独立性或者说影响的流动性是如何的呢?
先来看看 ,图模型结构图中,三种常见的本地结构。 一般的如果没有观察变量,见结构1中的图,但是变量c是未知的。 那么:
对两边进行积分或者求和:
因为:
结构2:
可以得到:
结构3:
因为:
考虑一个一般的有向图,其中A,B,C是任意无交集的集合。我们的目的在于希望从图中迅速的观察到在给定C的情况下A与B是否相互独立。考虑A中任意节点到B中任意节点的所有可能路径,如果路径中包含一个满足下面任何一条的节点,那么就认为该路径是被阻隔的。
马尔科夫毯 : 我们以马尔科夫毯来结束对贝叶斯网络独立性的讨论。考虑如下的图模型:
考虑变量x(i)对应节点上的条件概率分布,其中条件为所有剩余的变量。使用分解性质,可得:
最后与x(i)无关的变量可以提取,进行消除。唯一剩下的因子包括:p(xi|pai)以及p(Xk|Pak)其中xi为xk的父节点。 p(Xk|Pak)不仅仅依赖于xi,还依赖于xk的父节点。 我们可以将马尔科夫毯想象成为将xi与图中剩余部分隔离开的最小集合。
(用于引出贝叶斯概率图模型中的表示) 考虑一个多项式回归的问题:
其中参数w为多项式稀疏,a为超参,t为观测变量。x为输入,另外一个为高斯分布的方差。
概率图模型为了清晰的在图形中表明各种的变量的状态。引入了特殊的表示法:包括观察变量,隐含变量,输入,参数,以及plate的概念。 其他的参考模型:LDA, PLSA模型图。
有了t,我们可以计算w的后验概率:
最终目标是对输入变量进行预测,假设给定一个输入值x^,我们需要预测输出。概率模型图如下:
那么模型的联合分布为:
对w进行积分就可以得到相应的预测值:
图模型描述了生成观测数据的生成式模型。因此这种模型通常被称为生成式模型。 对于概率模型的实际应用,通常情况下是,数量众多的变量对应于图的终端节点,较少的对应隐变量(hidden variables)。隐变量的主要作用是使得观测变量上的复杂分布可以表示为由简单条件分布构建的模型。(具体的原因,在E-M算法部分进行说明)
一个马尔科夫随机场也成为马尔科夫网络,或者无向图模型,包含了一组节点,每个节点都对应一个变量或者一组变量。链接是无向的,即不含箭头。
无向图的连接没有了方向,所以父子节点之间的对称性也消除了。所以可以使用一下两种方法判断是否独立:
无向图的马尔科夫毯 非常简单,因为节点只依赖于相邻的节点,而z给定邻居节点的情况下,条件独立于任何其他的节点。
剩下的一个问题是:如何写出马尔科夫随机场的联合分布。也就是如何对联合分布进行 分解。 先来考虑图中的一个概念clique: 维基百科中的解释: a clique is a subset of vertices of an [undirected graph] such that its [induced subgraph]is [complete]; that is, every two distinct vertices in the clique are adjacent 。 马尔科夫随机场的联合概率可以分解为图中最大团快的势函数(potential functions )的乘积形式:
其中Z被称为划分函数,是一个归一化常数,等于:
我们假定势函数是大于0的,因此可以将势函数表示为指数的形式:
其中E(Xc)称为能量函数。
因子图主要用于模型的推断过程。
参考文献: 书籍《Pattern Recognition andMachine Learning》 第八章
5. 概率图模型的概率图模型的推理算法
根据网络结构与查询问题类型的不同,概率图模型的推理算法有 (1)贝叶斯网络与马尔可夫网络 中解决概率查询问题的精确推理算法与近似推理算法,其中具体包括精确推理中的VE算法、递归约束算法和团树算法,以及近似推理中的变分近似推理和抽样近似推理算法; (2)解决MAP查询问题的常用推理算法; (3)混合网络的连续与混合情况阐述其推理算法; (4)暂态网络的精确推理、近似推理以及混合情况下的推理。
6. 概率图模型原理与技术
《概率图模型:原理与技术》是2015年清华大学出版社出版的图书,作者是[美]Daphne Koller等。
概率图模型将概率论与图论相结合,是当前非常热门的一个机器学习研究方向。本书详细论述了有向图模型(又称贝叶斯网)和无向图模型(又称马尔可夫网)的表示、推理和学习问题,全面总结了人工智能这一前沿研究领域的最新进展。
为了便于读者理解,书中包含了大量的定义、定理、证明、算法及其伪代码,穿插了大量的辅助材料,如示例(examples)、技巧专栏(skillboxes)、实例专栏(casestudyboxes)、概念专栏(conceptboxes)等。
另外,在第2章介绍了概率论和图论的核心知识,在附录中介绍了信息论、算法复杂性、组合优化等补充材料,为学习和运用概率图模型提供了完备的基础。
本书可作为高等学校和科研单位从事人工智能、机器学习、模式识别、信号处理等方向的学生、教师和研究人员的教材和参考书。
7. 概率图模型的概率图模型学习理论
概率图模型学习算法分为参数学习与结构学习. 基于概率图模型学习分为概率网络的参数学习与结构学习算法 ,并根据数据集是否完备而分为确定性不完备,随机性不完备各种情况下的参数学习算法,针对结构学习算法特点的不同,结构学习算法归纳为基于约束的学习、基于评分搜索的学习、混合学习、动态规划结构学习、模型平均结构学习和不完备数据集的结构学习.
8. 一个经典概率模型问题
解:分析 求4局后甲必胜的概率 也就是在比赛中至少赢3局 所以就有两种情况 (1)前三局全胜 概率为 p^3 (2)前三局胜两局 第四局胜 概率为C2\3p^3(1—p) C2\3就是在前三局中任意有两局胜 希望对你有用 谢谢