由上图中可知,1):贝叶斯模型(NB)和隐马尔科夫模型(HMM)都属于求取联合概率的模型,而最大熵模型(ME)和条件随机场模型(CRF)则是求取条件概率模型。2):贝叶斯模型和最大熵模型是针对单个标签输出的模型,而隐马尔科夫模型和CRF则是序列模型。
1:贝叶斯模型
我们建模的目的是根据输入的特征x,获得最有可能的输出标签y。
其中x代表输入特征。
每个输出标签y的概率值可简单统计训练数据的频率即可获得。接下来最终我们需要计算的子项是P(y|x)
2:隐马尔科夫模型(HMM)
当我们需要根据模型计算序列化标签时,可简单改造贝叶斯模型,即
每个输入x对应一个输出y,并且序列输出标签y之间保持独立,这是一个较强的假设,现实应用中很难保证该假设。而假设时序标签y之间有时序上的依赖关系,这是一个很合理的假设,因此有
由该公式,可导出HMM的公式为
3:最大熵模型(ME)
假设1:可用信息服从均匀分布(对于未知信息,不要随机猜测,每种可能保持均匀分布即可)
由信息论中条件熵定义
最大熵模型的基本思想是寻找最大条件熵的同时,保持和训练数据信息一致。
其中p(x)由经验分布可近似为:
训练数据由特征进行表征,特征f_i的期望值由经验分布P(x,y)计算可得,经验分布概率可由变量不同值统计频率计算而得。我们建模的希望能达到的是经验分布的期望值等于实际模型分布的期望值,即有
由约束条件
,根据经典的解优化方法,拉格朗日函数可得
求解拉格朗日等式可得
4:最大熵马尔科夫模型(MEMM)
最大熵马尔科夫模型是序列化的最大熵模型,最大熵模型(ME)以P(y|x)建模,单次输入对应单个输出标签y。在序列标签预测任务时,基于最大熵模型,并考虑标签的位置信息,即得最大熵马尔科夫模型(MEMM)。
由上式可以看出来,模型采用局部归一化,但是局部归一化容易陷入局部最优,而得不到全局最优解。
5:无向图
概率无向图模型,又称为马尔科夫随机场。
由图可知,最大团为(v1,v2,v4)和(v2,v3,v4)。
概率无向图的联合概率分布P(Y)可由所有最大团C上的势函数的乘积表示
势函数(potential functions)可以是任意函数,因此势函数不必是概率函数,最终为了得到合适的概率度量,需要对最大团乘积进行归一化。
最大熵模型条件概率为:
其势函数为
加权特征的指数形式被广泛采用,因为它满足了势函数严格为正的要求。
6:条件随机?。–RF)
条件随机场根据条件概率建模
由无向图的定义,联合概率分布P(Y)可由最大团C上的势函数的乘积计算可得,因此
由概率无向图的联合概率定义可得,其势函数为
最终
模型训练,由最大似然函数计算,有
CRF模型推理,1):前向-后向算法;2):维特比算法(viterbi)。
参考文献
《Classical Probabilistic Models and Conditional Random Fields》