从NB到语言模型

1. 引言:朴素贝叶斯的局限性

我们知道朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是这里要提到的N-gram语言模型。

2. N-gram语言模型是啥?

2.1从假设性独立到联合概率链规则

照抄我们垃圾邮件识别中的条件独立假设,长这个样子:

为了简化起见,我们以字母表示每一个词语,并且先不考虑条件“S”。于是上式就变成了下面的独立性公式。

贝叶斯与垃圾邮件

1. 引言

贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。

2. 贝叶斯公式

贝叶斯公式就一行:

而它其实是由以下的联合概率公式推导出来:

其中叫做先验概率,叫做后验概率,叫做联合概率。
贝叶斯最核心的公式就这么些。

贝叶斯算法

贝叶斯定理相关公式

  • 先验概率P(A):在不考虑任何情况下,A事件发生的概率
  • 条件概率P(B|A):A事件发生的情况下,B事件发生的概率
  • 后验概率P(A|B):在B事件发生之后,对A事件发生的概率的重新评估。条件概率和后验概率区别
  • 全概率:如果B和B’构成样本空间的一个划分,那么事件A的概率为:B和B’的概率分别乘以A对这两个事件的概率之和。
  • 贝叶斯定理:

贝叶斯不同于SVM、逻辑回归与决策树等判别式模型,它属于生成式模型(LDA、HMM等)。
贝叶斯思想可以概括为先验概率+数据=后验概率,后验概率就是我们要求的。