伯努利分布、二项分布、Beta分布、多项分布和Dirichlet分布与他们之间的关系，以及在LDA中的应用【存疑】

By arthur503 -- 17 Nov 2013

在看LDA的时候，遇到的数学公式分布有些多，因此在这里总结一下思路。

一、伯努利试验、伯努利过程与伯努利分布

先说一下什么是伯努利试验：

维基百科伯努利试验中：

伯努利试验(Bernoulli trial)是只有两种可能结果的单次随机试验。

即：对于一个随机变量而言，P(X=1)=p以及P(X=0)=1-p。一般用抛硬币来举例。另外，此处也描述了伯努利过程：

一个伯努利过程（Bernoulli process）是由重复出现独立但是相同分布的伯努利试验组成，例如抛硬币十次。

维基百科中，伯努利过程的描述如下：

换言之，伯努利过程是一列独立同分布的伯努利试验。

伯努利分布，

伯努利分布（the Bernoulli distribution，又名两点分布或者0-1分布，是一个离散型概率分布。

记其成功概率为p(0≤p≤1)，失败概率为q=1-p。

注意：此处描述的是在“一次”抛硬币，而不是多次。

二、（还不知道名字的分布）【存疑：看到名字了再来修改】

与伯努利分布对应，如果在一次实验中，出现的结果不是2种而是k种可能，则成为是：（还不知道名字的分布）。

常见例子：掷骰子（有多个可能结果）。

可以认为：伯努利分布是此分布在k=2时的特殊情况。

三、二项分布

二项分布：

在概率论和统计学中，二项分布是n个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上，当n = 1时，二项分布就是伯努利分布。

也就是说，单次抛硬币是伯努利分布，多次抛硬币是二项分布。二项分布中：

P(X=x|n,p) = C_{n}^{x}p^{x}(1-p)^{n-x}

即：抛硬币n次，得到x次为正面朝上的概率分布。(注意：虽然一般认为硬币是均匀的，这样硬币正面朝上的概率是0.5.但是，在抛硬币试验中，我们并不假设已经知道这种情况，而是假定对硬币正面朝上的概率完全未知)

四、多项分布

与二项分布之于伯努利分布相同，多项分布相当于进行n次（还不知道名字的分布）试验。假设k个实验结果的概率分别为：p_{1}, p_{2},…, p_{k}，得到的k个结果的次数分别是：x_{1}, x_{2},…, x_{k}，则：

P(x_{1}, x_{2},…, x_{k}|n, p_{1}, p_{2},…, p_{k}) = \frac{n!}{Π_{i=1}^{k}x_{i}!} * p_{i}^{x_{i}}

其中，∑_{i}x_{i}=n。

即：掷骰子n次，得到k个面朝上的次数分别为：x_{1}, x_{2},…, x_{k}的概率分布。

可以认为：多项分布是二项分布的推广，二项分布是多项分布在k=2时的特殊情况。根据多项式的公式，在k=2时，可以推出二项分布的公式。

五、Beta分布

我试着模仿下面的Dirichlet分布中的例子来解释Beta分布：

Beta分布可以看做是分布之上的分布。我们还是以抛硬币为例。不过，我们并不假设硬币是均匀的（也就是说：并不假设每次抛硬币，正面朝上的概率为0.5），所以抛硬币的正面朝上的概率p是未知的（只知道p∈[0,1]）。如果进行一次二项分布试验，在这次二项分布试验中，抛硬币10000次，其中正面朝上7000次，反面朝上3000次，我们可以得到，正负面朝上的概率分别为{p,1-p}={0.7,0.3}。但是我们并不确信这个结果是正确的。我们想要做10000次二项分布试验，在每次二项分布试验中，均抛硬币10000次（说不定在其他二项分布实验中，得到的正负面朝上的概率是{0.2,0.8}或者{0.6,0.4}，这些情况都有可能），那么，我们想要知道，在这样的多次重复二项分布实验中，抛硬币最后得到正负面朝上概率为{0.7,0.3}这样概率为多少？这就是在求抛硬币的概率分布之上的分布。这样的分布就叫做Beta分布。

正如二项分布可以看做多次进行伯努利试验所得到的分布一样，Beta分布也可以看做是多次进行二项分布的试验所得到的分布，是分布之上的分布。

Beta分布的公式如下：

p(p|α,β) = \frac{1}{B(α,β)} * p^{α-1} * (1-p)^{β-1}

其中，β∈[0,1]，B(α,β) = \frac{Γ(α+β)}{Γ(α)Γ(β)} ≈ C_{α-1}^{α+β-2} 。【存疑：此处的B(α,β)在有的出处为B(α,β)的倒数！】

注：在“LDA数学八卦”中，作者求得α=k, β=n-k-1。

此处涉及到了Gamma分布Γ(x)，我们暂时不讲，只要知道：Γ(n) = (n-1)! 即可。

Beta分布是二项分布之上的分布(distribution over bionominals)，也是二项分布的共轭先验分布(conjugate prior of bionominals)。对于什么是共轭先验分布，可以参看这里：PRML Chapter 2. Probability Distributions。【我现在还没看懂。。orz】

概率语言模型及其变形系列(2)-LDA及Gibbs Sampling中也提到了：

什么是共轭分布呢？在文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计一文中我们可以看到，当我们为二项分布的参数p选取的先验分布是Beta分布时，以p为参数的二项分布用贝叶斯估计得到的后验概率仍然服从Beta分布，由此我们说二项分布和Beta分布是共轭分布。这就是共轭分布要满足的性质。在LDA中，每个文档中词的Topic分布服从Multinomial分布，其先验选取共轭先验即Dirichlet分布；每个Topic下词的分布服从Multinomial分布，其先验也同样选取共轭先验即Dirichlet分布。

六、Dirichlet分布

在The Dirichlet Distribution 狄利克雷分布 (PRML 2.2.1)举了一个很通俗的例子：

Dirichlet分布可以看做是分布之上的分布。如何理解这句话，我们可以先举个例子：假设我们有一个骰子，其有六面，分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验，得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次，如果用每一面出现的次数与试验总数的比值估计这个面出现的概率，则我们得到六面出现的概率，分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在，我们还不满足，我们想要做10000次试验，每次试验中我们都投掷骰子10000次。我们想知道，出现这样的情况使得我们认为，骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少（说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了）。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布。

如果理解了Beta分布与二项分布的关系，Dirichlet分布于多项分布之间的关系就可以理解了。简单来说，Dirichlet分布是多项分布之上的分布。也就是说，在多次进行多项分布试验中，每次都会得到一组多项分布中k个结果的概率向量p^{→} = {p_{1}, p_{2},…, p_{k}}，那么，得到某一个概率向量（如p_{0}^{→}）的分布是什么样的呢？这就是Dirichlet分布，其公式如下：

p(P={p_{i}}|α_{i}) = \frac{Π_{i}Γ(α_{i})}{Γ(∑_{i}α_{i})} * Π_{i}p_{i}^{α_{i}-1}

其中，∑_{i}p_{i} = 1, p_{i} ≥ 0。

这里面也涉及到了Gamma分布，我们还是先略过不讲。

和之前一样，可以认为：Beta分布是Dirichlet分布在k=2时的特殊情况。我们令：k=2, α = α_{1}, β = α_{2}，即可得到Beta分布的公式。

Dirichlet分布是多项分布之上的分布(distribution over multinominals)，也是多项分布的共轭先验分布(conjugate prior of multinominals)。

七、Gamma分布(Γ(x)分布)

关于Gamma分布，Rickjin写的“LDA数学八卦”中有详细的描述，强烈推荐。我看过了一遍，但还没有理解，因此略过，等搞明白了再说。【存疑：可考虑再专门写一篇gamma分布的文章】

八、多项分布、Dirichlet分布在LDA中的应用

此处只是初步说一下自己对多项分布、Dirichlet分布与LDA的关系的理解。

LDA模型在描述的时候，是从生成文章的方向来描述的，但在实际计算中，一般是根据已有的文章（即：语料库corpus）来反推文章的主题。

我们先按生成文章的方向来讲。

LDA是假设一篇文章中有多个主题，每个主题有对应的单词，我们分别将其对应为doc-topic，和topic-word模型。

我们先来看看topic-word模型：

对于一个topic，它对应的一个word库，在这个word库中，每一个word都有可能被选择，这个，不过不同word被选择的概率不同，因此，这个topic-word模型中word的分布为多项分布。根据多项分布的公式：P(x_{1}, x_{2},…, x_{k}|n, p_{1}, p_{2},…, p_{k})，其中，x_{i}就是单词word的出现次数，p_{i}就是单词word的出现概率。

再来看doc-topic模型：

对于一篇文章中，可能会有多个主题，每个主题的概率也是不同的，那么，doc-topic模型也是多项分布吗？注意：在一篇文章doc中，文章的主题并不是随机选择的，而是有确定主题的，也就是说，对于一片doc，已经默认其主题的概率p_{i}的是固定的。那么，我们从语料库中选择单词来形成这篇文章，且这篇文章的主题符合概率向量p_{→}={p_{1}, p_{2},…, p_{k}}，这个分布就是Dirichlet分布。根据Dirichlet分布的公式：p(P={p_{i}}|α_{i})，其中，p_{i}就是各个主题出现的概率。【存疑：此处p_{i}与上一段的p_{i}所指的不是一个东西吧？应该一个是在一个主题中各个word的出现概率p，一个是在一篇文章doc中，各个主题出现的概率p。】

【存疑：现在不明白的是，Dirichlet分布中的α_{i}的意义是什么？概率语言模型及其变形系列(2)-LDA及Gibbs Sampling中有说到：α^{→}为Dirichlet分布的参数，在概率语言模型中通常会根据经验给定，由于是参数向量服从分布的参数，因此称为“hyperparamer”。不过，还是没有说他的意义是什么？】

LDA模型要解决的主要问题是：

已知：

Dirichlet分布的公式：p(P={p_{i}}|α_{i})

多项分布的公式：P(x_{1}, x_{2},…, x_{k}|n, p_{1}, p_{2},…, p_{k})

在此情况下，根据已知的各个word（如x_{1}, x_{2},…, x_{k}）的统计词频等信息，求出各个word属于各个主题的概率，即：

P({p_{i}}|x_{1}, x_{2},…, x_{k}) = ?

(注：根据共轭先验分布的公式，参看CMU的一个PPTDirichlet Distribution, Dirichlet Process and Dirichlet Process Mixture，可以得到：

P({p_{i}}|x_{1}, x_{2},…, x_{k}) = \frac{Π_{i}Γ(α_{i}+x_{i})}{Γ(N+∑_{i}α_{i})} * Π_{i}p_{i}^{α_{i}+x_{i}-1}

)

根据不同的主题进行排序，从而可以得到不同主题情况下的所有word的排序结果，我们一般取前20~100个单词，就可以看出这个主题是哪一类的。

九、【存疑：不明白的问题】：

为何关于二项分布的分布是Beta分布的那种形式（即：如何推导出来的）？
为何关于多项分布的分布是Dirichlet分布的形式？
Beta分布中的α、β参数所代表的意义是什么？
Dirichlet分布中的α^{→} = {α_{i}}所代表的意义是什么？
LDA模型中的φ参数在哪个分布里，怎么没有看到？它的意义是什么？
LDA模型中，每个topic下对应的word是所有的corpus中的words吗，还是只是其中的一部分word所组成的子集？
LDA模型中，每个文章doc中，选择topic也和和每个topic中选择word一样，都是多项分布吗？

参考资料：

“LDA数学八卦” —— Rickjin
伯努利试验
伯努利过程
伯努利分布
二项分布
PRML Chapter 2. Probability Distributions
The Dirichlet Distribution 狄利克雷分布 (PRML 2.2.1)
Dirichlet Distribution, Dirichlet Process and Dirichlet Process Mixture
概率语言模型及其变形系列(2)-LDA及Gibbs Sampling