来自于原文(Latent Dirichlet Allocation David M. Blei, Andrew Y. Ng, Michael I. Jordan)的定义:
Latent Dirichlet allocation (LDA) is a generative probabilistic model of a corpus. The basic idea is that documents are represented as random mixtures over latent topics, where each topic is characterized
by a distribution over words.
LDA assumes the following generative process for each document w in a corpus D:
1. Choose N ~ Poisson(ξ).
2. Choose θ ~ Dir(α).
3. For each of the N words w
n:
(a) Choose a topic z
n ~ Multinomial(θ).
(b) Choose a word w
n from p(w
n | z
n,β), a multinomial probability conditioned on the topic z
n.
1. N服从泊松分布。泊松分布是一个离散分布,主要适合于描述单位时间内随机事件发生的次数。分布图可以看
这里。这里的N就是文档的长度。论文里讲泊松分布并不是关键的,可以替换成其他离散分布。
2. θ是一个k维向量。这个k维向量服从狄利克雷分布。狄利克雷分布(Dirichlet distribution)是一个连续多随机变量分布。要理解狄利克雷分布,需要了解共轭先验。存疑。
具体性质可以看
这里。
这里的k是一个定义好的数,怎么定的不知道,反正是要生成这样一个k维向量。存疑。
3. 生成好N和θ后,开始生成文档。对于每一个单词(文档有N个单词):
(a) 生成一个主题z
n,z
n服从θ做参数的多项式分布。多项式分布是二项分布的泛化。
首先解释一下二项分布:设试验E只有两个可能结果A和非A,且P(A) = p,即A的概率是p,今将试验E独立重复地进行n次,这样的试验我们称之为n重贝努里试验(n independent Bernoulli trials),我们关心的是在这n次试验中A发生的次数。以随机变量X表示n次试验中A发生的次数,则X服从参数为n,p的二项分布,记为X~B(n, p)。它的分布律为P(X=k)=C(k,n)*p^k*q^(n-k), k=0, 1, 2, ... , n. q = 1-p
那么多项式分布就可以这样描述:
设试验E有k中可能结果A1, A2, ... . Ak,其概率为p1, p2, ... , pk. (p1+p2+...+pk = 1),今将试验E独立重复地进行n次,我们关心的是在这n次试验中A1, A2, ... . Ak发生的次数,记为向量X = (X1, X2, X3, .... , Xk),(X1+X2+...Xk=n)。则X服从参数为n, p的多项式分布。p=(p1, p2, ... , pk).其概率质量函数(probability mass function)见
这里。
这里的参数n是1(文中没写,费老大劲猜的。应该叫分类分布categorical distribution更准确),所以k维向量可能的取值:(1, 0, 0, ..., 0),(0, 1, 0, ..., 0), (0, 0, 1, ..., 0) ... (0, 0, 0, ..., 1),对应的概率就是p1, p2, p3, ... , pk.
这样就好理解了,k就是主题的数量,p1, p2, p3, ... , pk就是各个主题的概率。(p1, p2, p3, ... , pk)又服从狄利克雷分布。狄利克雷分布刚好又有x1+x2+x3+...+xk=1的性质。
(b) β是一个k*V的矩阵。k就是主题个数,V是词语个数。每个词w都表示成一个V维向量,其中只有一个元素值为1,其他都为0。β矩阵里的值β
ij表示词j在主题i中出现的概率。给定一个主题z
n和β矩阵,实际上就是取了矩阵的一行,该行的意思就是某主题下单词的分布。根据这个分布产生一个单词。
相关推荐
通俗理解LDA主题模型LaTeX版(排版by陈友和),这本书的内容通俗易懂,值得学习。
LDA模型的理解对很多人是一种挑战,尤其是参数估计部分。本文档详细给出了TOTLDA和LDA两个主题概率模型的参数估计需要用到的后验概率的推导过程,并采用了两种方法,对主题概率模型研究人员具有很好的启发意义!
通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf
印象中,最开始听说“LDA”这个名词,是...刻理解 LDA 的基础,但如果没有人帮助初学者提纲挈领、把握主次、理清思路,则很容易陷入 LDA 的细枝末节之 中),还是因为其中的数学推导细节太多,导致一直没有完整看完过。
LDA主题相关好的资源整合,其中有LDA八卦非常好理解,然后还有LDA的经典实现
一个介绍LDA的笔记,描述比较详细,容易理解,供LDA模型爱好者参考。
这篇文章的主要目标,就是科普在学习理解LDA 模型中,需要了解的一些重要的数学知识。 预设的读者是做自然语言处理、机器学习、数据挖掘方向的工程师, 要读懂这篇科普,需要的数学基础知识基本上不超过陈希孺先生...
外国的LDA讲解资料(英文),非常详细,很好理解
David Blei LDA模型,variational inference理解
这篇文章的主要目标,就是科普在学习理解LDA模型中,需要了解一点的数学知识。预设的读者是做自然语言处理、机器学习、数据挖掘方向的工程师。
LDA数学八卦是初学者学习LDA算法很经典很好理解的学习资料,以生活形象和严谨细致的推导讲解了LDA模型。
提纲 主题模型的直观理解 LDA模型及优化思路 主题模型的应用
深入理解LDA主题模型的数学原理。 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA、LDA 一个采样:Gibbs采样
本文基于LDA模型,对微博热搜进行主题分析与研究。首先,对微博数据进行预处理,然后用LDA对处理后的数据进行建模,并利用PyLDAVis对主题展示。最后,我们对所得到的主题进行了分析和解释,探讨了微博热搜背后的社会...
这篇文章的主要目标,就是科普在学习理解LDA 模型中,需要了解的一些重要的数学知识。 预设的读者是做自然语言处理、机器学习、数据挖掘方向的工程师, 要读懂这篇科普,需要的数学基础知识基本上不超过陈希孺先生的...
主题模型LDA中数学问题的经典讲解,对理解LDA有很好帮助,需要概率论基础。
主题模型在自然语言处理领域受到...主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布作者对期望最大化算法在模型参数估计中的使用进行了分析这有助于更深刻理解模型发展中各项工作的联系
最后,我们提出了自适应EM(AEM)算法,该算法比从小数据到大数据以及LDA模型的当前最先进的SparseLDA [20]和AliasLDA [12]都收敛更快,更准确。 核心思想是,通过连续迭代中E步之间的残差来衡量的活动主题数量显着...
Word2Vec和LDA 使用Word2Vec和LDA和Humır数据集进行文本分析(正负)的示例 通常,我们将经历4个主要步骤(我将按照自己的步骤添加这些... 当两个不同的词表达相似的事物时,我们必须确保我们的模型理解相似性。 我