`
yunmanfan
  • 浏览: 91321 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

LDA模型理解

 
阅读更多
来自于原文(Latent Dirichlet Allocation    David M. Blei, Andrew Y. Ng, Michael I. Jordan)的定义:

Latent Dirichlet allocation (LDA) is a generative probabilistic model of a corpus. The basic idea is that documents are represented as random mixtures over latent topics, where each topic is characterized
by a distribution over words.
LDA assumes the following generative process for each document w in a corpus D:
1. Choose N ~ Poisson(ξ).
2. Choose θ ~ Dir(α).
3. For each of the N words wn:
(a) Choose a topic zn ~ Multinomial(θ).
(b) Choose a word wn from p(wn | zn,β), a multinomial probability conditioned on the topic zn.

1. N服从泊松分布。泊松分布是一个离散分布,主要适合于描述单位时间内随机事件发生的次数。分布图可以看这里。这里的N就是文档的长度。论文里讲泊松分布并不是关键的,可以替换成其他离散分布。
2. θ是一个k维向量。这个k维向量服从狄利克雷分布。狄利克雷分布(Dirichlet distribution)是一个连续多随机变量分布。要理解狄利克雷分布,需要了解共轭先验。存疑。
具体性质可以看这里
这里的k是一个定义好的数,怎么定的不知道,反正是要生成这样一个k维向量。存疑。
3. 生成好N和θ后,开始生成文档。对于每一个单词(文档有N个单词):
(a) 生成一个主题zn,zn服从θ做参数的多项式分布。多项式分布是二项分布的泛化。
首先解释一下二项分布:设试验E只有两个可能结果A和非A,且P(A) = p,即A的概率是p,今将试验E独立重复地进行n次,这样的试验我们称之为n重贝努里试验(n independent Bernoulli trials),我们关心的是在这n次试验中A发生的次数。以随机变量X表示n次试验中A发生的次数,则X服从参数为n,p的二项分布,记为X~B(n, p)。它的分布律为P(X=k)=C(k,n)*p^k*q^(n-k),     k=0, 1, 2, ... , n. q = 1-p
那么多项式分布就可以这样描述:
设试验E有k中可能结果A1, A2, ... . Ak,其概率为p1, p2, ... , pk. (p1+p2+...+pk = 1),今将试验E独立重复地进行n次,我们关心的是在这n次试验中A1, A2, ... . Ak发生的次数,记为向量X = (X1, X2, X3, .... , Xk),(X1+X2+...Xk=n)。则X服从参数为n, p的多项式分布。p=(p1, p2, ... , pk).其概率质量函数(probability mass function)见这里
这里的参数n是1(文中没写,费老大劲猜的。应该叫分类分布categorical distribution更准确),所以k维向量可能的取值:(1, 0, 0, ..., 0),(0, 1, 0, ..., 0), (0, 0, 1, ..., 0) ... (0, 0, 0, ..., 1),对应的概率就是p1, p2, p3, ... , pk.
这样就好理解了,k就是主题的数量,p1, p2, p3, ... , pk就是各个主题的概率。(p1, p2, p3, ... , pk)又服从狄利克雷分布。狄利克雷分布刚好又有x1+x2+x3+...+xk=1的性质。
(b) β是一个k*V的矩阵。k就是主题个数,V是词语个数。每个词w都表示成一个V维向量,其中只有一个元素值为1,其他都为0。β矩阵里的值βij表示词j在主题i中出现的概率。给定一个主题zn和β矩阵,实际上就是取了矩阵的一行,该行的意思就是某主题下单词的分布。根据这个分布产生一个单词。
分享到:
评论

相关推荐

    通俗理解LDA主题模型LaTeX版(排版by陈友和)

    通俗理解LDA主题模型LaTeX版(排版by陈友和),这本书的内容通俗易懂,值得学习。

    LDA模型里Gibbs sampling后验概率详细推导过程

    LDA模型的理解对很多人是一种挑战,尤其是参数估计部分。本文档详细给出了TOTLDA和LDA两个主题概率模型的参数估计需要用到的后验概率的推导过程,并采用了两种方法,对主题概率模型研究人员具有很好的启发意义!

    通俗理解LDA主题模型.pdf

    通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf通俗理解LDA主题模型.pdf

    通俗理解LDA模型

    印象中,最开始听说“LDA”这个名词,是...刻理解 LDA 的基础,但如果没有人帮助初学者提纲挈领、把握主次、理清思路,则很容易陷入 LDA 的细枝末节之 中),还是因为其中的数学推导细节太多,导致一直没有完整看完过。

    LDA主题模型理论与实现

    LDA主题相关好的资源整合,其中有LDA八卦非常好理解,然后还有LDA的经典实现

    通俗理解LDA主题模型LaTeX版(排版by陈友和)

    一个介绍LDA的笔记,描述比较详细,容易理解,供LDA模型爱好者参考。

    LDA数学八卦 Rickjin

    这篇文章的主要目标,就是科普在学习理解LDA 模型中,需要了解的一些重要的数学知识。 预设的读者是做自然语言处理、机器学习、数据挖掘方向的工程师, 要读懂这篇科普,需要的数学基础知识基本上不超过陈希孺先生...

    LDA算法详解(英文),包括简单例子,方便理解

    外国的LDA讲解资料(英文),非常详细,很好理解

    LDA variational inference note

    David Blei LDA模型,variational inference理解

    LDA数学八卦.zip

    这篇文章的主要目标,就是科普在学习理解LDA模型中,需要了解一点的数学知识。预设的读者是做自然语言处理、机器学习、数据挖掘方向的工程师。

    LDA数学八卦.rar

    LDA数学八卦是初学者学习LDA算法很经典很好理解的学习资料,以生活形象和严谨细致的推导讲解了LDA模型。

    Topic Medels主题模型

    提纲 主题模型的直观理解 LDA模型及优化思路 主题模型的应用

    rickjin的LDA数学八卦

    深入理解LDA主题模型的数学原理。 一个函数:gamma函数 四个分布:二项分布、多项分布、beta分布、Dirichlet分布 一个概念和一个理念:共轭先验和贝叶斯框架 两个模型:pLSA、LDA 一个采样:Gibbs采样

    基于LDA的微博热搜主题分析 技术:Python+LDA+网络爬虫 用途:爬取微博热搜对主题进行分析

    本文基于LDA模型,对微博热搜进行主题分析与研究。首先,对微博数据进行预处理,然后用LDA对处理后的数据进行建模,并利用PyLDAVis对主题展示。最后,我们对所得到的主题进行了分析和解释,探讨了微博热搜背后的社会...

    LDA的数学.pdf

    这篇文章的主要目标,就是科普在学习理解LDA 模型中,需要了解的一些重要的数学知识。 预设的读者是做自然语言处理、机器学习、数据挖掘方向的工程师, 要读懂这篇科普,需要的数学基础知识基本上不超过陈希孺先生的...

    LDA数学八卦

    主题模型LDA中数学问题的经典讲解,对理解LDA有很好帮助,需要概率论基础。

    自然语言处理中主题模型的发展

    主题模型在自然语言处理领域受到...主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布作者对期望最大化算法在模型参数估计中的使用进行了分析这有助于更深刻理解模型发展中各项工作的联系

    再谈LDA:熵,先验和收敛

    最后,我们提出了自适应EM(AEM)算法,该算法比从小数据到大数据以及LDA模型的当前最先进的SparseLDA [20]和AliasLDA [12]都收敛更快,更准确。 核心思想是,通过连续迭代中E步之间的残差来衡量的活动主题数量显着...

    Word2Vec-LDA:使用Word2Vec和LDA和Humır数据集进行文本分析(正负)的示例

    Word2Vec和LDA 使用Word2Vec和LDA和Humır数据集进行文本分析(正负)的示例 通常,我们将经历4个主要步骤(我将按照自己的步骤添加这些... 当两个不同的词表达相似的事物时,我们必须确保我们的模型理解相似性。 我

Global site tag (gtag.js) - Google Analytics