LDA(LatentDirichletAllocation)主题模型算法 lda算法实现-爱华网

LDA整体流程

先定义一些字母的含义：

LDA以文档集合D作为输入（会有切词，去停用词，取词干等常见的预处理，略去不表），希望训练出的两个结果向量（设聚成k个Topic，VOC中共包含m个词）：

LDA的核心公式如下：

p(w|d) = p(w|t)*p(t|d)

直观的看这个公式，就是以Topic作为中间层，可以通过当前的θ_d和φ_t给出了文档d中出现单词w的概率。其中p(t|d)利用θ_d计算得到，p(w|t)利用φ_t计算得到。
实际上，利用当前的θ_d和φ_t，我们可以为一个文档中的一个单词计算它对应任意一个Topic时的p(w|d)，然后根据这些结果来更新这个词应该对应的topic。然后，如果这个更新改变了这个单词所对应的Topic，就会反过来影响θ_d和φ_t。

LDA学习过程
LDA算法开始时，先随机地给θ_d和φ_t赋值（对所有的d和t）。然后上述过程不断重复，最终收敛到的结果就是LDA的输出。再详细说一下这个迭代的学习过程：
1）针对一个特定的文档d_s中的第i单词w_i，如果令该单词对应的topic为t_j，可以把上述公式改写为：
p_j(w_i|d_s)= p(w_i|t_j)*p(t_j|d_s)
先不管这个值怎么计算（可以先理解成直接从θ_ds和φ_tj中取对应的项。实际没这么简单，但对理解整个LDA流程没什么影响，后文再说）。
2）现在我们可以枚举T中的topic，得到所有的p_j(w_i|d_s)，其中j取值1~k。然后可以根据这些概率值结果为d_s中的第i个单词w_i选择一个topic。最简单的想法是取令p_j(w_i|d_s)最大的t_j（注意，这个式子里只有j是变量），即
argmax[j]p_j(w_i|d_s)
当然这只是一种方法（好像还不怎么常用），实际上这里怎么选择t在学术界有很多方法，我还没有好好去研究。
3）然后，如果d_s中的第i个单词w_i在这里选择了一个与原先不同的topic，就会对θ_d和φ_t有影响了（根据前面提到过的这两个向量的计算公式可以很容易知道）。它们的影响又会反过来影响对上面提到的p(w|d)的计算。对D中所有的d中的所有w进行一次p(w|d)的计算并重新选择topic看作一次迭代。这样进行n次循环迭代之后，就会收敛到LDA所需要的结果了。

dirichlet allocation

爱华网本文地址 » http://www.413yy.cn/a/25101014/221598.html

LDA(LatentDirichletAllocation)主题模型算法 lda算法实现

LDA整体流程

先定义一些字母的含义：

更多阅读

C#程序实现Canny边缘检测算法边缘检测算法实现

24点扑克牌游戏的算法实现扑克牌算24点游戏

SQL Server相似比较算法实现 – 码农网码农网网盘地址

PID算法c语言)来自老外 c语言pid控制算法实现

QQ2012本地聊天记录查看Msg2.0.db之算法 msg3.0.db文件查看器

声明:《LDA(LatentDirichletAllocation)主题模型算法 lda算法实现》为网友梦幻的心爱分享！如侵犯到您的合法权益请联系我们删除

LDA整体流程

先定义一些字母的含义：

更多阅读

C#程序实现Canny边缘检测算法 边缘检测算法实现

24点扑克牌游戏的算法实现 扑克牌算24点游戏

SQL Server相似比较算法实现 – 码农网 码农网网盘地址

PID算法c语言)来自老外 c语言pid控制算法实现

QQ2012本地聊天记录查看Msg2.0.db之算法 msg3.0.db文件查看器

声明:《LDA(LatentDirichletAllocation)主题模型算法 lda算法实现》为网友梦幻的心爱分享！如侵犯到您的合法权益请联系我们删除

C#程序实现Canny边缘检测算法边缘检测算法实现

24点扑克牌游戏的算法实现扑克牌算24点游戏

SQL Server相似比较算法实现 – 码农网码农网网盘地址