纯 unsupervised 的主题模型很多时候太过于天马行空,而有的时候还会有一些小小的 domain knowledge 需要加入到模型中,所以找了一下,发现这两个模型。
GuidedLDA 可以通过 pip
直接安装。
CorEx 不需要安装直接 import
就可以了。CorEx 来源于 Anchored Correlation Explanation: Topic Modeling with Minimal Domain Knowledge, Gallagher et al., TACL 2017.这篇文章
由于是私有数据集就不贴结果了。结果就是 GuidedLDA 惨不忍睹。在没有 seed 的指引下结果就很差。加入 seed 之后,结果稍好,可是还是有很多让人费解的词出现。
CorEx 在没有 seed 指引的情况下就很好。完胜!