博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
利用Mallet工具自动挖掘文本Topic
阅读量:6408 次
发布时间:2019-06-23

本文共 851 字,大约阅读时间需要 2 分钟。

LDA算法(Latent Dirichlet allocation)是Blei,Andrew NG,Jordan等在2003年左右发表的算法,主要是以一系列单词为输入,以一系列Topic单词作为输出。该算法不考虑单词之间的顺序关系,衍生出了很多以LDA为基础的算法。

 

对于小的单独的文本,可以使用在线工具Voyant:,得到一张包含Topic的图片。

多种开源工具实现了LDA算法,如 Stanford Topic Modeling Toolbox()和Mallet()。

Mallet的下载与安装:

建议从github上clone,自行编译。

 

Step1:使用Mallet生成某个文件的topic的时候,需要将该文件的格式转化成mallet格式,使用下面的命令,所得的mallet文件是下一步的输入:

  bin/mallet import-dir --input path/to/the/dir/of/your/target/txt/file --output outputfile.mallet --keep-sequence --remove-stopwords

Step2:利用上面的结果,生成topic单词,及每个单词相关的单词:

  bin/mallet train-topics  --input outputfile.mallet --num-topics 20 --output-state topic-state.gz --output-topic-keys topic_file_keys.txt --output-doc-topics topic_file_topic.txt

上面的命令会生成20个topic单词,并且找出每个topic单词相关的单词,结果保存在topic_file_keys.txt中,topic_file_topic.txt中保存了各topic单词的权重。

 

转载于:https://www.cnblogs.com/yulele/p/4207759.html

你可能感兴趣的文章
js如何获取字符串第几次出现的位置
查看>>
OWin
查看>>
尝尝C#的语法糖(自动属性/匿名方法/Lamda表达式等)-小心蛀牙!
查看>>
数组去重,面试必考题
查看>>
static全局变量与普通的全局变量的区别
查看>>
Android TextView 文字居中
查看>>
79. could not initialize proxy - no Session 【从零开始学Spring Boot】
查看>>
Android Material Design Ripple Effect在Android5.0(SDK=21)以下Android版本崩溃问题解决
查看>>
C/C++ -- 编程中的内存屏障(Memory Barriers) (2)
查看>>
VGA 输出调试
查看>>
关于app transfer之后的开发
查看>>
音频录制
查看>>
行内快元素之间默认间距
查看>>
Jmeter(十)断言
查看>>
bugly中批量隐藏版本
查看>>
喜马拉雅FM
查看>>
Hadoop和MapReduce初识
查看>>
istio sidecar自动注入过程分析
查看>>
caffe 画loss曲线
查看>>
innodb系统表空间维护
查看>>