GitHub - huyang1/LDA: LDA on Hadoop Spark

HEAD 毕业设计：LDA算法实现与运用

1.单机版实现：算法迭代主要是in-memory的方式，适合小数据量。

2.MR实现：主要中间结果存在HDFS上.适合大数据集。

1>.

   第一个MR——————inputFile转化为wordIndexFile和M *N word file.

2>.

   第二个MR-----------在M*N word file 中初始化z，初始化doctopic，topicword文件（存于output/）。

3>.

   在进行迭代时：1.MR------上个job的输出M*N word file（含z），topic，word 三个文件对M*N矩阵的word进行吉布斯采样。
   输出：更新topicword， doctopic，文件，新生成M*N word file 存于（output/iteration/iteration-？）路径供下次迭代使用。

4>.

   saveModel，MR---只计算phi输出

若有需要：对所有的saveModel的参数的平均值，使model更精确。（model存于output/LDAModel/LDAModel-？）

（？代表当前迭代次数。）

使用参数：

-h    help                          print help message.
-i    inputFile                     train file input path.  default: the project's train.txt
-o    outputFile                    output Dir path. default: the project's result.txt
-k    K                             topic number,default: topic default 8
-b    beginSaveIterations           start save LDAModel params iterations
-s    saveStepNum                   save LDAModel params num. 
-it   maxIterations                 LDA max iterations.
-mr   runMR                         if use MapReducer.

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
.idea		.idea
BTM		BTM
LDA		LDA
pyspark		pyspark
src/main		src/main
.gitignore		.gitignore
ChineseStopWord.txt		ChineseStopWord.txt
LDA.iml		LDA.iml
LICENSE		LICENSE
README.md		README.md
mRMR.md		mRMR.md
pom.xml		pom.xml
test.txt		test.txt
train.txt		train.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

1.单机版实现：算法迭代主要是in-memory的方式，适合小数据量。

2.MR实现：主要中间结果存在HDFS上.适合大数据集。

1>.

2>.

3>.

4>.

若有需要：对所有的saveModel的参数的平均值，使model更精确。（model存于output/LDAModel/LDAModel-？）

（？代表当前迭代次数。）

使用参数：

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

1.单机版实现：算法迭代主要是in-memory的方式，适合小数据量。

2.MR实现：主要中间结果存在HDFS上.适合大数据集。

1>.

2>.

3>.

4>.

若有需要：对所有的saveModel的参数的平均值，使model更精确。（model存于output/LDAModel/LDAModel-？）

（？代表当前迭代次数。）

使用参数：

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages