HEAD 毕业设计:LDA算法实现与运用
第一个MR——————inputFile转化为wordIndexFile和M *N word file.
第二个MR-----------在M*N word file 中初始化z,初始化doctopic,topicword文件(存于output/)。
在进行迭代时:1.MR------上个job的输出M*N word file(含z),topic,word 三个文件对M*N矩阵的word进行吉布斯采样。
输出:更新topicword, doctopic,文件,新生成M*N word file 存于(output/iteration/iteration-?)路径供下次迭代使用。
saveModel,MR---只计算phi输出
-h help print help message.
-i inputFile train file input path. default: the project's train.txt
-o outputFile output Dir path. default: the project's result.txt
-k K topic number,default: topic default 8
-b beginSaveIterations start save LDAModel params iterations
-s saveStepNum save LDAModel params num.
-it maxIterations LDA max iterations.
-mr runMR if use MapReducer.