cnwanglin
diff --git a/‎chinese_stop_words.txt‎
Lines changed: 1470 additions & 0 deletions b/‎chinese_stop_words.txt‎
Lines changed: 1470 additions & 0 deletions
diff --git a/‎classify_file.txt‎
Lines changed: 10 additions & 0 deletions b/‎classify_file.txt‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎cut_words.py‎
Lines changed: 29 additions & 29 deletions b/‎cut_words.py‎
Lines changed: 29 additions & 29 deletions
diff --git a/‎nbayes.py‎
Lines changed: 47 additions & 0 deletions b/‎nbayes.py‎
Lines changed: 47 additions & 0 deletions
diff --git a/‎test_bunch_bag.dat‎
161 KB b/‎test_bunch_bag.dat‎
161 KB
diff --git a/‎test_segments/kong_test/网络.txt‎
Lines changed: 0 additions & 1 deletion b/‎test_segments/kong_test/网络.txt‎
Lines changed: 0 additions & 1 deletion
@@ -0,0 +1,10 @@
+./test_segments/人工智能算法/为什么国家将加快人工智能研究生培养？又为什么很多研究生评论人工智能是个大坑呢？.txt	实际类别:人工智能算法	-->预测类别:统计学
+./test_segments/人工智能算法/人工智能可以产生自主意识吗？.txt	实际类别:人工智能算法	-->预测类别:统计学
+./test_segments/人工智能算法/如果人工智能迎来下一个寒冬，你认为会是卡在什么问题上？.txt	实际类别:人工智能算法	-->预测类别:统计学
+./test_segments/人工智能算法/浅析 Hinton 最近提出的 Capsule 计划.txt	实际类别:人工智能算法	-->预测类别:统计学
+./test_segments/人工智能算法/面对大数据杀熟、算法困住骑手，民主促进会中央建议推行算法开发主体责任制，你怎么看？.txt	实际类别:人工智能算法	-->预测类别:人工智能算法
+./test_segments/统计学/Kaggle如何入门？.txt	实际类别:统计学	-->预测类别:统计学
+./test_segments/统计学/为什么全网都在说生育率下降，而我看周围的人都结婚生子有条不紊地进行呢？.txt	实际类别:统计学	-->预测类别:人工智能算法
+./test_segments/统计学/为什么样本方差（sample variance）的分母是 n-1？.txt	实际类别:统计学	-->预测类别:统计学
+./test_segments/统计学/什么是幸存者偏差？.txt	实际类别:统计学	-->预测类别:统计学
+./test_segments/统计学/神经网络为什么可以（理论上）拟合任何函数？.txt	实际类别:统计学	-->预测类别:统计学
@@ -47,63 +47,63 @@ def cast_words(origin_path, save_path, theme_tag):
     '''
     file_lists = os.listdir(origin_path) #原文档所在路径
 
-    print('\n'+'file_lists:')
-    print(file_lists)
-    print('\n'+'origin_path:')
-    print(origin_path)
+    # print('\n'+'file_lists:')
+    # print(file_lists)
+    # print('\n'+'origin_path:')
+    # print(origin_path)
 
     for dir_1 in file_lists: #找到文件夹
         file_path = origin_path + dir_1 + "/" #原始文件路径
 
-        print('\n' + 'dir_1:')
-        print(dir_1)
-
-        print('\n' + 'file_path:')
-        print(file_path)
+        # print('\n' + 'dir_1:')
+        # print(dir_1)
+        #
+        # print('\n' + 'file_path:')
+        # print(file_path)
 
         seg_path = save_path + dir_1 + "/" #切词后文件路径
 
-        print('\n' + 'save_path:')
-        print(save_path)
-
-        print('\n' + 'seg_path:')
-        print(seg_path)
+        # print('\n' + 'save_path:')
+        # print(save_path)
+        #
+        # print('\n' + 'seg_path:')
+        # print(seg_path)
 
         if not os.path.exists(seg_path):
             os.makedirs(seg_path)
         detail_paths = os.listdir(file_path)
 
-        print('\n' + 'detail_paths:')
-        print(detail_paths)
+        # print('\n' + 'detail_paths:')
+        # print(detail_paths)
 
         for detail_path in detail_paths: #找到文件夹下具体文件路径
             full_path = file_path + detail_path #原始文件下每个文档路径
 
-            print('\n' + 'detail_path:')
-            print(detail_path)
-
-            print('\n' + 'full_path:')
-            print(full_path)
+            # print('\n' + 'detail_path:')
+            # print(detail_path)
+            #
+            # print('\n' + 'full_path:')
+            # print(full_path)
 
             file_content = read_file(full_path)
 
-            print('\n' + 'file_content:')
-            print(file_content)
+            # print('\n' + 'file_content:')
+            # print(file_content)
 
             file_content = file_content.strip() # replace("\r\n", " ")
                                                 # 删除换行
-            print('\n' + 'file_content.strip():')
-            print(file_content)
+            # print('\n' + 'file_content.strip():')
+            # print(file_content)
 
             file_content = file_content.replace("\'", "")
 
-            print('\n' + 'file_content.replace("\'", ""):')
-            print(file_content)
+            # print('\n' + 'file_content.replace("\'", ""):')
+            # print(file_content)
 
             file_content = file_content.replace("\\n", "")
 
-            print('\n' + 'file_content.replace("\\n", ""):')
-            print(file_content)
+            # print('\n' + 'file_content.replace("\\n", ""):')
+            # print(file_content)
 
             content_seg1 = jieba.cut(file_content) # 为文件内容分词
             content_seg2 = jieba.cut(file_content)  # 为文件内容分词
 
@@ -0,0 +1,47 @@
+#!/usr/bin/env python
+# -*- coding: UTF-8 -*-
+import pickle
+from sklearn.naive_bayes import MultinomialNB
+import warnings
+from sklearn import metrics
+warnings.filterwarnings("ignore")
+# 读取bunch对象
+def read_bunch(path):
+    with open(path, "rb") as fp:
+        bunch = pickle.load(fp) # joblib 同样可用于存储模型文件
+    return bunch
+# 分类结果，保存至文件
+def save_file(save_path, content):
+    with open(save_path, "a",encoding= 'utf-8',errors='ignore') as fp:
+        fp.write(content)
+# 朴素贝叶斯分类
+def nbayes_classify(train_set, test_set):
+    '''
+    train_set: 训练集样本数据
+    test_set: 测试集样本数据
+    :return: 测试集样本分类
+    '''
+    clf = MultinomialNB(alpha=0.5)
+    clf.fit(train_set.tdm, train_set.label) # 训练模型
+    predict = clf.predict(test_set.tdm)
+    return predict
+def classification_result(actual, predict):
+    print('精度:{0:.3f}'.format(metrics.precision_score(actual,predict,average='weighted')))
+    print('召回:{0:0.3f}'.format(metrics.recall_score(actual,predict,average='weighted')))
+    print('f1-score:{0:.3f}'.format(metrics.f1_score(actual,predict,average='weighted')))
+if __name__ == '__main__':
+    # 导入训练集
+    train_path = './train_tfdifspace.dat'
+    train_set = read_bunch(train_path)
+    # 导入测试集
+    test_path = "./test_tfidfspace.dat"
+    test_set = read_bunch(test_path)
+    predict = nbayes_classify(train_set, test_set) #
+    classification_result(test_set.label, predict)
+    print('-' * 100)
+    #保存结果路径
+    save_path = './classify_file.txt'
+    for label, filename, predict in zip(test_set.label, test_set.filepath ,predict): #test_set
+        print(filename, "\t实际类别:",label,"\t-->预测类别:", predict)
+        save_content = filename + "\t实际类别:" + label + "\t-->预测类别:" + predict+ '\n'
+        save_file(save_path, save_content) # 将分类结果写入txt