add xgboost. xuming 20180125

xuming06 · xuming06 · commit e6f299ed010f · 2018-01-25T19:00:10.000+08:00
diff --git a/11scikit-learn/basic-tutorial.ipynb b/11scikit-learn/basic-tutorial.ipynb
@@ -10,7 +10,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 95,
+   "execution_count": 1,
    "metadata": {
     "collapsed": false
    },
@@ -33,7 +33,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 96,
+   "execution_count": 2,
    "metadata": {},
    "outputs": [
     {
@@ -42,7 +42,7 @@
        "array([0, 1, 2, ..., 8, 9, 8])"
       ]
      },
-     "execution_count": 95,
+     "execution_count": 2,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -53,7 +53,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 97,
+   "execution_count": 3,
    "metadata": {},
    "outputs": [
     {
@@ -62,7 +62,7 @@
        "array([[  0.,   0.,   5.,  13.,   9.,   1.,   0.,   0.],\n       [  0.,   0.,  13.,  15.,  10.,  15.,   5.,   0.],\n       [  0.,   3.,  15.,   2.,   0.,  11.,   8.,   0.],\n       [  0.,   4.,  12.,   0.,   0.,   8.,   8.,   0.],\n       [  0.,   5.,   8.,   0.,   0.,   9.,   8.,   0.],\n       [  0.,   4.,  11.,   0.,   1.,  12.,   7.,   0.],\n       [  0.,   2.,  14.,   5.,  10.,  12.,   0.,   0.],\n       [  0.,   0.,   6.,  13.,  10.,   0.,   0.,   0.]])"
       ]
      },
-     "execution_count": 96,
+     "execution_count": 3,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -81,7 +81,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 98,
+   "execution_count": 4,
    "metadata": {},
    "outputs": [
     {
@@ -90,7 +90,7 @@
        "SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0,\n  decision_function_shape=None, degree=3, gamma=0.001, kernel='rbf',\n  max_iter=-1, probability=False, random_state=None, shrinking=True,\n  tol=0.001, verbose=False)"
       ]
      },
-     "execution_count": 97,
+     "execution_count": 4,
      "metadata": {},
      "output_type": "execute_result"
     }
diff --git a/19xgboost/__init__.py b/19xgboost/__init__.py
@@ -0,0 +1,4 @@
+# -*- coding: utf-8 -*-
+# Author: XuMing <shibing624@126.com>
+# Data: 18/1/25
+# Brief: 
diff --git a/19xgboost/data/test.data.sample b/19xgboost/data/test.data.sample
@@ -0,0 +1 @@
+办理	你好 很 高兴 为 您 服务 啊 你好 问 一下 我 手机 上 还有 多少 流 流量 能 查 出来 吗 哦 您 最近 有 没 有 这个 流量 提醒 呢 呃 我 手机 刚才 呃 我 问 过 了 然后 问 了 发 了 一个 短信 它 说 我 用 了 三百三十 多兆 然后 我 想 问 一下 是 我 手机 上 总共 能 用 多少 兆 哦 您 现在 的 话 套餐 里面 总共 是 包含 的 有 四百五十兆 的 呃 是 三百兆 国内 的 三百兆 国内 的 对 的 是 三百兆 流量 哦 那 我 都 超 了 是 吧 哦 对了 那 这个 的 话 应该 是 已经 没有 流量 了 哦 那 你 能 不 能 帮 我 先 开 一个 流量包 呀 开 一个 十块 钱 的 就 够 了 哦 可以 的 现在 是 有 个 十元 加油包 是 包 国内 流量 一百兆 限 本月 使用 月底 自动 取消 您 看 可以 吗 哦 可以 可以 十块 钱 是 吧 哦 对 的 好 的 那 请 您 按 一下 你好 我 现在 如果 开通 的话 立即 就 能 用 是 吧 哦 是的 哦 好吧 好 吧 你 先 帮 我 开通 吧 好 吗 嗯行 请 您 按 一下 一号 键 帮 您 办理 请 不要 挂机 嗯 好 的 十元 上网 加油包 是 包 国内 流量 一百兆 开通 之后 立即 生效 到 月底 自动 取消 一次性 扣费 已经 帮 您 办理 成功 哦 你 这个 是 一下子 十元 就 扣 了 吗 啊 是的 嗯 好好 那 谢 啊 不 客气 还有 其他 可以 帮 您 的 吗 啊 没有 了 谢谢 那 祝 您 生活 愉快 再见 嗯
diff --git a/19xgboost/data/train.data.sample b/19xgboost/data/train.data.sample
@@ -0,0 +1 @@
+办理	不 带 了 您好 很 高兴 为 您 服务 喂 你好 诶 麻烦 你 我 想 充 十块 钱 的 那个 国内 流量 十块 钱 能 充 多少 啊 十块 钱 它 那个 是 加油包 里面 是 一百兆 的 啊 那 行 那 麻烦 你 帮 我 办理 一下 吧 嗯 好 的 稍候 我 帮 您 转接 语音 您 按 一下 一 确认 啊 您好 先生 请 稍 等 它 这个 费用 会 一次性 收 到 月底 就 自动 取消 了 可以 吧 那 可以 但是 这个 流量 的话 下 个 月 可以 使用 吗 如果 用 不 完 的 话 啊 就 用不了 了 它 这 流量 的话 有效期 是 到 这 月底 哦 那 好 的 好 的 我 这 现在 已经 已经 买 过 了 吧 都 买 吧 对 可以 正常 用 了 嗯 那 好 的 好 的 谢谢 啊 呃 不 客气 另外 建议 稍候 您 在 您 的 手机 的 微信 上面 可以 关注 一下 移动 的 官微 我 给 您 发送 一个 关注 绑定 的 方式 方便 您 以后 在 外地 查询 话费 跟 流量 好 吧 行行 好 的 好 的 谢谢 啊 哎 不 客气 先生 其他 还 需要 帮助 吗 嗯 好 的 不 需要 了 谢谢 啊 不 客气 祝 您 生活 愉快 再见
diff --git a/19xgboost/feature.py b/19xgboost/feature.py
@@ -0,0 +1,57 @@
+# -*- coding: utf-8 -*-
+# Author: XuMing <shibing624@126.com>
+# Data: 18/1/25
+# Brief: 
+import sys
+from sklearn.feature_selection import SelectKBest, chi2
+from sklearn.feature_extraction.text import TfidfVectorizer
+import pickle
+
+
+class Feature(object):
+    """
+    select features from the raw text
+    """
+
+    def __init__(self, feature_vec_name, best_feature_name):
+        self.feature_vec_name = feature_vec_name
+        self.best_feature_name = best_feature_name
+        self.init = False
+
+    def fit_model(self, train_x, train_y):
+        best_k = self.max_feature_cnt
+        vec_max_df = self.feature_max_df
+        vec_min_df = self.feature_min_df
+        vec_ngram_range = self.ngram_range
+        self.tf_vec = TfidfVectorizer(ngram_range=vec_ngram_range,
+                                      min_df=vec_min_df, max_df=vec_max_df)
+        self.best = SelectKBest(chi2, k=best_k)
+        train_tf_vec = self.tf_vec.fit_transform(train_x)
+
+    def set_feature_para(self, max_feature_cnt, feature_max_df,
+                         feature_min_df, ngram_range):
+        self.max_feature_cnt = max_feature_cnt
+        self.feature_max_df = feature_max_df
+        self.feature_min_df = feature_min_df
+        self.ngram_range = ngram_range
+
+    def fit(self, max_feature_cnt, feature_max_df,
+            feature_min_df, ngram_range, train_x, train_y):
+        self.set_feature_para(max_feature_cnt, feature_max_df,
+                              feature_min_df, ngram_range)
+        self.fit_model(train_x, train_y)
+
+        pickle.dump(self.tf_vec, self.feature_vec_name, True)
+        pickle.dump(self.best, self.best_feature_name, True)
+
+    def load_model(self):
+        self.tf_vec = pickle.load(self.feature_vec_name)
+        self.best = pickle.load(self.best_feature_name)
+        self.init = True
+
+    def transform(self, x_test):
+        if not self.init:
+            self.load_model()
+        x_vec = self.tf_vec.transform(x_test)
+        x_best = self.best.transform(x_vec)
+        return x_best
diff --git a/19xgboost/lr.py b/19xgboost/lr.py
@@ -0,0 +1,38 @@
+# -*- coding: utf-8 -*-
+# Author: XuMing <shibing624@126.com>
+# Data: 18/1/25
+# Brief: 
+import pickle
+from sklearn.linear_model import LogisticRegression as LR
+
+
+class LR(object):
+    """
+    LR model for text classification
+    """
+
+    def __init__(self, lr_name):
+        self.lr_name = lr_name
+        self.init = False
+
+    def train_model(self, train_x, train_y):
+        self.clf = LR()
+        self.clf.fit(train_x, train_y)
+        self.init = True
+        pickle.dump(self.clf, self.lr_name, True)
+
+    def load_model(self):
+        self.clf = pickle.load(self.lr_name)
+        self.init = True
+
+    def test_model(self, test_x, test_y):
+        if not self.init:
+            self.load_model()
+
+        pred_y = self.clr.predict(test_x)
+        total = len(test_y)
+        correct = 0
+        for idx in range(total):
+            if pred_y[idx] == test_y[idx]:
+                correct += 1
+        print('Test LR:', total, correct, correct * 1.0 / total)
diff --git a/19xgboost/test.py b/19xgboost/test.py
@@ -0,0 +1,33 @@
+# -*- coding: utf-8 -*-
+# Author: XuMing <shibing624@126.com>
+# Data: 18/1/25
+# Brief: 
+import unittest
+from util import load_load
+from feature import Feature
+
+train_file = "./data/train.data.sample"
+test_file = "../data/train.data.sample"
+
+
+class ClassificationTest(unittest.TestCase):
+    """Test Case for classification
+    """
+
+    @classmethod
+    def setUpClass(cls):
+        pass
+
+    @classmethod
+    def tearDownClass(cls):
+        pass
+
+    def test_init(self):
+        print("test_init")
+        """测试初始化函数，捕捉异常"""
+        data_x, data_y = load_load(train_file)
+        self.assertEqual(len(data_x) > 0, True)
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/19xgboost/util.py b/19xgboost/util.py
@@ -0,0 +1,28 @@
+# -*- coding: utf-8 -*-
+# Author: XuMing <shibing624@126.com>
+# Data: 18/1/25
+# Brief: 
+import sys
+
+
+def load_load(data_path):
+    """
+    load data by segmented corpus
+    :param data_path:
+    :return:
+    """
+    data_x = []
+    data_y = []
+    with open(data_path, encoding='utf-8') as f:
+        for line in f:
+            parts = line.strip().split('\t')
+            if len(parts) != 2:
+                print('err, must be 2 parts.')
+                continue
+            data = ' '.join(parts[1:])
+            tag = parts[0].strip()
+            if tag == '':
+                continue
+            data_x.append(data)
+            data_y.append(tag)
+    return data_x, data_y

Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,7 @@`
`10`	`10`	`},`
`11`	`11`	`{`
`12`	`12`	`"cell_type": "code",`
`13`		`- "execution_count": 95,`
	`13`	`+ "execution_count": 1,`
`14`	`14`	`"metadata": {`
`15`	`15`	`"collapsed": false`
`16`	`16`	`},`
`@@ -33,7 +33,7 @@`
`33`	`33`	`},`
`34`	`34`	`{`
`35`	`35`	`"cell_type": "code",`
`36`		`- "execution_count": 96,`
	`36`	`+ "execution_count": 2,`
`37`	`37`	`"metadata": {},`
`38`	`38`	`"outputs": [`
`39`	`39`	`{`
`@@ -42,7 +42,7 @@`
`42`	`42`	`"array([0, 1, 2, ..., 8, 9, 8])"`
`43`	`43`	`]`
`44`	`44`	`},`
`45`		`- "execution_count": 95,`
	`45`	`+ "execution_count": 2,`
`46`	`46`	`"metadata": {},`
`47`	`47`	`"output_type": "execute_result"`
`48`	`48`	`}`
`@@ -53,7 +53,7 @@`
`53`	`53`	`},`
`54`	`54`	`{`
`55`	`55`	`"cell_type": "code",`
`56`		`- "execution_count": 97,`
	`56`	`+ "execution_count": 3,`
`57`	`57`	`"metadata": {},`
`58`	`58`	`"outputs": [`
`59`	`59`	`{`
`@@ -62,7 +62,7 @@`
`62`	`62`	`"array([[ 0., 0., 5., 13., 9., 1., 0., 0.],\n [ 0., 0., 13., 15., 10., 15., 5., 0.],\n [ 0., 3., 15., 2., 0., 11., 8., 0.],\n [ 0., 4., 12., 0., 0., 8., 8., 0.],\n [ 0., 5., 8., 0., 0., 9., 8., 0.],\n [ 0., 4., 11., 0., 1., 12., 7., 0.],\n [ 0., 2., 14., 5., 10., 12., 0., 0.],\n [ 0., 0., 6., 13., 10., 0., 0., 0.]])"`
`63`	`63`	`]`
`64`	`64`	`},`
`65`		`- "execution_count": 96,`
	`65`	`+ "execution_count": 3,`
`66`	`66`	`"metadata": {},`
`67`	`67`	`"output_type": "execute_result"`
`68`	`68`	`}`
`@@ -81,7 +81,7 @@`
`81`	`81`	`},`
`82`	`82`	`{`
`83`	`83`	`"cell_type": "code",`
`84`		`- "execution_count": 98,`
	`84`	`+ "execution_count": 4,`
`85`	`85`	`"metadata": {},`
`86`	`86`	`"outputs": [`
`87`	`87`	`{`
`@@ -90,7 +90,7 @@`
`90`	`90`	`"SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0,\n decision_function_shape=None, degree=3, gamma=0.001, kernel='rbf',\n max_iter=-1, probability=False, random_state=None, shrinking=True,\n tol=0.001, verbose=False)"`
`91`	`91`	`]`
`92`	`92`	`},`
`93`		`- "execution_count": 97,`
	`93`	`+ "execution_count": 4,`
`94`	`94`	`"metadata": {},`
`95`	`95`	`"output_type": "execute_result"`
`96`	`96`	`}`
-Original file line number
+Diff line change
@@ @@ -0,0 +1,4 @@ @@
 +# -*- coding: utf-8 -*-
 +# Author: XuMing <[email protected]>
 +# Data: 18/1/25
 +# Brief:
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	+办理你好很高兴为您服务啊你好问一下我手机上还有多少流流量能查出来吗哦您最近有没有这个流量提醒呢呃我手机刚才呃我问过了然后问了发了一个短信它说我用了三百三十多兆然后我想问一下是我手机上总共能用多少兆哦您现在的话套餐里面总共是包含的有四百五十兆的呃是三百兆国内的三百兆国内的对的是三百兆流量哦那我都超了是吧哦对了那这个的话应该是已经没有流量了哦那你能不能帮我先开一个流量包呀开一个十块钱的就够了哦可以的现在是有个十元加油包是包国内流量一百兆限本月使用月底自动取消您看可以吗哦可以可以十块钱是吧哦对的好的那请您按一下你好我现在如果开通的话立即就能用是吧哦是的哦好吧好吧你先帮我开通吧好吗嗯行请您按一下一号键帮您办理请不要挂机嗯好的十元上网加油包是包国内流量一百兆开通之后立即生效到月底自动取消一次性扣费已经帮您办理成功哦你这个是一下子十元就扣了吗啊是的嗯好好那谢啊不客气还有其他可以帮您的吗啊没有了谢谢那祝您生活愉快再见嗯
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	+办理不带了您好很高兴为您服务喂你好诶麻烦你我想充十块钱的那个国内流量十块钱能充多少啊十块钱它那个是加油包里面是一百兆的啊那行那麻烦你帮我办理一下吧嗯好的稍候我帮您转接语音您按一下一确认啊您好先生请稍等它这个费用会一次性收到月底就自动取消了可以吧那可以但是这个流量的话下个月可以使用吗如果用不完的话啊就用不了了它这流量的话有效期是到这月底哦那好的好的我这现在已经已经买过了吧都买吧对可以正常用了嗯那好的好的谢谢啊呃不客气另外建议稍候您在您的手机的微信上面可以关注一下移动的官微我给您发送一个关注绑定的方式方便您以后在外地查询话费跟流量好吧行行好的好的谢谢啊哎不客气先生其他还需要帮助吗嗯好的不需要了谢谢啊不客气祝您生活愉快再见