主要用到的脚本环境有bash,python,awk。其中python的主要依赖库有: argparse,re,collections,math
运行方法 : ./make.sh 进行新词发现的文件
运行结果 : 会产出一个以m_新词发现文件名命名的文件夹,里面end_data是要的最终文件.end_data的第三列就是需要的新词
- 给出的一个测试文件example中包含了500000条微店商品纪录(数据格式,现在只支持这种格式,make.sh中第一个命令的限制)
- 运行./make.sh example 后,产出的数据都存放在了m_example文件夹中,这个文件夹中有个一个end_data文件就是最终提取的文件
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
|---|---|---|---|---|---|---|
| 1.2829e+07 | 0.997001 | 猩猩 | 62 | 3500425.990741089 | 1.112888088 | 1.185602924 |
- 第一列是对这个字组合是不是词作的第二次综合评价
- 第二列是对这个字组合是不是词作的第一次综合评价
- 第三列是找到的字的组合
- 第四列是字组合在中出现的频率
- 第五列是字组合字之间的结合紧密度(数字越大代表结合紧密度越高)
- 第六列是字组合右边字的丰富程度(种类数),默认值越大字组合跟右边字的结合紧密度越低
- 第七列同第六列,不过是字组合的左边字的丰富程度
- 具体的每个代码的作用在make.sh 中有详细介绍
- 现在代码只实现了4个字几4个字以下的字组合的发现,其中三个字和两个字的组合的准确率最好