Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
cal.awk		cal.awk
change.awk		change.awk
compute_candidate_freq.py		compute_candidate_freq.py
compute_freedegree.py		compute_freedegree.py
compute_solidation.py		compute_solidation.py
del_symbol.awk		del_symbol.awk
example		example
extract.awk		extract.awk
hebing.awk		hebing.awk
make.sh		make.sh

README.md

新词发现

一、运行环境

主要用到的脚本环境有bash，python，awk。其中python的主要依赖库有： argparse,re,collections,math

二、运行方法和结果

运行方法 : ./make.sh 进行新词发现的文件

运行结果 : 会产出一个以m_新词发现文件名命名的文件夹，里面end_data是要的最终文件.end_data的第三列就是需要的新词

三、测试例子

给出的一个测试文件example中包含了500000条微店商品纪录(数据格式，现在只支持这种格式，make.sh中第一个命令的限制)
运行./make.sh example 后，产出的数据都存放在了m_example文件夹中，这个文件夹中有个一个end_data文件就是最终提取的文件

四、end_data的数据格式

1、end_data的数据例子

1	2	3	4	5	6	7
1.2829e+07	0.997001	猩猩	62	3500425.990741089	1.112888088	1.185602924

2、end_data的列的含义:

第一列是对这个字组合是不是词作的第二次综合评价
第二列是对这个字组合是不是词作的第一次综合评价
第三列是找到的字的组合
第四列是字组合在中出现的频率
第五列是字组合字之间的结合紧密度（数字越大代表结合紧密度越高）
第六列是字组合右边字的丰富程度（种类数），默认值越大字组合跟右边字的结合紧密度越低
第七列同第六列，不过是字组合的左边字的丰富程度

五、其他

具体的每个代码的作用在make.sh 中有详细介绍
现在代码只实现了4个字几4个字以下的字组合的发现,其中三个字和两个字的组合的准确率最好