Skip to content

Latest commit

 

History

History

README.md

新词发现

一、运行环境

主要用到的脚本环境有bash,python,awk。其中python的主要依赖库有: argparse,re,collections,math

二、运行方法和结果

运行方法 : ./make.sh 进行新词发现的文件

运行结果 : 会产出一个以m_新词发现文件名命名的文件夹,里面end_data是要的最终文件.end_data的第三列就是需要的新词

三、测试例子

  1. 给出的一个测试文件example中包含了500000条微店商品纪录(数据格式,现在只支持这种格式,make.sh中第一个命令的限制)
  2. 运行./make.sh example 后,产出的数据都存放在了m_example文件夹中,这个文件夹中有个一个end_data文件就是最终提取的文件

四、end_data的数据格式

1、end_data的数据例子

1 2 3 4 5 6 7
1.2829e+07 0.997001 猩猩 62 3500425.990741089 1.112888088 1.185602924

2、end_data的列的含义:

  1. 第一列是对这个字组合是不是词作的第二次综合评价
  2. 第二列是对这个字组合是不是词作的第一次综合评价
  3. 第三列是找到的字的组合
  4. 第四列是字组合在中出现的频率
  5. 第五列是字组合字之间的结合紧密度(数字越大代表结合紧密度越高)
  6. 第六列是字组合右边字的丰富程度(种类数),默认值越大字组合跟右边字的结合紧密度越低
  7. 第七列同第六列,不过是字组合的左边字的丰富程度

五、其他

  1. 具体的每个代码的作用在make.sh 中有详细介绍
  2. 现在代码只实现了4个字几4个字以下的字组合的发现,其中三个字和两个字的组合的准确率最好