主要阐述关于数据预处理的一些基本的操作
实现将word文档文中的内容提取到TXT格式中
将pdf文件中内容提取到txt格式文本中
多格式的文本信息抽取到txt格式文本中
实现读取文件夹下所有的文件,并打印文件名
多格式的文本信息抽取到txt格式文本中
遍历文件批量抽取文本内容
ClearText文件夹下:
斐波那锲数列(普通实现和生成器(yield)实现)
FileRead_putong.py:普通方法读取文件数据。
EffictRead.ipynb:高效方法读取文件数据
正则表达式的联系以及关于日期和电话号码的提取
实现利用正则表达式进行清洗文本数据
清洗HTML网页数据
简繁体字的转换
针对一个30w条新闻文本数据的一个清洗
结巴分词的基础知识
HanLP分词的基础知识学习
自定义去除停用词
NTLT词频统计
HLWord.ipynb,stopword.py,freqwod.py
此程序的功能是:利用sklearn计算多分类下的tf-idf权重
实现对30万新闻问进行特征提取
数据集和特征集的处理
利用numpy进行处理数据集缺失值(数据缺失值填充)