Skip to content

yy1244/data_preprocess

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 

Repository files navigation

说明

主要阐述关于数据预处理的一些基本的操作


一、wordTotxt.py

实现将word文档文中的内容提取到TXT格式中

二、pdf2txt.py

将pdf文件中内容提取到txt格式文本中

三、extracTxt.py

多格式的文本信息抽取到txt格式文本中

四、traverFiles.py

实现读取文件夹下所有的文件,并打印文件名

五、extractTxt2.py

多格式的文本信息抽取到txt格式文本中

六、convFomat.py

遍历文件批量抽取文本内容


ClearText文件夹下:

一、genyield.py

斐波那锲数列(普通实现和生成器(yield)实现)

二、递归遍历读取新闻数据

FileRead_putong.py:普通方法读取文件数据。

EffictRead.ipynb:高效方法读取文件数据

三、reqular.ipynb

正则表达式的联系以及关于日期和电话号码的提取

四、REdealText.ipynb

实现利用正则表达式进行清洗文本数据

五、DealHtml.ipynb

清洗HTML网页数据

六、zhline.ipynb

简繁体字的转换

七、30wClear.ipynb

针对一个30w条新闻文本数据的一个清洗

八、jiebaCut.ipynb

结巴分词的基础知识

九、HanLPCut.ipynb

HanLP分词的基础知识学习

十、StopWords.ipynb

自定义去除停用词

十一、FreqWord.ipynb

NTLT词频统计

十二、自定义选择高低词频

HLWord.ipynb,stopword.py,freqwod.py

十三、TFIDF.ipynb

此程序的功能是:利用sklearn计算多分类下的tf-idf权重

十四、30wDealText.ipynb

实现对30万新闻问进行特征提取


文本特征向量化

一、splitData.ipynb

数据集和特征集的处理

二、lossVal_numpy.ipynb

利用numpy进行处理数据集缺失值(数据缺失值填充)

About

Data preprocessing related learning

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Jupyter Notebook 88.8%
  • Python 11.2%