说明

主要阐述关于数据预处理的一些基本的操作

一、wordTotxt.py

实现将word文档文中的内容提取到TXT格式中

二、pdf2txt.py

将pdf文件中内容提取到txt格式文本中

三、extracTxt.py

多格式的文本信息抽取到txt格式文本中

四、traverFiles.py

实现读取文件夹下所有的文件，并打印文件名

五、extractTxt2.py

多格式的文本信息抽取到txt格式文本中

六、convFomat.py

遍历文件批量抽取文本内容

ClearText文件夹下：

一、genyield.py

斐波那锲数列(普通实现和生成器(yield)实现)

二、递归遍历读取新闻数据

FileRead_putong.py：普通方法读取文件数据。

EffictRead.ipynb：高效方法读取文件数据

三、reqular.ipynb

正则表达式的联系以及关于日期和电话号码的提取

四、REdealText.ipynb

实现利用正则表达式进行清洗文本数据

五、DealHtml.ipynb

清洗HTML网页数据

六、zhline.ipynb

简繁体字的转换

七、30wClear.ipynb

针对一个30w条新闻文本数据的一个清洗

八、jiebaCut.ipynb

结巴分词的基础知识

九、HanLPCut.ipynb

HanLP分词的基础知识学习

十、StopWords.ipynb

自定义去除停用词

十一、FreqWord.ipynb

NTLT词频统计

十二、自定义选择高低词频

HLWord.ipynb,stopword.py,freqwod.py

十三、TFIDF.ipynb

此程序的功能是：利用sklearn计算多分类下的tf-idf权重

十四、30wDealText.ipynb

实现对30万新闻问进行特征提取

文本特征向量化

一、splitData.ipynb

数据集和特征集的处理

二、lossVal_numpy.ipynb

利用numpy进行处理数据集缺失值(数据缺失值填充)

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
source_code		source_code
ReadMe.md		ReadMe.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

说明

一、wordTotxt.py

二、pdf2txt.py

三、extracTxt.py

四、traverFiles.py

五、extractTxt2.py

六、convFomat.py

一、genyield.py

二、递归遍历读取新闻数据

三、reqular.ipynb

四、REdealText.ipynb

五、DealHtml.ipynb

六、zhline.ipynb

七、30wClear.ipynb

八、jiebaCut.ipynb

九、HanLPCut.ipynb

十、StopWords.ipynb

十一、FreqWord.ipynb

十二、自定义选择高低词频

十三、TFIDF.ipynb

十四、30wDealText.ipynb

文本特征向量化

一、splitData.ipynb

二、lossVal_numpy.ipynb

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

说明

一、wordTotxt.py

二、pdf2txt.py

三、extracTxt.py

四、traverFiles.py

五、extractTxt2.py

六、convFomat.py

一、genyield.py

二、递归遍历读取新闻数据

三、reqular.ipynb

四、REdealText.ipynb

五、DealHtml.ipynb

六、zhline.ipynb

七、30wClear.ipynb

八、jiebaCut.ipynb

九、HanLPCut.ipynb

十、StopWords.ipynb

十一、FreqWord.ipynb

十二、自定义选择高低词频

十三、TFIDF.ipynb

十四、30wDealText.ipynb

文本特征向量化

一、splitData.ipynb

二、lossVal_numpy.ipynb

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages