GitHub - letterpg/my

一./predata_fuzzywuzzy

1. 象excel那样加行加列,汇总sum
2. apply的使用,导入一行,获得某一列的处理后结果
3. fuzzywuzzy库处理相似字符串
   fuzzywuzzy是利用字符串编辑距离来对相似度进行衡量,从a变到b需要几步,步数越少分数越高
4. 1,2,3月每个地方的销售额,按州做统计,但州名可能有拼写错误

pandas.reindex, pandas.apply , pandas.read_excel

二./predata_tel

1. 电话用户的流失 yes or no
2. 用户的年龄,婚否,收入,教育程度,退休否,性别,固定资产
3. 用LabelEncoder将分类字符串变为数字
4. 年龄分组,pd.cut
5. 数值取对数后再做MinMaxScaler()处理
6. 对分类数据再做onehot编码 pd.get_dummies
7. 用train_test_split将数据分为train和test
8. 随机森林的featureimportances可以得到特征的重要度

pd.cut, pd.get_dummies, LabelEncoder,

三./

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
predata_fuzzywuzzy		predata_fuzzywuzzy
predata_outlier		predata_outlier
predata_tel		predata_tel
.DS_Store		.DS_Store
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages