这是V1版本,后续版本迁移到ApacheCN组织的kaggle项目里。这个repo就停止更新了。
kaggle入门题目,训练数据已经处理成向量并与标签一一对应,判断测试数据对应的标签。
- 在solutions中存储不同的解法,在所有解法单独实现完成之后,最终结果采用所有解法的结果来做交叉验证之后的答案,即对于某个向量的预测,采用所有解法中出现次数最多的作为结果。
- main.py作为项目的入口,所有程序的调用都采用
python main.py -* *的形式来调用,主要是为了统一log等的设置
-
2018-03-12 score=0.99285
keras-原始数据0.5倍缩放之后,采用keras深度学习
-
2018-03-11 score=0.98542
svm-将原始数据0.5倍缩放之后,采用pca降维,再使用svm分类
-
2018-03-08 score=0.97342
knn-采用0.5倍缩放之后,只设置n_neighbors=3,其余保持默认。
-
2018-03-03 score=0.96357
knn-采用二值化之后的数据,n_neighbors=3,algorithm、weights选择默认。
-
开始前 score=0.96857
knn-采用原始数据,n_neighbors=3,algorithm、weights选择默认
2018-03-07 ~ 2018-03-14
- 完成knn、svm、深度学习三种算法的基础解法
- 得分达到0.99+
直接上图吧:
鉴于V1版本是第一次开始入门作,存在诸多不完善的地方,因此在代码已经可行的情况,将代码整理放到之后的V2版本。
-
ps : 数据二值化之后,采用knn算法
-
ps : 深度学习-keras,达到0.99+
注:参考的博客文章可能在某些地方有一定问题,但大体是正确的,不影响入门学习(刚入门对于细节也不需要那么重视)。
-
命令行参数设置:
-
图像缩放:
-
KNN:
-
PCA降维:
-
感知机:
-
SVM:
-
keras+TensorFlow:
安装一定要注意tensorflow、cuda、cudnn的版本要互相匹配。
同时注意,keras2.0与之前相比已经有了比较大的变动,具体可看:
算法:
版本号V2.0,3月15日正式启动,至3月31日结束。
- 项目结构重新设计
- 数据分析,进一步减少非必要信息,例如缩放倍率、数据本身的笨些规律等等
- 参数调试。更加细致的参数调试
- 不同结果之间的交叉验证
