Skip to content

Latest commit

 

History

History

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 

DTree_RF_GBDT.py:分别使用单一决策树,随机森林,梯度提升树对泰坦尼克号乘客是否生还进行预测,比较不同算法的性能(使用默认配置) 实验结果表明:梯度提升树的性能最优,随机森林有时比单一决策树模型好,有时候比单一决策树模型差。可能的原因是数据集不是很大,随机森林算法不稳定性较大。

Dtree_FS.py:使用决策树对泰坦尼克号乘客是否生还进行预测,并使用特征筛选来寻找最佳的特征组合 实验结果表明,当选取前7%的特征时(总共的特征维度为474),单一决策树模型能取得最佳的性能,相比使用所有的特征,性能从83.59%提升到86.02%,而且当选取不同百分比的特征时,交叉验证的结果变化较剧烈,说明单一决策树模型受特征的影响较大。

GDBT_FS.py:使用梯度提升树对泰坦尼克号乘客是否生还进行预测并使用特征筛选来寻找最佳的特征组合 实验结果表明,梯度提升树受选取不同百分比的特征的影响较少,当选取的特征百分比超过10%左右以后,交叉验证的结果基本不变。说明梯度提升树模型受特征的影响较小。另外,发现使用前20%的特征时,测试集上的性能最佳,从85.71提升到86.32%。

RF_FS.py:使用梯随机森林对泰坦尼克号乘客是否生还进行预测,并使用特征筛选来寻找最佳的特征组合 实验结果表明:使用交叉检验选取最佳的特征百分比后,在测试集上的性能反而低于使用所有的特征83.28% VS 85.12%。说明对于随机森林模型,使用所有的特征反而更好,可能是因为随机森林中本身就引入了特征随机性。

这是只是使用简单地枚举不同百分比的特征来进行特征选择,未来可以尝试其它启发式算法,比如前向搜索算法或者后向搜索算法。