`

机器学习建模的注意事项

 
阅读更多

本文来自于吴恩达的机器学习课程。

1.获得更多的训练实例-解决高方差

2.尝试减少特征的数量-解决高方差

3.尝试获得更多的特征-解决高偏差

4.尝试增加多项式特征-解决高偏差

5.尝试减少正则化程度λ-解决高偏差

6.尝试增加正则化程度λ-解决高方差

 

评估一个假设

1.对于线性回归模型,利用测试数据计算代价函数J

2.对于逻辑回归模型,利用测试数据计算代价函数J

3.对于逻辑回归模型,也可以计算误分类的比率

 

模型选择和交叉验证集

 

1.h0(x)=θ0+θ1x

2.h0(x)=θ0+θ1x+θ2x^2

3.h0(x)=θ0+θ1x+……+θ3x^3

……

10.h0(x)=θ0+θ1x+……+θ10x^10

 

使用60%的数据作为训练集,使用20%的数据作为交叉验证集,使用20%的数据作为测试集。

模型选择的方法:

1.使用训练集训练出10个模型

2.用10个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)

3.选取代价函数值最小的模型

4.用步骤3中选出的模型对测试集计算得出推广误差(代价函数的值)

 判断偏差和方差

当算法表现不理想,要么是偏差大,要么是方差大。话句话说,要么是欠拟合,要么是过拟合。

训练集误差和交叉验证集误差近似时:偏差/欠拟合

交叉验证集误差远大于训练集误差时:方差/过拟合

 

正则化和偏差/方差

λ的选择通过是在0-10之前的呈现2倍关系的值,例如:0  0.01  0.02 0.04 0.08 0.16 0.32 0.64 1.28 2.56 5.12 10 共12个。

1.使用选链集训练处12个不同程度正则化的模型。

2.用12个模型分别对交叉验证集计算得出交叉验证误差

3.选择得出交叉验证误差最小的模型

4.运用步骤3中选出模型对测试集计算得出推广误差,我们也可以同时将训练集和交叉验证集模型的代价函数误差与λ的值绘制在一张图表上。

当λ较小的时候,训练集误差较小(过拟合)而交叉验证误差较大。

随着λ的增加,训训练集误差不断增加(欠拟合),而交叉验证集误差则是减小后增加

 

 

当研究学习问题时,最佳的实践是:

1.先用最简单的模型实现,不管有多少错误。用交叉验证数据验证模型。

2.观察训练集和交叉验证集的学习曲线,来找出高方差和高偏差问题,或者别的问题。这样分析完以后再觉得用更多的样例或加入更多的特征。

3.实现完模型,分析错误样例,从错误样例中找到新的线索来优化模型。

 

查准率 (Precision)和 查全率 (Recall)

1. 正确肯定 (True Positive,TP):预测为真 ,实际为真

2. 正确否定 (True Negative,TN):预测为假 ,实际假 

3. 错误肯定 (False Positive,FP):预测为真,实际假 

4. 错误否定 (False Negative,FN):预测为假,实际真 

 

查准率 =TP/(TP+FP)。例,在所有我们预测有恶性肿瘤的病人中,实际上恶性肿瘤的病人的百分比越高越好。

查全率 =TP/(TP+FN)。例,在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越好。

 

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics