机器学习建模的注意事项

peng4602

浏览: 205529 次
性别:
来自: 上海

最近访客更多访客>>

spys008

husoon

haigangyuan2011

淡定情绪

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

机器学习

本文来自于吴恩达的机器学习课程。

1.获得更多的训练实例-解决高方差

2.尝试减少特征的数量-解决高方差

3.尝试获得更多的特征-解决高偏差

4.尝试增加多项式特征-解决高偏差

5.尝试减少正则化程度λ-解决高偏差

6.尝试增加正则化程度λ-解决高方差

评估一个假设

1.对于线性回归模型，利用测试数据计算代价函数J

2.对于逻辑回归模型，利用测试数据计算代价函数J

3.对于逻辑回归模型，也可以计算误分类的比率

模型选择和交叉验证集

1.h0(x)=θ0+θ1x

2.h0(x)=θ0+θ1x+θ2x^2

3.h0(x)=θ0+θ1x+……+θ3x^3

……

10.h0(x)=θ0+θ1x+……+θ10x^10

使用60%的数据作为训练集，使用20%的数据作为交叉验证集，使用20%的数据作为测试集。

模型选择的方法：

1.使用训练集训练出10个模型

2.用10个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）

3.选取代价函数值最小的模型

4.用步骤3中选出的模型对测试集计算得出推广误差（代价函数的值）

判断偏差和方差

当算法表现不理想，要么是偏差大，要么是方差大。话句话说，要么是欠拟合，要么是过拟合。

训练集误差和交叉验证集误差近似时：偏差/欠拟合

交叉验证集误差远大于训练集误差时：方差/过拟合

正则化和偏差/方差

λ的选择通过是在0-10之前的呈现2倍关系的值，例如：0 0.01 0.02 0.04 0.08 0.16 0.32 0.64 1.28 2.56 5.12 10 共12个。

1.使用选链集训练处12个不同程度正则化的模型。

2.用12个模型分别对交叉验证集计算得出交叉验证误差

3.选择得出交叉验证误差最小的模型

4.运用步骤3中选出模型对测试集计算得出推广误差，我们也可以同时将训练集和交叉验证集模型的代价函数误差与λ的值绘制在一张图表上。

当λ较小的时候，训练集误差较小（过拟合）而交叉验证误差较大。

随着λ的增加，训训练集误差不断增加（欠拟合），而交叉验证集误差则是减小后增加

当研究学习问题时，最佳的实践是：

1.先用最简单的模型实现，不管有多少错误。用交叉验证数据验证模型。

2.观察训练集和交叉验证集的学习曲线，来找出高方差和高偏差问题，或者别的问题。这样分析完以后再觉得用更多的样例或加入更多的特征。

3.实现完模型，分析错误样例，从错误样例中找到新的线索来优化模型。

查准率（Precision）和查全率（Recall）

1. 正确肯定（True Positive,TP）：预测为真，实际为真

2. 正确否定（True Negative,TN）：预测为假，实际假

3. 错误肯定（False Positive,FP）：预测为真，实际假

4. 错误否定（False Negative,FN）：预测为假，实际真

查准率 =TP/(TP+FP)。例，在所有我们预测有恶性肿瘤的病人中，实际上恶性肿瘤的病人的百分比越高越好。

查全率 =TP/(TP+FN)。例，在所有实际上有恶性肿瘤的病人中，成功预测有恶性肿瘤的病人的百分比，越高越好。

分享到：

前端面试题 | 深度学习：前向传播和后向传播算法

2019-05-03 13:20
浏览 411
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论