本文来自于吴恩达的机器学习课程。
1.获得更多的训练实例-解决高方差
2.尝试减少特征的数量-解决高方差
3.尝试获得更多的特征-解决高偏差
4.尝试增加多项式特征-解决高偏差
5.尝试减少正则化程度λ-解决高偏差
6.尝试增加正则化程度λ-解决高方差
评估一个假设
1.对于线性回归模型,利用测试数据计算代价函数J
2.对于逻辑回归模型,利用测试数据计算代价函数J
3.对于逻辑回归模型,也可以计算误分类的比率
模型选择和交叉验证集
1.h0(x)=θ0+θ1x
2.h0(x)=θ0+θ1x+θ2x^2
3.h0(x)=θ0+θ1x+……+θ3x^3
……
10.h0(x)=θ0+θ1x+……+θ10x^10
使用60%的数据作为训练集,使用20%的数据作为交叉验证集,使用20%的数据作为测试集。
模型选择的方法:
1.使用训练集训练出10个模型
2.用10个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)
3.选取代价函数值最小的模型
4.用步骤3中选出的模型对测试集计算得出推广误差(代价函数的值)
判断偏差和方差
当算法表现不理想,要么是偏差大,要么是方差大。话句话说,要么是欠拟合,要么是过拟合。
训练集误差和交叉验证集误差近似时:偏差/欠拟合
交叉验证集误差远大于训练集误差时:方差/过拟合
正则化和偏差/方差
λ的选择通过是在0-10之前的呈现2倍关系的值,例如:0 0.01 0.02 0.04 0.08 0.16 0.32 0.64 1.28 2.56 5.12 10 共12个。
1.使用选链集训练处12个不同程度正则化的模型。
2.用12个模型分别对交叉验证集计算得出交叉验证误差
3.选择得出交叉验证误差最小的模型
4.运用步骤3中选出模型对测试集计算得出推广误差,我们也可以同时将训练集和交叉验证集模型的代价函数误差与λ的值绘制在一张图表上。
当λ较小的时候,训练集误差较小(过拟合)而交叉验证误差较大。
随着λ的增加,训训练集误差不断增加(欠拟合),而交叉验证集误差则是减小后增加
当研究学习问题时,最佳的实践是:
1.先用最简单的模型实现,不管有多少错误。用交叉验证数据验证模型。
2.观察训练集和交叉验证集的学习曲线,来找出高方差和高偏差问题,或者别的问题。这样分析完以后再觉得用更多的样例或加入更多的特征。
3.实现完模型,分析错误样例,从错误样例中找到新的线索来优化模型。
查准率 (Precision)和 查全率 (Recall)
1. 正确肯定 (True Positive,TP):预测为真 ,实际为真
2. 正确否定 (True Negative,TN):预测为假 ,实际假
3. 错误肯定 (False Positive,FP):预测为真,实际假
4. 错误否定 (False Negative,FN):预测为假,实际真
查准率 =TP/(TP+FP)。例,在所有我们预测有恶性肿瘤的病人中,实际上恶性肿瘤的病人的百分比越高越好。
查全率 =TP/(TP+FN)。例,在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越好。
相关推荐
适用于数据挖掘初学者,机器学习挖掘者,课程教学设计,毕业设计,项目设计,适用于老师们教学,学生们在学校中的课程项目训练和学习成果展示。 并附带了部分代码,代码包括数据EDA,清洗,数据标准化,数据建模,...
及其注意事项 目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。 资料:1. 应变量为反映某现象发生与不发生的二值变量;2. 自变量宜全部或大部分为分类变量...
实用机器学习实用指南该项目旨在支持Tessella秋季会议的演讲“应用机器学习实用指南”。 您可以直接查看此演示文稿:演示文件主要演示文件位于。 该演示文稿基于并将该代码包含在目录中。 该演示文稿使用了 我不建议...
完整列表(12个笔记本) LSTM Seq2Seq使用主题建模,测试精度为13.22% LSTM Seq2Seq + Luong注意事项使用主题建模,测试准确性为12.39% 采用主题建模的LSTM Seq2Seq + Beam Decoder,测试精度为10.67%
logistic回归分析matlab代码有用的位 “我不能创造的东西,我不理解”,费曼(1988) 该存储库旨在收集有用的信息/构件块(例如代码,教程等),用于...:使用Tensorflow实施机器学习的提示和注意事项 :使用Python控
高级概率统计数学377的注意事项我们为Math 377开发了这些注释,以使本课程更全面地介绍统计学和概率论。 这意味着我们拥有更多的计算统计信息,例如仿真,置换和引导。 第一块是关于数据收集和数据汇总的。 它很大...
5.运行注意事项: 使用matlab2021a或者更高版本测试,运行里面的Runme_.m文件,不要直接运行子函数文件。运行时注意matlab左侧的当前文件夹窗口必须是当前工程所在路径。 具体可观看提供的操作录像视频跟着操作。
包括最后的注意事项和注意事项 准备《走向数据科学》中的故事 使用TensorFlow Serving服务TensorFlow模型 :orange_book: TensorFlow Serving是一个针对机器学习模型的灵活,高性能的服务系统,专为生产环境而设计...
重要注意事项:目标属性 G3 与属性 G2 和 G1 具有很强的相关性。这是因为 G3 是最后一年级(在第三期发布),而 G1 和 G2 对应于 第一和第二周期 等级。没有 G2 和 G1 预测 G3 更困难,但是这样的预测更有用。
使用复杂的统计数据和机器学习来学习“自下而上”的知识 “打开曲柄”并弹出见解 现实情况: 依靠人类的专业知识对数据施加模型 深度学习以进行功能选择 “大数据 *没有明确的共识 太复杂了,人类无法直接理解 不...
代码文件与B站上的视频教程同步,记录完整的模型分析建模过程,还有注意事项,包括我自己走的弯路,代码内容与接下来我要发布的博客同步。
课程的“斯坦福大学机器学习”课程第4周编程练习的Octave / Python改编。 具体而言,目标是训练线性分类器以预测从0到9的拟人数字。这是通过使用逻辑回归并使用“一对多”方法对多个类别进行分类来实现的。 训练本身...
Server来托管你很棒的数据可视化、统计建模的结果、监控你的机器学习算法,或者只是部署一些RMarkdown文档 一个JupyterLab服务器,可与您的团队同事分享您的知识 一个或多个数据库服务器来存储任何类型的数据,小或/...
由于独特和创新的学习课程,有必要开发基础文献,以支持教学过程。 在本书中,我们将讨论与数据分析和处理方法相关的广泛问题。 该主题包含在新专业的课程中,包括以下课程:数据建模、电子数据交换、数据挖掘方法...