博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习(周志华)——学习笔记2
阅读量:5053 次
发布时间:2019-06-12

本文共 672 字,大约阅读时间需要 2 分钟。

第2章 模型评估与选择

1、error rate

分类错误的样本数占样本总数的比例

2、accuracy

精度=1-错误率

3、error

训练集上的误差:training error/empirical error

新样本上的误差:generalization error<越小越好>

4、overfitting

原因:学习能力过强

解决方案:关键障碍。无法彻底避免,只能缓解

5、uderfitting

原因:学习能力过低

解决方案:较容易克服,例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等

6、模型评估和选择

      使用testing set来测试学习期对新样本的判别能力,然后以测试集上的testing error作为generalization error的近似。测试集与训练集尽可能互斥

1)留出法 (hold-out):直接将数据集划分成两个互斥的集合

2)交叉验证法(cross validation):先将数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性(即从数据集中通过分层采样得到子集),k-1个子集的并集作为训练集,剩余的一个子集作为测试集。最后返回k个测试结果的均值。k通常取10,其他常用的也有5和20.

——交叉验证的特例,留一法(Leave-One-Out)

3)自助法:解决前两种由于划分出部分数据集作为测试集带来的训练样本规模变小而导致的估计偏差。

其他的概念,先缓缓

转载于:https://www.cnblogs.com/bolumiere/p/6993474.html

你可能感兴趣的文章
Team Foundation Server 2010 Performance Tuning – Lessons learned
查看>>
obj文件转换为gltf的方法
查看>>
系统运行与维护
查看>>
纯css画哆啦A梦
查看>>
SpringIOC学习一
查看>>
摄像头脸部识别 (1)opencv 抓取视频数据并保存
查看>>
[译]Django first steps Part3
查看>>
cat 参数
查看>>
SharePoint 2013 设置自定义布局页
查看>>
Node.js 初学者的入门资源汇总
查看>>
MetaQ
查看>>
【转】变量命名(简短且无歧义)
查看>>
转载:固定表格布局下的各浏览器对与表格宽度计算算法不同
查看>>
SQL Server 找出值得优化的语句
查看>>
mysql爱之深探测
查看>>
单点登录技术
查看>>
使用LINQ取得已选中的CheckBox .
查看>>
感谢青春
查看>>
Jquery Uploadify4.2 falsh 实现上传
查看>>
雨林木风 GHOST_XP SP3 快速装机版YN12.08
查看>>