训练误差与过拟合
精度(accuracy),精度 = 1-错误率。
- 在训练集上的误差称为训练误差(training error)
- 在新样本上的误差称为泛化误差(generalization error)
实际希望的,是在新样本上能表现得很好的学习器。
- 过拟合(overfitting):把训练样本自身的一些特点,当作了所有潜在样本都会具有的一般性质。
- 欠拟合(underfitting):对训练样本的一般性质尚未学好。
过拟合是无法彻底避免的。若可彻底避免过拟合,则通过经验误差最小化就能获得最优解。
评估方法
以测试集的测量误差(testing error)作为泛化误差的近似。
测试集应该尽可能与训练集互斥,通过对数据集 D 进行适当的处理,从中产生训练集 S 和测试集 T。