<-- home

Bias Variance Trade Off

April 25, 2019

偏差方差权衡

偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。

方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。

bias and variance

方差，是形容数据分散程度的，算是“无监督的”，客观的指标，偏差，形容数据跟我们期望的中心差得有多远，算是“有监督的”，有人的知识参与的指标。

模型误差 = 偏差（Bias） + 方差（Variance） + 不可避免的误差

导致偏差的主要原因：

对问题本身的假设不正确！

如：非线性数据使用线性回归

最主要的原因：欠拟合underfitting

其他原因：使用的特征和目标高度不相关

导致方差的主要原因：

数据的一点点扰动都会较大的影响模型。

通常原因：使用的模型太复杂，过拟合。

如高阶多项式回归。

有一些算法天生是高方差的算法。如kNN。

非参数学习通常都是高方差算法。因为不对数据进行任何假设。

有一些算法天生是高偏差的算法。如线性回归。

参数学习通常都是高偏差算法。因为对数据具有极强的假设。

大多数算法具有相应的参数，可以调整偏差和方差。

如：

kNN 中的 k ；

线性回归中使用多项式回归。

偏差和方差通常是矛盾的

降低偏差，会提高方差

降低方差，会提高偏差

机器学习的主要挑战，来自于方差！（算法层次）

解决高方差的通常手段：