回归模型性能评估功能:分别具有功能和应用程序目标

可与sckit-learn一起使用的回归模型的评估功能在此基础上,我将总结两者的区别和用法。 yi是真实的y,其上方的横线是预测值。

回归模型性能评估功能

均方误差(MSE,RMSE)

$$ \ text {MSE}(y,\ hat {y})= \ frac {1} {n_ \ text {samples}} \ sum_ {i = 0} ^ {n_ \ text {samples} – 1}(y_i – \帽子{y} _i(预测值))^ 2. $$

均方误差(MSE:均方误差,RMSE:均方根误差)调整模型以使均方误差的总和最小。 RMSE以平方根为平方根,然后将尺寸与y对齐。

首选评估功能。专注于大价值(值越大,平方误差越大)对离群值敏感,但在离群值呈指数下降的许多情况下(如正态分布)很有用。

平均绝对误差(MAE)

$$ \ text {MAE}(y,\ hat {y})= \ frac {1} {n_ {\ text {samples}}} \ sum_ {i = 0} ^ {n_ {\ text {samples}}- 1} \左| y_i – \帽子{y} _i \右|。$$

平均绝对误差(MAE)调整模型以最小化误差绝对值的平均和。

从MSE鲁棒的评估方法,可以抵抗异常值。相反,具有极大不同价值的数据的学习是薄弱的。但是,仍然存在强调大价值的趋势。对于对异常值有很大影响的数据集。

均方对数误差

$$ \文字{MSLE}(y,\帽子{y})= \ frac {1} {n_ \文字{samples}} \ sum_ {i = 0} ^ {n_ \文字{samples} – 1}(\ log_e(1 + y_i)– \ log_e(1 + \ hat {y} _i))^ 2. $$

均方对数误差是对数y误差的平方和的平均值。它适用于y呈指数增长的任务,例如人口和年度产品销售。对低估的惩罚要比对高估的惩罚更大。

中位数绝对错误(MedAE)

$$ R ^ 2(y,\ hat {y})= 1 – \ frac {\ sum_ {i = 1} ^ {n}(y_i – \ hat {y} _i)^ 2} {\ sum_ {i = 1} ^ {n}(y_i – \ bar {y})^ 2} $$

最小化每个预测值的绝对误差的中位数。原理是离群值越多,误差就越大,但是中值误差几乎不受其影响。

由于它比MAE更健壮,因此对于仅包含少量样本的数据以及离群值焦虑但无法排除的数据很有用。

平均百分比误差(MPE)

{\ text {MPE}} = {\ frac {100 \%} {n}} \ sum _ {{t = 1}} ^ {n} {\ frac {a_ {t} -f_ {t}} {a_ {t}}}

平均百分比误差可最大程度地减少偏离测量值的平均百分比(%:百分比)。 未在sckit-learn中实现。看起来不错,因为无论大小如何,任何区域中的值都被视为相同权重的误差,但是在实际使用中存在一些问题(当y为0或非常小的值时会发生误差)。发散等:来自英语维基百科

R2分数(确定系数)

真实值和预测值之间的相关性表示,它对应于yy图的拟合。如果完全匹配,则R2得分为2。 因为RXNUMX分数取决于数据集无法在不同的数据集之间比较R²。

まとめ

基本上R2得分和均方误差(MSE)R2分数和平均绝对误差(MAE)最好一起使用
如果您想强调大价值观并很好地学习离群值,均方根误差
如果您想减轻异常值的重量,MAE

如果预测目标是一个呈指数变化的值均方对数误差有,但是也可以通过对数y处理。

如果您的数据量很少,或者不想排除影响较大的离群值,中位数绝对错误(MedAE)用来。