目标变量的尺度转换的必要性[机器学习]

2020年3月19日

人们通常认为特征转换在机器学习和深度学习中很重要。例如,以下书籍。

另一方面,关于目标变量的信息并不多。因此,我将总结调查在回归任务中是否应转换目标变量的结果。

需要缩放目标变量

当然,在某些情况下是有必要的。

必要场景

从统计上讲,这是以下两个误差不成立的时间(残余:测量值与回归估计值之间的差)。
・ 普遍性
・同方性

用最小二乘法计算回归方程时,必须以误差无偏和均方差为前提。错误无偏意味着在任何x处,错误的期望值为0。对于回归线,如果在x的任何地方取平均值,则表示该误差在该线上没有任何偏差。
均方根性是指对于任何x而言,误差变化(方差)均相等。

将它们放在一起,在x的任何地方,误差意味着误差围绕回归线以其上下的相同方式变化。 x各处都相同的事实意味着,即使x发生变化,误差分布也不会随之变化,也就是说,它是不相关的。

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1182674801

确认方式

这些可以在残差图和残差的QQ图中看到。

File:R车的停车距离1920 + linear.svg
残差图示例

解决方法和规模转换类型

换句话说,如果分析残差并且不满足上述前提条件(如果存在残差的趋势),则回归模型可以通过数学处理更好地表示x和y之间的关系,并加以考虑。解决方法之一是转换目标变量。

例如,当目标变量的值呈指数增加时,误差随着预测范围变大而增加。为了将非线性模型表示为线性模型,请将对数变换(log)设置为y。

最主要的是对数转换,但还有其他

  • √(根)转换
  • Boxcox转换
  • 相互转换

等等。

但是,还有其他变通办法,例如增加变量,添加XNUMX级或更高的项以及更改评估函数。

目标变量本身不必正态分布

残差需要正态分布。它不是解释变量或客观变量。别误会。残差需要正态分布的原因是,它们对应于用于方差分析的F检验的检验统计量的分母。 这是因为F分布是基于分母和分子均呈正态分布的前提。

回归分析的解释变量和目标变量是否不需要正态分布?

考虑到回归分析的评估函数的形成,它对于不遵循正态分布的数据非常有效,因此这是一种合理的感觉。

这是在目标变量中进行数值转换的必要性。最终,如果精度提高了,我认为应该进行比例转换。