Nécessité de la conversion d'échelle de la variable objective [Apprentissage automatique]

2020er mars 3

On fait souvent valoir que la conversion de fonctionnalités est importante dans l'apprentissage automatique et l'apprentissage en profondeur.Par exemple, les livres suivants.

En revanche, il n'y avait pas beaucoup d'informations sur la variable objective.Par conséquent, je résumerai le résultat de la recherche de savoir si la variable objective doit être convertie dans la tâche de régression.

Besoin de mettre à l'échelle la variable objective

Bien sûr, il y a un besoin dans certains cas.

Scène nécessaire

Statistiquement, c'est le moment où les deux suivants ne sont pas valables pour l'erreur (résiduel: différence entre la valeur mesurée et la valeur estimée de la régression).
・ Universalité
・ Homoscédasticité

Lors du calcul de l'équation de régression par la méthode des moindres carrés, l'impartialité d'erreur et l'homoscédasticité sont des conditions préalables.L'impartialité d'erreur signifie que la valeur attendue de l'erreur est 0 à tout x.Dans le cas d'une droite de régression, si elle est moyennée n'importe où dans x, cela signifie que l'erreur est sur cette ligne sans aucun biais.
L'homoscédasticité signifie que la variation d'erreur (variance) est égale pour tout x.

En les mettant ensemble, partout dans x, l'erreur signifie que l'erreur varie autour de la droite de régression de la même manière au-dessus et en dessous. Le fait qu'il soit le même partout dans x signifie que même si x change, la distribution des erreurs ne change pas avec lui, c'est-à-dire qu'elle n'est pas corrélée.

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1182674801

Méthode de confirmation

Ceux-ci peuvent être vus dans le graphique des résidus et le graphique QQ du résidu.

Fichier: Distances d'arrêt de la voiture R 1920 + linear.svg
Exemple de tracé résiduel

Solution de contournement et type de conversion d'échelle

En d'autres termes, si les résidus sont analysés et que les conditions préalables ci-dessus ne sont pas remplies (si le résidu a tendance à l'être), le modèle de régression peut mieux représenter la relation entre x et y par un traitement mathématique.L'une des solutions de contournement consiste à convertir la variable objectif.

Par exemple, lorsque la variable objectif a une valeur qui augmente de façon exponentielle, l'erreur augmente à mesure que la plage de prédiction devient plus grande.Afin d'exprimer un tel modèle non linéaire sous forme de modèle linéaire, définissez la transformation logarithmique (log) sur y.

La plus importante est la transformation logarithmique, mais il y en a d'autres

  • √ (racine) transformation
  • Conversion de Boxcox
  • Conversion réciproque

Etc.

Cependant, il existe d'autres solutions de contournement, telles que l'augmentation des variables, l'ajout de termes de degré XNUMX ou supérieur et la modification de la fonction d'évaluation.

La variable objective elle-même n'a pas besoin d'être normalement distribuée

Ce sont les résidus qui doivent être normalement distribués.Ce n'est pas une variable explicative ou une variable objective.Ne vous méprenez pas.La raison pour laquelle les résidus doivent être distribués normalement est qu'ils correspondent au dénominateur de la statistique de test du test F pour l'analyse de la variance. En effet, la distribution F est basée sur l'hypothèse que le dénominateur et le numérateur sont normalement distribués.

Les variables explicatives et les variables objectives de l'analyse de régression n'ont-elles pas besoin d'être normalement distribuées?

Compte tenu de la formation de la fonction d'évaluation de l'analyse de régression, cela fonctionne bien pour les données qui ne suivent pas une distribution normale, c'est donc une sorte de sentiment plausible.

C'est la nécessité de la conversion numérique dans la variable objective.En fin de compte, si la précision s'améliore, je pense que la conversion d'échelle devrait être effectuée.