Funktion zur Bewertung der Leistung des Regressionsmodells: Funktionen bzw. Anwendungsziele

Bewertungsfunktion des Regressionsmodells, die mit sckit-learn verwendet werden kannBasierend auf werde ich die Unterschiede und die Verwendung von jedem zusammenfassen. yi ist das wahre y und der Balken darüber ist der vorhergesagte Wert.

Funktion zur Bewertung der Leistung des Regressionsmodells

Mittlerer quadratischer Fehler (MSE, RMSE)

$$ \ text {MSE} (y, \ hat {y}) = \ frac {1} {n_ \ text {samples}} \ sum_ {i = 0} ^ {n_ \ text {samples} - 1} (y_i - \ Hat {y} _i (vorhergesagter Wert)) ^ 2. $$

Mittlerer quadratischer Fehler (MSE: mittlerer quadratischer Fehler, RMSE: mittlerer quadratischer Fehler) Passt das Modell an, um die durchschnittliche Summe der quadratischen Fehler zu minimieren. RMSE nimmt die Quadratwurzel nach dem Quadrat und richtet die Dimension mit y aus.

Bewertungsfunktion erster Wahl.Konzentrieren Sie sich auf große Werte(Je größer der Wert, desto größer der quadratische Fehler)Empfindlich gegenüber Ausreißern, aber nützlich in vielen Situationen, in denen Ausreißer exponentiell abnehmen, z. B. in der Normalverteilung.

Mittlerer absoluter Fehler (MAE)

$$ \ text {MAE} (y, \ hat {y}) = \ frac {1} {n_ {\ text {samples}}} \ sum_ {i = 0} ^ {n_ {\ text {samples}} - 1} \ left | y_i - \ hat {y} _i \ right |. $$

Der mittlere absolute Fehler (MAE) passt das Modell an, um die durchschnittliche Summe der absoluten Fehlerwerte zu minimieren.

Von MSERobuste Bewertungsmethode, die gegen Ausreißer resistent ist.Im Gegenteil, das Lernen von Daten mit sehr unterschiedlichen Werten ist schwach.Es besteht jedoch weiterhin die Tendenz, große Werte zu betonen.Für Datensätze, die einen großen Einfluss auf Ausreißer haben.

Mittlerer quadratischer logarithmischer Fehler

$$ \ text {MSLE} (y, \ hat {y}) = \ frac {1} {n_ \ text {samples}} \ sum_ {i = 0} ^ {n_ \ text {samples} - 1} (\ log_e (1 + y_i) - \ log_e (1 + \ hat {y} _i)) ^ 2. $$

Der mittlere quadratische logarithmische Fehler ist der Durchschnitt der Summe der Quadrate für den logarithmischen y-Fehler.Es wird auf Aufgaben angewendet, bei denen y exponentiell zunimmt, z. B. Bevölkerung und jährlicher Produktumsatz.Für die Unterschätzung gibt es eine größere Strafe als für die Überschätzung.

Medianer absoluter Fehler (MedAE)

$$ R ^ 2 (y, \ hat {y}) = 1 - \ frac {\ sum_ {i = 1} ^ {n} (y_i - \ hat {y} _i) ^ 2} {\ sum_ {i = 1} ^ {n} (y_i - \ bar {y}) ^ 2} $$

Minimieren Sie den Median des absoluten Fehlers jedes vorhergesagten Werts.Das Prinzip ist, dass der Fehler umso größer ist, je mehr Ausreißer vorhanden sind, der Medianfehler jedoch kaum davon betroffen ist.

Da es robuster als MAE ist, ist es nützlich für Daten mit nur einer kleinen Anzahl von Stichproben oder Daten, für die Ausreißer Angst haben, aber nicht ausgeschlossen werden können.

Mittlerer prozentualer Fehler (MPE)

{\ text {MPE}} = {\ frac {100 \%} {n}} \ sum _ {{t = 1}} ^ {n} {\ frac {a_ {t} -f_ {t}} {a_ {t}}}

Der durchschnittliche prozentuale Fehler minimiert den durchschnittlichen Prozentsatz (%: Prozent), der vom gemessenen Wert abweicht. Nicht in sckit-learn implementiert.Es sieht gut aus, da Werte in jeder Region unabhängig von ihrer Größe als Fehler mit demselben Gewicht behandelt werden. In der Praxis gibt es jedoch einige Probleme (ein Fehler tritt auf, wenn y 0 ist oder ein sehr kleiner Wert). Dann% error divergiert usw.:Aus der englischen Wikipedia)

R2-Punktzahl (Bestimmungskoeffizient)

Korrelation zwischen wahren und vorhergesagten WertenGibt an, was der Anpassung des yy-Diagramms entspricht.Wenn es eine genaue Übereinstimmung gibt, beträgt die R2-Punktzahl 2. Weil die RXNUMX-Punktzahl vom Datensatz abhängtR² kann nicht zwischen verschiedenen Datensätzen verglichen werden.

ま と め

GrundsätzlichR2-Punktzahl und mittlerer quadratischer Fehler (MSE)R2-Punktzahl und mittlerer absoluter Fehler (MAE)Ist das beste zusammen zu verwenden.
Wenn Sie große Werte hervorheben und Ausreißer gut lernen möchten,RMSE.
Wenn Sie das Gewicht von Ausreißern reduzieren möchten,MAE.

Wenn das Vorhersageziel ein Wert ist, der sich exponentiell ändertMittlerer quadratischer logarithmischer FehlerEs gibt, aber dies kann auch durch Logarithmisierung von y behandelt werden.

Wenn Sie über eine kleine Datenmenge verfügen oder Ausreißer mit großen Auswirkungen nicht ausschließen möchten,Medianer absoluter Fehler (MedAE)Wird eingesetzt.