Funzione di valutazione delle prestazioni del modello di regressione: rispettivamente caratteristiche e destinazioni dell'applicazione

Funzione di valutazione del modello di regressione utilizzabile con sckit-learnSulla base, riassumerò le differenze e l'utilizzo di ciascuno. yi è la vera y e la barra sopra è il valore previsto.

Funzione di valutazione delle prestazioni del modello di regressione

Errore quadratico medio (MSE, RMSE)

$$ \ text {MSE} (y, \ hat {y}) = \ frac {1} {n_ \ text {samples}} \ sum_ {i = 0} ^ {n_ \ text {samples} - 1} (y_i - \ Hat {y} _i (valore predetto)) ^ 2. $$

L'errore quadratico medio (MSE: errore quadratico medio, RMSE: errore quadratico medio radicale) regola il modello per ridurre al minimo la somma media degli errori al quadrato. RMSE prende la radice quadrata dopo il quadrato e allinea la dimensione con y.

Funzione di valutazione di prima scelta.Concentrati su grandi valori(Maggiore è il valore, maggiore è l'errore quadrato)Sensibile ai valori anomali, ma utile in molte situazioni in cui i valori anomali diminuiscono in modo esponenziale, come nella distribuzione normale.

Errore assoluto medio (MAE)

$$ \ text {MAE} (y, \ hat {y}) = \ frac {1} {n_ {\ text {samples}}} \ sum_ {i = 0} ^ {n_ {\ text {samples}} - 1} \ left | y_i - \ hat {y} _i \ right |. $$

L'errore assoluto medio (MAE) regola il modello per ridurre al minimo la somma media dei valori assoluti di errore.

Da MSEMetodo di valutazione robusto resistente ai valori anomali.Al contrario, l'apprendimento di dati con valori molto diversi è debole.Tuttavia, permane la tendenza a enfatizzare i grandi valori.Per i set di dati che hanno un grande impatto sui valori anomali.

Errore logaritmico quadrato medio

$$ \ text {MSLE} (y, \ hat {y}) = \ frac {1} {n_ \ text {samples}} \ sum_ {i = 0} ^ {n_ \ text {samples} - 1} (\ log_e (1 + y_i) - \ log_e (1 + \ hat {y} _i)) ^ 2. $$

L'errore logaritmico quadratico medio è la media della somma dei quadrati per l'errore y logaritmico.Viene applicato alle attività in cui y aumenta in modo esponenziale, come la popolazione e le vendite annuali di prodotti.C'è una pena maggiore per la sottovalutazione che per la sopravvalutazione.

Errore assoluto mediano (MedAE)

$$ R ^ 2 (y, \ hat {y}) = 1 - \ frac {\ sum_ {i = 1} ^ {n} (y_i - \ hat {y} _i) ^ 2} {\ sum_ {i = 1} ^ {n} (y_i - \ bar {y}) ^ 2} $$

Ridurre al minimo la mediana dell'errore assoluto di ciascun valore previsto.Il principio è che più sono i valori anomali, maggiore è l'errore, ma l'errore mediano ne è difficilmente influenzato.

Poiché è più robusto di MAE, è utile per i dati con solo un piccolo numero di campioni e dati per i quali i valori anomali sono ansiosi ma non possono essere esclusi.

Errore percentuale medio (MPE)

{\ text {MPE}} = {\ frac {100 \%} {n}} \ sum _ {{t = 1}} ^ {n} {\ frac {a_ {t} -f_ {t}} {a_ {t}}}

L'errore percentuale medio funziona per ridurre al minimo la percentuale media (%: percentuale) che devia dal valore misurato. Non implementato in sckit-learn.Sembra buono perché i valori in qualsiasi regione sono trattati come errori dello stesso peso indipendentemente dalla loro dimensione, ma ci sono alcuni problemi nell'uso pratico (si verifica un errore quando y è 0 o un valore molto piccolo). Quindi% errore diverge, ecc.:Da wikipedia inglese)

Punteggio R2 (coefficiente di determinazione)

Correlazione tra valori veri e predettiIndica, che corrisponde all'adattamento del grafico yy.Se c'è una corrispondenza esatta, il punteggio R2 sarà 2. Perché il punteggio RXNUMX dipende dal set di datiR² non può essere confrontato tra diversi set di dati.

ま と め

fondamentalmentePunteggio R2 ed errore quadratico medio (MSE)Punteggio R2 e errore medio assoluto (MAE)È il migliore da usare insieme.
Se vuoi enfatizzare valori elevati e imparare bene i valori anomaliRMSE.
Se vuoi ridurre il peso dei valori anomali,MAE.

Se l'obiettivo della previsione è un valore che cambia in modo esponenzialeErrore logaritmico quadrato medioC'è, ma questo può anche essere risolto logaritmizzando y.

Se disponi di una piccola quantità di dati o se non desideri escludere valori anomali che hanno un grande impatto,Errore assoluto mediano (MedAE)Si usa.