Função de avaliação de desempenho do modelo de regressão: recursos e destinos de aplicativos, respectivamente

Função de avaliação do modelo de regressão que pode ser usado com sckit-learnCom base em, resumirei as diferenças e o uso de cada um. yi é o y verdadeiro, e a barra acima é o valor previsto.

Função de avaliação de desempenho do modelo de regressão

Erro quadrático médio (MSE, RMSE)

$$ \ text {MSE} (y, \ hat {y}) = \ frac {1} {n_ \ text {samples}} \ sum_ {i = 0} ^ {n_ \ text {samples} - 1} (y_i - \ Hat {y} _i (valor previsto)) ^ 2. $$

O erro quadrático médio (MSE: erro quadrático médio, RMSE: erro quadrático médio da raiz) ajusta o modelo para minimizar a soma média dos erros quadráticos. RMSE obtém a raiz quadrada após quadrado e alinha a dimensão com y.

Função de avaliação de primeira escolha.Foco em grandes valores(Quanto maior o valor, maior o erro quadrado)Sensível a outliers, mas útil em muitas situações em que os outliers diminuem exponencialmente, como na distribuição normal.

Erro Médio Absoluto (MAE)

$$ \ text {MAE} (y, \ hat {y}) = \ frac {1} {n_ {\ text {samples}}} \ sum_ {i = 0} ^ {n_ {\ text {samples}} - 1} \ left | y_i - \ hat {y} _i \ right |. $$

O erro médio absoluto (MAE) ajusta o modelo para minimizar a soma média dos valores absolutos do erro.

Da MSEMétodo de avaliação robusto e resistente a outliers.Pelo contrário, aprender dados com valores muito diferentes é fraco.No entanto, ainda existe uma tendência de enfatizar valores grandes.Para conjuntos de dados que têm um grande impacto em outliers.

Erro logarítmico médio quadrático

$$ \ text {MSLE} (y, \ hat {y}) = \ frac {1} {n_ \ text {samples}} \ sum_ {i = 0} ^ {n_ \ text {samples} - 1} (\ log_e (1 + y_i) - \ log_e (1 + \ hat {y} _i)) ^ 2. $$

O erro médio quadrático logarítmico é a média da soma dos quadrados para o erro logarítmico y.É aplicado a tarefas em que y aumenta exponencialmente, como população e vendas anuais de produtos.Existe uma penalidade maior para a subestimação do que para a superestimação.

Erro absoluto mediano (MedAE)

$$ R ^ 2 (y, \ hat {y}) = 1 - \ frac {\ sum_ {i = 1} ^ {n} (y_i - \ hat {y} _i) ^ 2} {\ sum_ {i = 1} ^ {n} (y_i - \ bar {y}) ^ 2} $$

Minimize a mediana do erro absoluto de cada valor previsto.O princípio é que quanto mais outliers, maior é o erro, mas o erro mediano dificilmente é afetado por ele.

Por ser mais robusto do que o MAE, é útil para dados com apenas um pequeno número de amostras e dados para os quais os outliers estão ansiosos, mas não podem ser excluídos.

Erro percentual médio (MPE)

{\ text {MPE}} = {\ frac {100 \%} {n}} \ sum _ {{t = 1}} ^ {n} {\ frac {a_ {t} -f_ {t}} {a_ {t}}}

O erro percentual médio funciona para minimizar a porcentagem média (%: porcentagem) que se desvia do valor medido. Não implementado no sckit-learn.Parece bom porque os valores em qualquer região são tratados como erros do mesmo peso, independentemente de seu tamanho, mas existem alguns problemas no uso prático (ocorre um erro quando y é 0 ou um valor muito pequeno). Então,% de erro diverge, etc.:Da wikipedia em inglês)

Pontuação R2 (coeficiente de determinação)

Correlação entre valores verdadeiros e preditosIndica, o que corresponde ao ajuste do gráfico yy.Se houver uma correspondência exata, a pontuação do R2 será 2. Porque a pontuação de RXNUMX depende do conjunto de dadosR² não pode ser comparado entre conjuntos de dados diferentes.

ま と め

BasicamentePontuação de R2 e erro quadrático médio (MSE)Pontuação de R2 e erro absoluto médio (MAE)É o melhor para usarmos juntos.
Se você quiser enfatizar grandes valores e aprender bem os outliers,REQM.
Se você quiser reduzir o peso de outliers,MAE.

Se a previsão de destino for um valor que muda exponencialmenteErro logarítmico médio quadráticoExiste, mas isso também pode ser resolvido logaritmizando y.

Se você tiver uma pequena quantidade de dados, ou se não quiser excluir outliers que têm um grande impacto,Erro absoluto mediano (MedAE)É usado.