Fungsi evaluasi kinerja model regresi: karakteristik dan aplikasi

Fungsi evaluasi untuk model regresi yang dapat digunakan dengan sckit-learnBerdasarkan ini, kami akan merangkum perbedaan dan penggunaan masing-masing. yi adalah y yang sebenarnya, bilah di atas adalah nilai prediksi.

Fungsi evaluasi kinerja model regresi

Rata-rata Kesalahan Kuadrat (MSE, RMSE)

$$\text{MSE}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples} – 1} (y_i – \hat{y}_i(nilai prediksi))^2.$$

Rata-rata kesalahan kuadrat (MSE, RMSE) menyesuaikan model untuk meminimalkan rata-rata jumlah kesalahan kuadrat. RMSE mengambil akar kuadrat setelah mengkuadratkan dan menyelaraskan dimensi dengan y.

Fungsi evaluasi pilihan pertama.nilai besar(Semakin besar nilainya, semakin besar kesalahan kuadratnya.)Sensitif terhadap outlier, tetapi berguna dalam banyak situasi di mana outlier menurun secara eksponensial, seperti distribusi normal.

mean absolute error (MAE)

$$\text{MAE}(y, \hat{y}) = \frac{1}{n_{\text{sampel}}} \sum_{i=0}^{n_{\text{sampel}}- 1} \kiri|y_i – \hat{y}_i \kanan|.$$

Mean absolute error (MAE) menyesuaikan model untuk meminimalkan rata-rata jumlah kesalahan absolut.

dari MSEMetode evaluasi yang kuat yang tahan terhadap outlier.Sebaliknya, pembelajaran data dengan perbedaan nilai yang besar lemah.Namun, kecenderungan untuk menekankan nilai-nilai besar tetap ada.Untuk kumpulan data dengan dampak tinggi pada outlier.

Rata-rata kesalahan logaritmik kuadrat

$$\text{MSLE}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples} – 1} (\ log_e (1 + y_i) – \log_e (1 + \hat{y}_i) )^2.$$

Rata-rata kesalahan log kuadrat adalah rata-rata jumlah kuadrat untuk kesalahan dalam logaritma y.Diterapkan dalam tugas-tugas di mana y meningkat secara eksponensial, seperti populasi, penjualan produk tahunan, dll.Meremehkan dihukum lebih dari perkiraan yang berlebihan.

Kesalahan absolut median (MedAE)

$$R^2(y, \hat{y}) = 1 – \frac{\sum_{i=1}^{n} (y_i – \hat{y}_i)^2}{\sum_{i= 1}^{n}(y_i – \bar{y})^2}$$

Minimalkan kesalahan absolut median dari setiap prediksi.Prinsip bahwa outlier memiliki kesalahan yang lebih besar, tetapi kesalahan median sebagian besar tidak terpengaruh olehnya.

Ini lebih kuat daripada MAE, sehingga berguna untuk data dengan hanya sedikit sampel atau data di mana outlier menjadi perhatian tetapi tidak dapat dihilangkan.

Rata-rata persentase kesalahan (MPE)

{\text{MPE}}={\frac {100\%}{n}}\sum _{{t=1}}^{n}{\frac {a_{t}-f_{t}}{a_ {T}}}

Kesalahan persentase rata-rata berfungsi untuk meminimalkan rata-rata persentase (%: persen) yang menyimpang dari nilai sebenarnya. Tidak diimplementasikan di sckit-learn.Kedengarannya bagus karena setiap nilai wilayah diperlakukan sebagai kesalahan dengan bobot yang sama terlepas dari ukurannya, tetapi ada beberapa masalah praktis di mana % kesalahan menyimpang, seperti:Dari Wikipedia bahasa Inggris)

Skor R2 (koefisien determinasi)

Korelasi antara nilai sebenarnya dan prediksisesuai dengan tingkat kecocokan plot yy.Pertandingan yang sempurna memiliki skor R2 2. Karena skor RXNUMX bergantung pada dataset,Tidak dapat membandingkan R² di kumpulan data yang berbeda.

Kesimpulan

Pada dasarnyaSkor R2 dan mean squared error (MSE)Skor R2 dan mean absolute error (MAE)terbaik dikombinasikan dengan.
Jika Anda ingin menekankan nilai besar dan mempelajari outlier dengan baik,RMSE.
Jika Anda ingin mengurangi bobot outlier,MFA.

Jika target prediksi adalah nilai yang berubah secara eksponensialkesalahan logaritmik kuadrat rata-rataAda juga, tapi ini bisa diatasi dengan membuat logaritma y.

Jika Anda hanya memiliki sedikit data, atau jika outlier sangat berpengaruh dan Anda tidak ingin mengecualikannya,Kesalahan absolut median (MedAE)Menggunakan