Kebutuhan untuk menskalakan variabel target [pembelajaran mesin]

2020 3 年 月 日 19

Sering dikatakan bahwa transformasi fitur penting dalam pembelajaran mesin dan pembelajaran mendalam.Contohnya buku-buku berikut ini.

Di sisi lain, tidak banyak informasi tentang variabel target.Oleh karena itu, saya akan meringkas hasil penyelidikan apakah variabel tujuan harus diubah dalam tugas regresi.

Kebutuhan untuk menskalakan variabel target

Tentu saja, terkadang itu perlu.

bila diperlukan

Secara statistik dikatakan bahwa error (residual error: selisih antara nilai aktual dan estimasi regresi) tidak memenuhi dua kondisi berikut.
·Keuniversalan
・ Dispersi yang sama

Kesalahan yang tidak memihak dan homoskedastisitas merupakan prasyarat untuk menemukan persamaan regresi menggunakan metode kuadrat terkecil.Kesalahan tidak bias berarti bahwa nilai kesalahan yang diharapkan adalah 0 untuk setiap x.Untuk garis regresi, ini berarti bahwa di manapun dalam x, jika Anda rata-ratakan, kesalahan akan terletak pada garis tersebut tanpa bias.
Varians homogen berarti bahwa variasi (varians) dari kesalahan adalah sama pada setiap x.

Secara bersama-sama, ini berarti bahwa kesalahan bervariasi sama di atas dan di bawah garis regresi, dimanapun x berada. Menjadi sama di mana-mana di x berarti bahwa ketika x berubah, distribusi kesalahan tidak berubah dengannya, yaitu tidak berkorelasi.

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1182674801

Cara memeriksa

Ini dapat dilihat pada plot residu atau plot QQ dari residu.

File:R-jarak berhenti mobil 1920+linear.svg
Contoh petak residu

Mengatasi metode dan jenis skala konversi

Dengan kata lain, jika residual dianalisis dan asumsi di atas tidak berlaku (jika ada kecenderungan residual), model regresi mungkin dapat mengungkapkan hubungan antara x dan y dengan lebih baik melalui perlakuan matematis. dianggap.Salah satu penanggulangannya adalah dengan mengubah variabel tujuan.

Misalnya, ketika variabel tujuan memiliki nilai yang tumbuh secara eksponensial, semakin besar wilayah prediksi, semakin besar kesalahannya.Biarkan y menjadi transformasi logaritmik (log) untuk mewakili model nonlinier tersebut dengan model linier.

Yang paling utama adalah transformasi logaritmik, tetapi ada juga yang lain

  • √ (akar) transformasi
  • konversi Boxcox
  • transformasi timbal balik

Dan seterusnya.

Namun, ada cara lain untuk mengatasinya, seperti menambah jumlah variabel, menambahkan lebih dari dua suku, dan mengubah fungsi evaluasi.

Variabel target itu sendiri tidak perlu didistribusikan secara normal

Ini adalah residu yang perlu didistribusikan secara normal.Ini bukan variabel penjelas atau variabel objektif.Jangan salah tentang ini.Alasan mengapa residual perlu terdistribusi secara normal adalah karena mereka adalah penyebut statistik uji untuk uji-F di ANOVA. Ini karena distribusi F mengasumsikan bahwa penyebut dan pembilangnya berdistribusi normal.

Bolehkah variabel penjelas dan variabel objektif dalam analisis regresi tidak terdistribusi secara normal?

Mempertimbangkan asal usul fungsi evaluasi analisis regresi, tampaknya agak masuk akal karena berfungsi untuk menyesuaikan data yang tidak mengikuti distribusi normal.

Di atas adalah perlunya konversi numerik dalam variabel tujuan.Pada akhirnya, jika akurasinya meningkat, saya merasa harus menskalakannya.