ضرورة تحويل مقياس المتغير الموضوعي [تعلم الآلة]

2020 3 年 月 日 19

غالبًا ما يُقال أن تحويل الميزات مهم في التعلم الآلي والتعلم العميق.على سبيل المثال ، الكتب التالية.

من ناحية أخرى ، لم يكن هناك الكثير من المعلومات حول المتغير الموضوعي.لذلك ، سألخص نتيجة التحقيق فيما إذا كان يجب تحويل المتغير الموضوعي في مهمة الانحدار.

الحاجة إلى قياس متغير الهدف

بالطبع هناك حاجة في بعض الحالات.

مشهد ضروري

إحصائيًا ، إنه الوقت الذي لا يصح فيه الخطأان التاليان (المتبقي: الفرق بين القيمة المقاسة والقيمة المقدرة للانحدار).
・ العالمية
اللواط

عند حساب معادلة الانحدار بطريقة المربعات الصغرى ، يوجد خطأ عدم الانحياز والمثلية كمتطلبين أساسيين.عدم تحيز الخطأ يعني أن القيمة المتوقعة للخطأ هي 0 في أي x.في حالة خط الانحدار ، إذا تم حساب المتوسط ​​في أي مكان في x ، فهذا يعني أن الخطأ موجود على هذا الخط دون أي تحيز.
تعني المثلية الجنسية أن تباين الخطأ (التباين) يساوي أي x.

عند وضعهما معًا ، في كل مكان في x ، يعني الخطأ أن الخطأ يختلف حول خط الانحدار بالطريقة نفسها فوقه وأسفله. حقيقة أنها هي نفسها في كل مكان في x تعني أنه حتى لو تغيرت x ، فإن توزيع الخطأ لا يتغير معها ، أي أنه غير مرتبط.

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1182674801

طريقة التأكيد

يمكن رؤية هذه في المؤامرة المتبقية ومؤامرة QQ للبقايا.

ملف: مسافات إيقاف السيارة R 1920 + linear.svg
مثال مؤامرة المتبقية

الحل البديل ونوع تحويل المقياس

بمعنى آخر ، إذا لم يتم استيفاء الشروط المسبقة المذكورة أعلاه من خلال تحليل المخلفات (إذا كان هناك اتجاه ما في الطريقة التي يجب أن تكون بها البقايا) ، يمكن لنموذج الانحدار التعبير بشكل أفضل عن العلاقة بين x و y من خلال المعالجة الرياضية.أحد الحلول هو تحويل المتغير الهدف.

على سبيل المثال ، عندما يكون للمتغير الهدف قيمة تزيد أضعافًا مضاعفة ، يزداد الخطأ كلما أصبح نطاق التنبؤ أكبر.للتعبير عن مثل هذا النموذج غير الخطي كنموذج خطي ، اضبط التحويل اللوغاريتمي (السجل) على y.

أهمها هو التحول اللوغاريتمي ، لكن هناك البعض الآخر

  • √ (الجذر) التحول
  • تحويل Boxcox
  • التحويل المتبادل

وما إلى ذلك وهلم جرا.

ومع ذلك ، هناك حلول أخرى ، مثل زيادة المتغيرات وإضافة شروط من الدرجة XNUMX أو أعلى وتغيير وظيفة التقييم.

لا يجب توزيع المتغير الهدف نفسه بشكل طبيعي

إنها المخلفات التي يجب توزيعها بشكل طبيعي.إنه ليس متغيرًا توضيحيًا أو متغيرًا موضوعيًا.لا تفهم هذا خطأ.السبب في ضرورة توزيع القيم المتبقية بشكل طبيعي هو أنها تتوافق مع مقام إحصاء الاختبار لاختبار F لتحليل التباين. هذا لأن توزيع F يعتمد على فرضية أن كلا من المقام والبسط يتم توزيعهما بشكل طبيعي.

هل المتغيرات التوضيحية والمتغيرات الموضوعية لتحليل الانحدار لا يلزم توزيعها بشكل طبيعي؟

بالنظر إلى تشكيل وظيفة التقييم لتحليل الانحدار ، فإنها تعمل بشكل جيد للبيانات التي لا تتبع التوزيع الطبيعي ، لذلك فهي نوع من الشعور المعقول.

ما سبق هو ضرورة التحويل العددي في المتغير الموضوعي.في النهاية ، إذا تحسنت الدقة ، أشعر أن تحويل الميزان يجب أن يتم.