وظيفة تقييم أداء نموذج الانحدار: الميزات ووجهات التطبيق ، على التوالي

وظيفة تقييم نموذج الانحدار التي يمكن استخدامها مع sckit-Learnبناءً على ذلك ، سألخص الاختلافات والاستخدام لكل منها. yi هو y الحقيقي ، والشريط فوقه هو القيمة المتوقعة.

وظيفة تقييم أداء نموذج الانحدار

متوسط ​​الخطأ التربيعي (MSE ، RMSE)

$$ \ text {MSE} (y، \ hat {y}) = \ frac {1} {n_ \ text {sample}} \ sum_ {i = 0} ^ {n_ \ text {sample} - 1} (y_i - \ Hat {y} _i (القيمة المتوقعة)) ^ 2. $$

متوسط ​​الخطأ التربيعي (MSE: متوسط ​​الخطأ التربيعي ، RMSE: الجذر يعني الخطأ التربيعي) يضبط النموذج لتقليل متوسط ​​مجموع الأخطاء التربيعية. تأخذ RMSE الجذر التربيعي بعد التربيع وتقوم بمحاذاة البعد مع y.

وظيفة تقييم الاختيار الأول.ركز على القيم الكبيرة(كلما كانت القيمة أكبر ، زاد الخطأ التربيعي)حساسة للقيم المتطرفة ، ولكنها مفيدة في العديد من المواقف التي تنخفض فيها القيم المتطرفة بشكل كبير ، كما هو الحال في التوزيع الطبيعي.

متوسط ​​الخطأ المطلق (MAE)

$$ \ text {MAE} (y، \ hat {y}) = \ frac {1} {n_ {\ text {sample}}} \ sum_ {i = 0} ^ {n_ {\ text {sample}} - 1} \ left | y_i - \ hat {y} _i \ right |. $$

متوسط ​​الخطأ المطلق (MAE) يضبط النموذج لتقليل متوسط ​​مجموع القيم المطلقة للخطأ.

من MSEطريقة تقييم قوية تقاوم القيم المتطرفة.على العكس من ذلك ، فإن تعلم البيانات ذات القيم المختلفة بشكل كبير ضعيف.ومع ذلك ، لا يزال هناك اتجاه للتأكيد على القيم الكبيرة.لمجموعات البيانات التي لها تأثير كبير على القيم المتطرفة.

متوسط ​​الخطأ اللوغاريتمي التربيعي

$$ \ text {MSLE} (y، \ hat {y}) = \ frac {1} {n_ \ text {sample}} \ sum_ {i = 0} ^ {n_ \ text {sample} - 1} (\ log_e (1 + y_i) - \ log_e (1 + \ hat {y} _i)) ^ 2. $$

متوسط ​​الخطأ اللوغاريتمي للمربع هو متوسط ​​مجموع المربعات لخطأ y اللوغاريتمي.يتم تطبيقه على المهام التي يزيد فيها y بشكل كبير ، مثل عدد السكان ومبيعات المنتجات السنوية.هناك عقوبة للاستخفاف أكبر من المبالغة في التقدير.

متوسط ​​الخطأ المطلق (MedAE)

$$ R ^ 2 (y، \ hat {y}) = 1 - \ frac {\ sum_ {i = 1} ^ {n} (y_i - \ hat {y} _i) ^ 2} {\ sum_ {i = 1} ^ {n} (y_i - \ bar {y}) ^ 2} $$

قلل متوسط ​​الخطأ المطلق لكل قيمة متوقعة.المبدأ هو أنه كلما زاد عدد القيم المتطرفة ، زاد حجم الخطأ ، لكن متوسط ​​الخطأ بالكاد يتأثر به.

نظرًا لأنه أقوى من MAE ، فهو مفيد للبيانات التي تحتوي على عدد صغير فقط من العينات والبيانات التي تكون القيم المتطرفة قلقًا بشأنها ولكن لا يمكن استبعادها.

متوسط ​​نسبة الخطأ (MPE)

{\ text {MPE}} = {\ frac {100 \٪} {n}} \ sum _ {{t = 1}} ^ {n} {\ frac {a_ {t} -f_ {t}} {a_ {t}}}

يعمل متوسط ​​نسبة الخطأ على تقليل متوسط ​​النسبة المئوية (٪:٪) التي تنحرف عن القيمة المقاسة. لم يتم التنفيذ في sckit-Learn.يبدو جيدًا لأنه يتم التعامل مع القيم في أي منطقة على أنها أخطاء من نفس الوزن بغض النظر عن حجمها ، ولكن هناك بعض المشكلات في الاستخدام العملي (يحدث خطأ عندما تكون y 0 ، أو قيمة صغيرة جدًا). ​​ثم٪ خطأ يتباعد ، وما إلى ذلك:من ويكيبيديا الإنجليزية)

درجة R2 (معامل التحديد)

الارتباط بين القيم الحقيقية والمتوقعةيشير ، الذي يتوافق مع ملاءمة حبكة yy.إذا كان هناك تطابق تام ، فستكون نتيجة R2 2. لأن درجة RXNUMX تعتمد على مجموعة البياناتلا يمكن مقارنة R² بين مجموعات البيانات المختلفة.

ま と め

أساسيادرجة R2 ومتوسط ​​الخطأ التربيعي (MSE)درجة R2 وتعني الخطأ المطلق (MAE)هو الأفضل لاستخدامهما معًا.
إذا كنت تريد التأكيد على القيم الكبيرة وتعلم القيم المتطرفة جيدًا ،RMSE.
إذا كنت ترغب في تقليل وزن القيم المتطرفة ،MAE.

إذا كان هدف التوقع قيمة تتغير بشكل أسييعني مربع الخطأ اللوغاريتمييوجد ، ولكن يمكن أيضًا التعامل مع هذا عن طريق تحويل y لوغاريتمي.

إذا كان لديك قدر ضئيل من البيانات ، أو إذا كنت لا ترغب في استبعاد القيم المتطرفة التي لها تأثير كبير ،متوسط ​​الخطأ المطلق (MedAE)يستخدم.