ฟังก์ชันการประเมินประสิทธิภาพของแบบจำลองการถดถอย: คุณลักษณะและการประยุกต์ใช้

2020 3 年月日 21

ฟังก์ชันการประเมินสำหรับโมเดลการถดถอยที่สามารถใช้กับ sckit-learnจากนี้เราจะสรุปความแตกต่างและการใช้งานของแต่ละ yi คือค่า y จริง แถบด้านบนคือค่าที่ทำนายไว้

ฟังก์ชันการประเมินประสิทธิภาพของแบบจำลองการถดถอย

หมายถึงข้อผิดพลาดกำลังสอง (MSE, RMSE)

$$\text{MSE}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples} – 1} (y_i – \hat{y}_i(ค่าที่คาดการณ์))^2.$$

ข้อผิดพลาดกำลังสองเฉลี่ย (MSE, RMSE) ปรับโมเดลเพื่อลดค่าเฉลี่ยของผลรวมของข้อผิดพลาดกำลังสอง RMSE รับค่ารากที่สองหลังจากการยกกำลังสองและจัดแนวมิติด้วย y

ฟังก์ชั่นการประเมินตัวเลือกแรกมูลค่ามาก(ค่ายิ่งมาก ข้อผิดพลาดกำลังสองยิ่งมาก)ไวต่อค่าผิดปกติ แต่มีประโยชน์ในหลาย ๆ สถานการณ์ที่ค่าผิดปกติลดลงแบบทวีคูณ เช่น การแจกแจงแบบปกติ

หมายถึงข้อผิดพลาดสัมบูรณ์ (MAE)

$$\text{MAE}(y, \hat{y}) = \frac{1}{n_{\text{samples}}} \sum_{i=0}^{n_{\text{samples}}- 1} \left| y_i – \หมวก{y}_i \right|.$$

ข้อผิดพลาดสัมบูรณ์เฉลี่ย (MAE) ปรับโมเดลเพื่อลดค่าเฉลี่ยของผลรวมสัมบูรณ์ของข้อผิดพลาด

จาก มศววิธีการประเมินที่มีประสิทธิภาพซึ่งทนทานต่อค่าผิดปกติในทางกลับกันการเรียนรู้ข้อมูลที่มีค่าแตกต่างกันมากนั้นอ่อนแออย่างไรก็ตามแนวโน้มที่จะเน้นค่าขนาดใหญ่ยังคงอยู่สำหรับชุดข้อมูลที่มีผลกระทบสูงต่อค่าผิดปกติ

หมายถึงข้อผิดพลาดลอการิทึมกำลังสอง

$$\text{MSLE}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples} – 1} (\ log_e (1 + y_i) – \log_e (1 + \hat{y}_i) )^2.$$

ค่าเฉลี่ยของข้อผิดพลาดล็อกกำลังสองคือค่าเฉลี่ยของผลรวมของกำลังสองสำหรับข้อผิดพลาดในลอการิทึม yใช้ในงานที่ y เพิ่มขึ้นแบบทวีคูณ เช่น จำนวนประชากร ยอดขายผลิตภัณฑ์ประจำปี เป็นต้นการประเมินค่าต่ำเกินไปจะถูกลงโทษมากกว่าการประเมินค่าที่สูงเกินไป

ข้อผิดพลาดสัมบูรณ์มัธยฐาน (MedAE)

$$R^2(y, \hat{y}) = 1 – \frac{\sum_{i=1}^{n} (y_i – \hat{y}_i)^2}{\sum_{i= 1}^{n}(y_i – \bar{y})^2}$$

ลดค่ามัธยฐานข้อผิดพลาดสัมบูรณ์ของการคาดคะเนแต่ละครั้งให้น้อยที่สุดหลักการที่ว่าค่าผิดปกติมีข้อผิดพลาดมากกว่า แต่ข้อผิดพลาดค่ามัธยฐานส่วนใหญ่ไม่ได้รับผลกระทบจากค่าเหล่านี้

มีประสิทธิภาพมากกว่า MAE ดังนั้นจึงมีประโยชน์สำหรับข้อมูลที่มีตัวอย่างเพียงไม่กี่รายการหรือข้อมูลที่ค่าผิดปกติเป็นข้อกังวลแต่ไม่สามารถลบออกได้

เปอร์เซ็นต์ข้อผิดพลาดเฉลี่ย (MPE)

{\text{MPE}}={\frac {100\%}{n}}\sum _{{t=1}}^{n}{\frac {a_{t}-f_{t}}{a_ {t}}}

ข้อผิดพลาดเปอร์เซ็นต์เฉลี่ยทำงานเพื่อลดค่าเฉลี่ยของเปอร์เซ็นต์ (%: เปอร์เซ็นต์) ที่เบี่ยงเบนจากค่าจริง ไม่ได้นำไปใช้ใน sckit-learnสิ่งนี้ฟังดูดีเพราะค่าขอบเขตใด ๆ จะถือว่าเป็นข้อผิดพลาดที่มีน้ำหนักเท่ากันโดยไม่คำนึงถึงขนาด แต่มีปัญหาในทางปฏิบัติบางประการ โดยที่ % ข้อผิดพลาดจะแตกต่างกัน เช่น:จากวิกิพีเดียภาษาอังกฤษ)

คะแนน R2 (ค่าสัมประสิทธิ์ของการพิจารณา)

ความสัมพันธ์ระหว่างค่าจริงและค่าที่ทำนายสอดคล้องกับระดับความพอดีของพล็อต yyการจับคู่ที่สมบูรณ์แบบมีคะแนน R2 เท่ากับ 2 เนื่องจากคะแนน RXNUMX ขึ้นอยู่กับชุดข้อมูลไม่สามารถเปรียบเทียบ R² ในชุดข้อมูลต่างๆ

まとめ

เป็นพื้นคะแนน R2 และค่าเฉลี่ยความผิดพลาดกำลังสอง (MSE)か คะแนน R2 และค่าเฉลี่ยความคลาดเคลื่อนสัมบูรณ์ (MAE)รวมกันได้ดีที่สุดด้วย.
หากคุณต้องการเน้นค่าขนาดใหญ่และเรียนรู้ค่าผิดปกติให้ดีRMSE.
หากคุณต้องการลดน้ำหนักของค่าผิดปกติMAE.

หากเป้าหมายการคาดการณ์เป็นค่าที่เปลี่ยนแปลงแบบทวีคูณหมายถึงข้อผิดพลาดลอการิทึมกำลังสองนอกจากนี้ยังมี แต่สิ่งนี้สามารถจัดการได้โดยการลอการิทึม y

หากคุณมีข้อมูลเพียงเล็กน้อย หรือค่าผิดปกติมีอิทธิพลมาก และคุณไม่ต้องการแยกข้อมูลเหล่านี้ออกข้อผิดพลาดสัมบูรณ์มัธยฐาน (MedAE)ใช้

การเรียนรู้ของเครื่องสถิติ,การถดถอย,ฟังก์ชั่นการประเมินผล