ความจำเป็นในการปรับขนาดตัวแปรเป้าหมาย [แมชชีนเลิร์นนิง]

2020 3 年月日 19

มักเป็นที่ถกเถียงกันอยู่ว่าการเปลี่ยนแปลงคุณลักษณะมีความสำคัญในแมชชีนเลิร์นนิงและการเรียนรู้เชิงลึกตัวอย่างเช่นหนังสือต่อไปนี้

ในทางกลับกัน ไม่มีข้อมูลเกี่ยวกับตัวแปรเป้าหมายมากนักดังนั้นผมจะสรุปผลการตรวจสอบว่าควรเปลี่ยนตัวแปรวัตถุประสงค์ในงานการถดถอยหรือไม่

จำเป็นต้องปรับขนาดตัวแปรเป้าหมาย

แน่นอนว่าบางครั้งก็จำเป็น

เมื่อมีความจำเป็น

ในทางสถิติ มีการกล่าวว่าข้อผิดพลาด (ส่วนที่เหลือ: ความแตกต่างระหว่างค่าจริงและค่าประมาณการถดถอย) ไม่เป็นไปตามเงื่อนไขสองข้อต่อไปนี้
・ความเป็นสากล
・การกระจายที่เท่ากัน

ความไม่เอนเอียงและความเป็นเอกเทศของข้อผิดพลาดเป็นสิ่งที่จำเป็นสำหรับการค้นหาสมการถดถอยโดยใช้วิธีกำลังสองน้อยที่สุดข้อผิดพลาดที่ไม่เอนเอียงหมายความว่าค่าที่คาดหวังของข้อผิดพลาดคือ 0 สำหรับ x ใดๆสำหรับเส้นถดถอย หมายความว่าที่ใดก็ได้ใน x ถ้าคุณหาค่าเฉลี่ย ข้อผิดพลาดจะอยู่ในเส้นนั้นโดยไม่มีการเอนเอียง
ความแปรปรวนแบบเอกพันธ์หมายความว่าความแปรปรวน (ความแปรปรวน) ของข้อผิดพลาดจะเหมือนกันที่ x ใดๆ

เมื่อนำมารวมกัน หมายความว่าข้อผิดพลาดจะแตกต่างกันไปตามด้านบนและด้านล่างของเส้นถดถอยเท่าๆ กัน ไม่ว่า x จะอยู่ที่ใด การเหมือนกันทุกที่ใน x หมายความว่าเมื่อ x เปลี่ยนแปลง การกระจายข้อผิดพลาดจะไม่เปลี่ยนแปลงตามไปด้วย กล่าวคือ มันไม่สัมพันธ์กัน

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1182674801

วิธีการยืนยัน

สิ่งเหล่านี้สามารถเห็นได้ในแผนภาพที่เหลือหรือแผนภาพ QQ ของสิ่งตกค้าง

ไฟล์:R-car ระยะหยุดรถ 1920+linear.svg
ตัวอย่างของแปลงสารตกค้าง

วิธีการรับมือและประเภทของการแปลงมาตราส่วน

กล่าวอีกนัยหนึ่ง ถ้าเศษเหลือได้รับการวิเคราะห์และสมมติฐานข้างต้นไม่ถือ (หากมีแนวโน้มไปในทางที่เศษเหลือ) แบบจำลองการถดถอยสามารถใช้ทางคณิตศาสตร์เพื่อแสดงความสัมพันธ์ระหว่าง x และ y ได้ดียิ่งขึ้น ถือว่า .หนึ่งในมาตรการรับมือคือการแปลงตัวแปรวัตถุประสงค์

ตัวอย่างเช่น เมื่อตัวแปรวัตถุประสงค์มีค่าเพิ่มขึ้นแบบทวีคูณ ยิ่งขอบเขตการคาดคะเนมีขนาดใหญ่เท่าใด ข้อผิดพลาดก็จะยิ่งมากขึ้นเท่านั้นให้ y เป็นการแปลงลอการิทึม (ล็อก) เพื่อแทนโมเดลแบบไม่เชิงเส้นด้วยโมเดลเชิงเส้น

สิ่งที่สำคัญที่สุดคือการแปลงลอการิทึม แต่ก็มีอย่างอื่นด้วย

  • √ (ราก) การเปลี่ยนแปลง
  • การแปลง Boxcox
  • การแปลงซึ่งกันและกัน

และอื่น ๆ

อย่างไรก็ตาม มีวิธีอื่นในการจัดการกับมัน เช่น เพิ่มจำนวนตัวแปร เพิ่มมากกว่าสองเทอม และเปลี่ยนฟังก์ชันการประเมิน

ตัวแปรเป้าหมายเองไม่จำเป็นต้องกระจายตามปกติ

เป็นของเหลือที่ต้องกระจายตามปกติไม่ใช่ตัวแปรอธิบายหรือตัวแปรวัตถุประสงค์อย่าพลาดเรื่องนี้เหตุผลที่จำเป็นต้องกระจายส่วนที่เหลือตามปกติเนื่องจากเป็นตัวหารของสถิติการทดสอบสำหรับการทดสอบ F ใน ANOVA ทั้งนี้เนื่องจากการแจกแจงแบบ F จะถือว่าทั้งตัวส่วนและตัวเศษมีการแจกแจงตามปกติ

เป็นไปได้ไหมที่ตัวแปรอธิบายและตัวแปรวัตถุประสงค์ในการวิเคราะห์การถดถอยจะไม่กระจายแบบปกติ

เมื่อพิจารณาถึงที่มาของฟังก์ชันการประเมินของการวิเคราะห์การถดถอยแล้ว ดูเหมือนว่าจะค่อนข้างมีเหตุผลเนื่องจากทำงานเพื่อให้พอดีกับข้อมูลที่ไม่เป็นไปตามการแจกแจงแบบปกติ

ข้างต้นคือความจำเป็นของการแปลงตัวเลขในตัวแปรวัตถุประสงค์ท้ายที่สุด หากความแม่นยำเพิ่มขึ้น ฉันรู้สึกว่าควรปรับขนาด