ความจำเป็นในการปรับขนาดตัวแปรเป้าหมาย [แมชชีนเลิร์นนิง]
มักเป็นที่ถกเถียงกันอยู่ว่าการเปลี่ยนแปลงคุณลักษณะมีความสำคัญในแมชชีนเลิร์นนิงและการเรียนรู้เชิงลึกตัวอย่างเช่นหนังสือต่อไปนี้
ในทางกลับกัน ไม่มีข้อมูลเกี่ยวกับตัวแปรเป้าหมายมากนักดังนั้นผมจะสรุปผลการตรวจสอบว่าควรเปลี่ยนตัวแปรวัตถุประสงค์ในงานการถดถอยหรือไม่
จำเป็นต้องปรับขนาดตัวแปรเป้าหมาย
แน่นอนว่าบางครั้งก็จำเป็น
เมื่อมีความจำเป็น
ในทางสถิติ มีการกล่าวว่าข้อผิดพลาด (ส่วนที่เหลือ: ความแตกต่างระหว่างค่าจริงและค่าประมาณการถดถอย) ไม่เป็นไปตามเงื่อนไขสองข้อต่อไปนี้
・ความเป็นสากล
・การกระจายที่เท่ากัน
ความไม่เอนเอียงและความเป็นเอกเทศของข้อผิดพลาดเป็นสิ่งที่จำเป็นสำหรับการค้นหาสมการถดถอยโดยใช้วิธีกำลังสองน้อยที่สุดข้อผิดพลาดที่ไม่เอนเอียงหมายความว่าค่าที่คาดหวังของข้อผิดพลาดคือ 0 สำหรับ x ใดๆสำหรับเส้นถดถอย หมายความว่าที่ใดก็ได้ใน x ถ้าคุณหาค่าเฉลี่ย ข้อผิดพลาดจะอยู่ในเส้นนั้นโดยไม่มีการเอนเอียง
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1182674801
ความแปรปรวนแบบเอกพันธ์หมายความว่าความแปรปรวน (ความแปรปรวน) ของข้อผิดพลาดจะเหมือนกันที่ x ใดๆ
เมื่อนำมารวมกัน หมายความว่าข้อผิดพลาดจะแตกต่างกันไปตามด้านบนและด้านล่างของเส้นถดถอยเท่าๆ กัน ไม่ว่า x จะอยู่ที่ใด การเหมือนกันทุกที่ใน x หมายความว่าเมื่อ x เปลี่ยนแปลง การกระจายข้อผิดพลาดจะไม่เปลี่ยนแปลงตามไปด้วย กล่าวคือ มันไม่สัมพันธ์กัน
วิธีการยืนยัน
สิ่งเหล่านี้สามารถเห็นได้ในแผนภาพที่เหลือหรือแผนภาพ QQ ของสิ่งตกค้าง
วิธีการรับมือและประเภทของการแปลงมาตราส่วน
กล่าวอีกนัยหนึ่ง ถ้าเศษเหลือได้รับการวิเคราะห์และสมมติฐานข้างต้นไม่ถือ (หากมีแนวโน้มไปในทางที่เศษเหลือ) แบบจำลองการถดถอยสามารถใช้ทางคณิตศาสตร์เพื่อแสดงความสัมพันธ์ระหว่าง x และ y ได้ดียิ่งขึ้น ถือว่า .หนึ่งในมาตรการรับมือคือการแปลงตัวแปรวัตถุประสงค์
ตัวอย่างเช่น เมื่อตัวแปรวัตถุประสงค์มีค่าเพิ่มขึ้นแบบทวีคูณ ยิ่งขอบเขตการคาดคะเนมีขนาดใหญ่เท่าใด ข้อผิดพลาดก็จะยิ่งมากขึ้นเท่านั้นให้ y เป็นการแปลงลอการิทึม (ล็อก) เพื่อแทนโมเดลแบบไม่เชิงเส้นด้วยโมเดลเชิงเส้น
สิ่งที่สำคัญที่สุดคือการแปลงลอการิทึม แต่ก็มีอย่างอื่นด้วย
- √ (ราก) การเปลี่ยนแปลง
- การแปลง Boxcox
- การแปลงซึ่งกันและกัน
และอื่น ๆ
อย่างไรก็ตาม มีวิธีอื่นในการจัดการกับมัน เช่น เพิ่มจำนวนตัวแปร เพิ่มมากกว่าสองเทอม และเปลี่ยนฟังก์ชันการประเมิน
ตัวแปรเป้าหมายเองไม่จำเป็นต้องกระจายตามปกติ
เป็นของเหลือที่ต้องกระจายตามปกติไม่ใช่ตัวแปรอธิบายหรือตัวแปรวัตถุประสงค์อย่าพลาดเรื่องนี้เหตุผลที่จำเป็นต้องกระจายส่วนที่เหลือตามปกติเนื่องจากเป็นตัวหารของสถิติการทดสอบสำหรับการทดสอบ F ใน ANOVA ทั้งนี้เนื่องจากการแจกแจงแบบ F จะถือว่าทั้งตัวส่วนและตัวเศษมีการแจกแจงตามปกติ
เป็นไปได้ไหมที่ตัวแปรอธิบายและตัวแปรวัตถุประสงค์ในการวิเคราะห์การถดถอยจะไม่กระจายแบบปกติ
เมื่อพิจารณาถึงที่มาของฟังก์ชันการประเมินของการวิเคราะห์การถดถอยแล้ว ดูเหมือนว่าจะค่อนข้างมีเหตุผลเนื่องจากทำงานเพื่อให้พอดีกับข้อมูลที่ไม่เป็นไปตามการแจกแจงแบบปกติ
ข้างต้นคือความจำเป็นของการแปลงตัวเลขในตัวแปรวัตถุประสงค์ท้ายที่สุด หากความแม่นยำเพิ่มขึ้น ฉันรู้สึกว่าควรปรับขนาด
ดิสโก้
รายการความคิดเห็น
ยังไม่มีความเห็น