लक्ष्य चर [मशीन लर्निंग] को स्केल करने की आवश्यकता

2020 3 年月日 192020 3 年月日 21

यह अक्सर तर्क दिया जाता है कि मशीन लर्निंग और डीप लर्निंग में फीचर ट्रांसफॉर्मेशन महत्वपूर्ण है।उदाहरण के लिए निम्नलिखित पुस्तकें।

リンク

दूसरी ओर, लक्ष्य चर के बारे में ज्यादा जानकारी नहीं थी।इसलिए, मैं जाँच के परिणामों को संक्षेप में प्रस्तुत करूँगा कि क्या प्रतिगमन कार्य में वस्तुनिष्ठ चर को रूपांतरित किया जाना चाहिए।

सामग्री की तालिका

1. लक्ष्य चर को स्केल करने की आवश्यकता
- 1.1. जब यह आवश्यक हो
- 1.2. पुष्टि विधि
2. नकल के तरीके और पैमाने रूपांतरण के प्रकार
3. लक्ष्य चर को सामान्य रूप से वितरित करने की आवश्यकता नहीं है

लक्ष्य चर को स्केल करने की आवश्यकता

बेशक, कभी-कभी यह जरूरी होता है।

जब यह आवश्यक हो

सांख्यिकीय रूप से, यह कहा जाता है कि त्रुटि (अवशिष्ट: वास्तविक मूल्य और प्रतिगमन अनुमान के बीच का अंतर) निम्नलिखित दो शर्तों को पूरा नहीं करता है।
· सार्वभौमिकता
· समान फैलाव

कम से कम वर्ग विधि का उपयोग करके एक प्रतिगमन समीकरण खोजने के लिए त्रुटियों की निष्पक्षता और समरूपता पूर्वापेक्षाएँ हैं।निष्पक्ष त्रुटि का अर्थ है कि किसी भी x के लिए त्रुटि का अपेक्षित मान 0 है।प्रतिगमन रेखा के लिए, इसका मतलब यह है कि एक्स में कहीं भी, यदि आप इसे औसत करते हैं, तो त्रुटि बिना पक्षपात के उस रेखा पर होगी।
सजातीय विचरण का अर्थ है कि त्रुटि का परिवर्तन (विचरण) किसी भी x पर समान है।

एक साथ लिया गया, इसका मतलब यह है कि त्रुटि प्रतिगमन रेखा के ऊपर और नीचे समान रूप से भिन्न होती है, जहाँ भी x है। x में हर जगह समान होने का अर्थ है कि जैसे x बदलता है, इसके साथ त्रुटि वितरण नहीं बदलता है, अर्थात यह असंबद्ध है।
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1182674801

पुष्टि विधि

इन्हें अवशिष्ट प्लॉट या अवशेषों के QQ प्लॉट में देखा जा सकता है।

नकल के तरीके और पैमाने रूपांतरण के प्रकार

दूसरे शब्दों में, यदि अवशिष्टों का विश्लेषण किया जाता है और उपरोक्त धारणाएं पकड़ में नहीं आती हैं (यदि अवशिष्टों के तरीके में कोई प्रवृत्ति है), प्रतिगमन मॉडल को x और y के बीच संबंध को बेहतर ढंग से व्यक्त करने के लिए गणितीय रूप से व्यवहार किया जा सकता है। यह माना जाता है .प्रतिवादों में से एक उद्देश्य चर को बदलना है।

उदाहरण के लिए, जब वस्तुनिष्ठ चर में ऐसे मान होते हैं जो घातीय रूप से बढ़ते हैं, तो भविष्यवाणी क्षेत्र जितना बड़ा होगा, त्रुटि उतनी ही बड़ी होगी।एक रैखिक मॉडल के साथ इस तरह के एक गैर-रैखिक मॉडल का प्रतिनिधित्व करने के लिए y को लॉगरिदमिक परिवर्तन (लॉग) होने दें।

सबसे प्रमुख एक लघुगणकीय परिवर्तन है, लेकिन अन्य भी हैं

√ (जड़) परिवर्तन
बॉक्सकॉक्स रूपांतरण
पारस्परिक परिवर्तन

और इसी तरह।

हालाँकि, इससे निपटने के अन्य तरीके भी हैं, जैसे चरों की संख्या बढ़ाना, दो से अधिक शब्द जोड़ना और मूल्यांकन कार्य को बदलना।

लक्ष्य चर को सामान्य रूप से वितरित करने की आवश्यकता नहीं है

यह अवशेष हैं जिन्हें सामान्य रूप से वितरित करने की आवश्यकता है।यह न तो व्याख्यात्मक चर है और न ही उद्देश्य चर।इस बारे में कोई गलती न करें।अवशिष्टों को सामान्य रूप से वितरित करने की आवश्यकता का कारण यह है कि वे एनोवा में एफ-परीक्षण के लिए परीक्षण आंकड़े के भाजक हैं। इसका कारण यह है कि एफ वितरण मानता है कि भाजक और अंश दोनों सामान्य रूप से वितरित होते हैं।
क्या प्रतिगमन विश्लेषण में व्याख्यात्मक चर और वस्तुनिष्ठ चर के लिए गैर-सामान्य रूप से वितरित होना ठीक है?

प्रतिगमन विश्लेषण के मूल्यांकन कार्य की उत्पत्ति को ध्यान में रखते हुए, यह कुछ हद तक प्रशंसनीय लगता है क्योंकि यह उन डेटा को फिट करने के लिए काम करता है जो सामान्य वितरण का पालन नहीं करते हैं।

उपरोक्त उद्देश्य चर में संख्यात्मक रूपांतरण की आवश्यकता है।आखिरकार, अगर सटीकता बढ़ती है, तो मुझे लगता है कि मुझे इसे स्केल करना चाहिए।

मशीन लर्निंगडेटा प्रीप्रोसेसिंग,आंकड़े