लक्ष्य चर [मशीन लर्निंग] को स्केल करने की आवश्यकता

2020 3 年 月 日 19

यह अक्सर तर्क दिया जाता है कि मशीन लर्निंग और डीप लर्निंग में फीचर ट्रांसफॉर्मेशन महत्वपूर्ण है।उदाहरण के लिए निम्नलिखित पुस्तकें।

दूसरी ओर, लक्ष्य चर के बारे में ज्यादा जानकारी नहीं थी।इसलिए, मैं जाँच के परिणामों को संक्षेप में प्रस्तुत करूँगा कि क्या प्रतिगमन कार्य में वस्तुनिष्ठ चर को रूपांतरित किया जाना चाहिए।

लक्ष्य चर को स्केल करने की आवश्यकता

बेशक, कभी-कभी यह जरूरी होता है।

जब यह आवश्यक हो

सांख्यिकीय रूप से, यह कहा जाता है कि त्रुटि (अवशिष्ट: वास्तविक मूल्य और प्रतिगमन अनुमान के बीच का अंतर) निम्नलिखित दो शर्तों को पूरा नहीं करता है।
· सार्वभौमिकता
· समान फैलाव

कम से कम वर्ग विधि का उपयोग करके एक प्रतिगमन समीकरण खोजने के लिए त्रुटियों की निष्पक्षता और समरूपता पूर्वापेक्षाएँ हैं।निष्पक्ष त्रुटि का अर्थ है कि किसी भी x के लिए त्रुटि का अपेक्षित मान 0 है।प्रतिगमन रेखा के लिए, इसका मतलब यह है कि एक्स में कहीं भी, यदि आप इसे औसत करते हैं, तो त्रुटि बिना पक्षपात के उस रेखा पर होगी।
सजातीय विचरण का अर्थ है कि त्रुटि का परिवर्तन (विचरण) किसी भी x पर समान है।

एक साथ लिया गया, इसका मतलब यह है कि त्रुटि प्रतिगमन रेखा के ऊपर और नीचे समान रूप से भिन्न होती है, जहाँ भी x है। x में हर जगह समान होने का अर्थ है कि जैसे x बदलता है, इसके साथ त्रुटि वितरण नहीं बदलता है, अर्थात यह असंबद्ध है।

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1182674801

पुष्टि विधि

इन्हें अवशिष्ट प्लॉट या अवशेषों के QQ प्लॉट में देखा जा सकता है।

फ़ाइल: R-कार स्टॉपिंग डिस्टेंस 1920+linear.svg
अवशेष भूखंडों के उदाहरण

नकल के तरीके और पैमाने रूपांतरण के प्रकार

दूसरे शब्दों में, यदि अवशिष्टों का विश्लेषण किया जाता है और उपरोक्त धारणाएं पकड़ में नहीं आती हैं (यदि अवशिष्टों के तरीके में कोई प्रवृत्ति है), प्रतिगमन मॉडल को x और y के बीच संबंध को बेहतर ढंग से व्यक्त करने के लिए गणितीय रूप से व्यवहार किया जा सकता है। यह माना जाता है .प्रतिवादों में से एक उद्देश्य चर को बदलना है।

उदाहरण के लिए, जब वस्तुनिष्ठ चर में ऐसे मान होते हैं जो घातीय रूप से बढ़ते हैं, तो भविष्यवाणी क्षेत्र जितना बड़ा होगा, त्रुटि उतनी ही बड़ी होगी।एक रैखिक मॉडल के साथ इस तरह के एक गैर-रैखिक मॉडल का प्रतिनिधित्व करने के लिए y को लॉगरिदमिक परिवर्तन (लॉग) होने दें।

सबसे प्रमुख एक लघुगणकीय परिवर्तन है, लेकिन अन्य भी हैं

  • √ (जड़) परिवर्तन
  • बॉक्सकॉक्स रूपांतरण
  • पारस्परिक परिवर्तन

और इसी तरह।

हालाँकि, इससे निपटने के अन्य तरीके भी हैं, जैसे चरों की संख्या बढ़ाना, दो से अधिक शब्द जोड़ना और मूल्यांकन कार्य को बदलना।

लक्ष्य चर को सामान्य रूप से वितरित करने की आवश्यकता नहीं है

यह अवशेष हैं जिन्हें सामान्य रूप से वितरित करने की आवश्यकता है।यह न तो व्याख्यात्मक चर है और न ही उद्देश्य चर।इस बारे में कोई गलती न करें।अवशिष्टों को सामान्य रूप से वितरित करने की आवश्यकता का कारण यह है कि वे एनोवा में एफ-परीक्षण के लिए परीक्षण आंकड़े के भाजक हैं। इसका कारण यह है कि एफ वितरण मानता है कि भाजक और अंश दोनों सामान्य रूप से वितरित होते हैं।

क्या प्रतिगमन विश्लेषण में व्याख्यात्मक चर और वस्तुनिष्ठ चर के लिए गैर-सामान्य रूप से वितरित होना ठीक है?

प्रतिगमन विश्लेषण के मूल्यांकन कार्य की उत्पत्ति को ध्यान में रखते हुए, यह कुछ हद तक प्रशंसनीय लगता है क्योंकि यह उन डेटा को फिट करने के लिए काम करता है जो सामान्य वितरण का पालन नहीं करते हैं।

उपरोक्त उद्देश्य चर में संख्यात्मक रूपांतरण की आवश्यकता है।आखिरकार, अगर सटीकता बढ़ती है, तो मुझे लगता है कि मुझे इसे स्केल करना चाहिए।