यदि आप फील्ड के अंदर आप डाटा का प्रेडिक्शन करते हैं फोरकास्टिंग करते हैं इवन दैट रिकमेंडेशन करते हैं और डाटा एनालिटिक्स के अंदर आप डैशबोर्ड बनाते हुए सजेशन देते हैं लेकिन इन सभी चीजों में एक बहुत ही कॉमन चीज है दैट इज अ डाटा यस जब आप रियल वर्ल्ड डेटा के ऊपर काम करते हैं तो ये रियल वर्ल्ड डाटा बहुत ही अनस्ट्रक्चर्ड फॉर्मेट के अंदर होता है इसके साथ-साथ ये एक अनक्लीन डाटा होता है जिसके अंदर बहुत सारी छोटी-छोटी मिस्टेक्स होती है अब इस रियल वर्ल्ड डाटा के ऊपर हम डायरेक्टली वर्क नहीं कर सकते ना ही हम फोरकास्टिंग कर सकते हैं ना ही प्रेडिक्शन कर सकते हैं इवन दैट ना ही रिकमेंडेशंस कर सकते हैं तो फिर इसके लिए हमें जरूरत पड़ती है डाटा क्लीनिंग की तो इस वीडियो के जरिए हम सीखेंगे कि एक रियल वर्ल्ड डाटा को किस तरीके से क्लीन किया जाता है और इसका यूज किस तरीके से मशीन लर्निंग डेटा साइंस एंड डेटा एनालिटिक्स में किस तरीके से किया जाता है यदि आप भी मशीन लर्निंग डेटा साइंस एंड डेटा एनालिटिक्स जैसी फील्ड में अपने आप को ग्रो करना चाहते हैं तो इसके लिए डब्ल्यू एस क्यूटेक के ऑनलाइन एंड ऑफलाइन बने बैच के अंदर जवाइन करके आप अपनी स्किल को इंप्रूव कर सकते हैं इसके लिए दिए गए कांटेक्ट नंबर पर कॉल करके आप हमारी फ्री डेमो क्लासेस ले सकते हैं तो फिर स्टार्ट करते हैं इस प्लेलिस्ट को और सीखते हैं कि किस तरीके से डाटा को क्लीन किया जाता है सबसे पहले हम ये जानते हैं कि डाटा क्लीनिंग होता क्या है तो डेटा क्लीनिंग आपके पास क्या होता है कि जो भी आपका रॉ मटेरियल डेटा होता है उसको आप क्लीन करते हैं पहले तो हम ये समझते हैं कि हमारे पास जो डेटा सेट होता है उसके अंदर डेटा किस-किस तरह का हो सकता है तो डेटा आपके पास दो तरीके का हो सकता है या तो आपके पास एक न्यूमेरिकल डाटा आपको मिलेगा जहां पे आपको सारे नंबर्स देखने को मिलेंगे या फिर आपके पास एक कैटेगरी कल डेटा मिलेगा जहां पे आपका पास किसके नेम वगैरह मिलेंगे काफी बार आपको यहां पे तीसरी टाइप्स और चौथी टाइप्स का डाटा भी मिल सकता है आपको यहां पे जिसके अंदर आपके पास क्या होगा डेट डाटा होगा जहां पे आपके प्रॉपर्ली डेट लिखी होगी और फोर टाइप का होगा जिसके अंदर आपको मिक्सड डाटा मिलेगा तो आपके डेटा की टाइप्स की बा बात करूं तो फोर टाइप्स के डेटा के अंदर कैटेगरी इज किया गया है इन चार टाइप के डाटा के अंदर ही आप मशीन लर्निंग मॉडल को बिल्ड कर सकते हैं यदि आपका डाटा वीडियो फॉर्म के अंदर है या फिर आपके पास डाटा ऑडियो फॉर्म के अंदर है तो आपको उसे कन्वर्ट करना पड़ेगा इन दो टाइप के डाटा के अंदर या न्यूमेरिकल डाटा के अंदर और कैटेगरी डाटा के अंदर लेकिन जब हम मशीन लर्निंग मॉडल बिल्ड करना चाहते हैं तो मशीन लर्निंग मॉडल के अंदर जो रिक्वायर्ड डाटा होता है वो सारा का सारा एक न्यूमेरिकल डाटा होता है अब न्यूमेरिकल डाटा क्यों होता है क्योंकि देखिए मशीन लर्निंग एल्गोरिथम को जब हम इस्तेमाल करते हैं तो जो एल्गोरिथम हम यूज करते हैं वो होते हैं एक मैथमेटिकल फार्मूला जस्ट एक सिंपल अर्थमेटिक फॉर्मूले के अंदर बात करूं यहां पे तो y = mx3 ये क्या है आपके पास एक सिंपल लाइन की इक्वेशन है यही आपके पास एक मशीन लर्निंग मॉडल बनती है आगे जाते हुए इसके अलावा और भी एल्गोरिथम्स होती है अब इन एल्गोरिथम्स के अंदर हमें जरूरत होती है न्यूमेरिकल डाटा की ना कि हमारे पास कैटेगरी डाटा की ना ही हमें डेट डेटा की जरूरत पड़ती है और ना ही हमें मिक्स तरह की डेटा की जरूरत पड़ती है तो इस केसेस के अंदर हमें क्या करना पड़ता है डेटा को क्लीन करना पड़ता है डेटा को क्लीन करने का मतलब क्या है डेटा को हमारे पास मशीन लर्निंग एथम के अंदर जो रिक्वायर्ड डाटा होता है उसके अकॉर्डिंग इसे कन्वर्ट करना होता है तो अब जरा समझते हैं कि डेटा क्लीनिंग के अंदर हमें कौन-कौन सा स्टेप्स लेना चाहिए सबसे पहले हम यहां पे डेटा क्लीनिंग की डेफिनेशन के ऊपर बात करें तो डेटा क्लीनिंग क्या है एक प्रोसेसर है जिसके लिए आप क्या करते हैं प्रिपेयर करते हैं अपने डाटा को किसके लिए एनालिसिस के लिए मशीन लर्निंग के लिए डीप लर्निंग के लिए या इन सब चीजों के लिए आप क्या करते हैं क्लीन करते हैं अब कैसे करते हैं यहां पे रिमूविंग करते हैं यहां पे या फिर मॉडिफाई करते हैं डाटा को जिसके अंदर आपका जो इनकरेक्ट डाटा होता है इनकंप्लीट डाटा होता है इन डेवल डाटा होता है डुप्लीकेट डटा होता है इसके अंदर थ्रू आप क्या करते हैं आप अपने डेटा को क्लीन करते हैं अब डेटा को क्लीन करने का मतलब क्या हो गया डेटा को क्लीन करने का मतलब क्या हो गया कि बेसिकली आपका जो डेटा मिलेगा स्टार्टिंग में वो आपके पास कुछ इस फॉर्मेट के अंदर आपको मिलेगा जैसे कि आप यहां पर आप देख पा रहे हैं यहां पे कि बेसिकली आपके सारा का सारा क्या है आपका पास कैटेगरी को डेटा है इस डेटा को कन्वर्जन करके आपको क्या करना पड़ता है इस तरह के एक नंबर डाटा के फॉर्मेट में कन्वर्ट करना होता है जहां आपके आज के जो कॉलम के नंबर है कॉलम के नाम है उस कॉलम के नाम के अंदर केवल और केवल क्या होगा न्यूमेरिकल डाटा ही प्रेजेंट मिलेगा आपको और किसी तरह का बिल्कुल भी डाटा आपको नहीं देखने को मिलेगा अब इसके अंदर हम क्या-क्या स्टेप लेने वाले हैं तो बेसिकली इसके अंदर बहुत सारे स्टेप्स हैं यहां पे लेकिन अब मैं उस मोस्ट इंपॉर्टेंट स्टेप्स की बात कर रहा हूं जो कि आपको फॉलो करने ही करने होते हैं सबसे पहले हम क्या करते हैं मिसिंग वैल्यू को हैंडल करते हैं उसके बाद हम आउटलायर को डिटेक्ट करते हैं और उसे हैंडल करते हैं उसके बाद हम स्केलिंग करते हैं और काफी बार हम ट्रांसफॉर्मेशन का भी इस्तेमाल करते हैं इसके बाद हम यहां पे इनकोडिंग भी करते हैं डुप्लीकेट डाटा को भी रिमूव करते हैं और जो हमारे पास इनकंसिस्टेंट डटा है उसे भी हैंडल करते हैं अब वन बाय वन समझते हैं ये होता क्या है कैसे-कैसे क्या प्रोसीजर है तो देखिए सबसे पहले मैं डेटा सेट के ऊपर ले जाता हूं जो कि एक बेसिक डेटा सेट है अब इस डटा सेट के अंदर देखेंगे तो आपके पास देखिए प्रोडक्ट नेम के अंदर आपके पास बहुत सारा डटा आपको देखने को मिलेगा इसके अंदर आपके पास बहुत सारा मिक्स डाटा है तो अब हमें क्या करना पड़ता है कि हम इस डाटा को डायरेक्टली हमारे मशीन लर्निंग एल्गोरिथम को नहीं दे पाएंगे तो फिर हमें क्या करना पड़ता है इस डाटा को हमें क्लीन करना पड़ता है क्लीन करके हमें क्या करना पड़ता है कि इसके अलग-अलग तरीके के जो कॉलम्स है वो बनाने पड़ते हैं जैसे कि यहां पे कितने जीब रम का यहां पर आपके पास है यहां पे कितने जीबी स्टोरेज का आपका यहां पर मोबाइल है इसके अंदर हमें कन्वर्ट करना पड़ता है सेकंड चीज हम यहां पे बात करें तो देखिए आपके पास ब्रांड है ब्रांड आपके पास क्या है आपके पास बेसिकली बात करें कैटेगरी डाटा है अब इस कैटेगरी डाटा को डायरेक्टली हम नहीं दे सकते तो इसके लिए हम इस्तेमाल करते हैं इनकोडिंग का इनकोडिंग के थ्रू आप क्या करते हैं कि आपके पास जो भी कैटेगरी डटा होता है उसे हम न्यूमेरिकल डाटा में कन्वर्जन करते हैं तो ये हमारा नेक्स्ट प्रोसीजर यहां पे होता है थर्ड प्रोसेसर यहां पे देखिए आपके पास जो डेटा है जैसे कि यहां पे रम लिखा है रम के अंदर आप देखेंगे तो डेटा आपके पास क्या है मिक्सड डेटा इसे हम इनकंसिस्टेंट डाटा बोलते हैं जिसके अंदर आपके पास क्या मिक्सड डाटा है नंबर भी मिक्स है आपके पास यहां पे और कैटल डाटा भी मिक्स है तो इस केसेस में हम क्या करते हैं नंबर और कैटल डटा को अलग-अलग करते हैं और जो हमारे पास सारा डाटा होता है उसे नंबर डाटा के अंदर कन्वर्जन करते हैं अब मैंने जैसा कि बोला कि मिसिंग डाटा भी होता है आपके पास यहां पे मिसिंग डाटा इस वक्त ऐसे डटा को बोलते हैं जहां पे आपके इस कॉलम के अंदर बहुत सारी मिसिंग वैल्यू होती है मतलब काफी बार क्या होता है यूजर जो होते हैं जो इस डेटा सेट को तैयार कर रहे होते हैं यस वो क्या करते हैं यहां पे काफी कॉलम को मिस कर देते हैं मतलब छोड़ देते हैं ब्लैंक कर देते हैं अब ब्लैंक करने की वजह से आप क्या करते हैं यहां पे कि आपको जो आउटपुट है वो आपको ब्लैंक नजर आएगा यहां पे अब जब यहां पे आउटपुट आपका ब्लैंक नजर आता है तो आपके पास यहां पे मिसिंग डाटा होता है और इस मिसिंग डाटा के ऊपर आपका जो मशीन लर्निंग एल्गोरिथम है वो बिल्कुल भी वर्क नहीं कर पाती है तो हमें क्या करना पड़ता है काफी बार इस मिसिंग वैल्यू को भी हैंडल करना पड़ता है काफी बार आपके डाटा के अंदर डुप्लीकेट डाटा भी देखने को मिलता है डुप्लीकेट डटा का मतलब क्या है काफी रो जो होती है वो बार-बार अपने आप को रिपीट कर रही होती है अब वो जो डाटा होता है वो आपके लिए बिल्कुल यूजफुल नहीं होता है उस केसेस के अंदर हमें क्या करना पड़ता है डाटा को क्या करना पड़ता है यहां पे बैलेंसिंग करना पड़ता है जो भी आपका डेटा सेट है उस डेटा के अंदर यदि आपकी डुप्लीकेट ट वैल्यू प्रजेंट है तो उन डुप्लीकेट वैल्यू को हटाना पड़ता है तो ये कुछ बेसिक स्टेप थे जो कि हम यहां पे आगे आने वाले वीडियो के अंदर सीखेंगे जिसके अंदर हम मिसिंग वैल्यू को हैंडल करना भी सीखेंगे आउटलायर जो होता है अब आउटलायर क्या होता है कि बेसिकली आपके डेटा सेट के अंदर कुछ ऐसा डाटा होता है जो कि उस रेंज से बियोंड होता है बियोंड का मतलब क्या है बेसिकली मैं बात करूं कि आपके पास जो आपकी कंपनी के अंदर 10 एंप्लॉई काम कर रहे हैं 10 एंप्लॉई की जो सैलरी है यहां पे वो आपके सैलरी जो होती है वो 5 लाख टू 10 लाख होती है लेकिन आपकी कंपनी के अंदर आपके जो बॉस है या आपके कंपनी के जो सीईओ है वो भी वर्क कर होते हैं उनकी जो सैलरी होती है वो 50 लाख के अराउंड होती है या फिर 20 लाख के अराउंड होती है तो वो आपके डटा सेट के लिए क्या होता है एक आउटलायर की तरफ बिहेव करते हैं तो आप उनको भी क्या करते हैं हैंडल करते हैं क्योंकि वो आगे चलते हुए मशीन लर्निंग अलोम के अंदर रॉन्ग प्रेडिक्शन करते हैं तो बेसिकली इसके लिए आपको क्या करना पड़ता है आउटलायर को भी हैंडल करना पड़ता है काफी बार डाटा को स्केलिंग करनी पड़ती है डाटा के अंदर इन बैलेंसिंग होती है तो वहां पे आप स्केलिंग करते हैं ट्रांसफॉर्मेशन हम इसलिए करते हैं क्योंकि डेटा साइट के अंदर जो डेटा होता है आपके पास यहां पे वो नॉन नॉर्मल डिस्ट्रीब्यूशन डेटा होता है उसको आपको नॉर्मल डिस्ट्रीब्यूशन डाटा के अंदर कव क वर्जन करने के लिए आपको ट्रांसफॉर्मेशन की भी जरूरत पड़ती है उसके बाद आप अनकोडिफाइड मेंट डाटा को भी हैंडल करते हैं तो ये कुछ प्रोसेसर है ये कुछ स्टेप्स हैं जिनको फॉलो करते हुए आप अपने डाटा को क्या करते हैं क्लीन करते हैं और आप अपने डाटा को तैयार करते हैं किसके लिए मशीन लर्निंग एल्गोरिथम के लिए तो आई थिंक आई होप सो समझ में आ चुका होगा कि डेटा क्लीनिंग क्या होता है यहां पे और इसके अंदर कौन-कौन से स्टेप्स हैं अब ये स्टेप्स कोई भी फिक्स स्टेप नहीं है ये आपके पास डेटा के ऊपर डिपेंड करेंगे कि डेटा सेट किस तरह का आ रहा है यहां पे और उस डेटा सेट के अंदर किस-किस चीजों की रिक्वायरमेंट है उनमें से ये वाली जो चीजें है आपके डेटा सेट किस तरह से है ये उसके ऊपर डिपेंड करेगा कि डेटा सेट ये कोई एक फिक्स प्रोसीजर नहीं है या फिर ये कोई फिक्स स्टेप नहीं है कि आप इन सारे स्टेप्स को रेगुलरली फॉलो करना ही करना है नहीं ये आपके डेटा सेट के ऊपर डिपेंड करेगा कि आपका डाटा का नेचर किस तरह का है डेटा के अंदर आपका किस तरह का डेटा प्रेजेंट है उसके हिसाब से आप यहां पे स्टेप को चूज करते हैं और अपने डाटा के ऊपर लगाकर आप अपने डाटा को क्लीन करते हैं हम ये समझने वाले हैं मिसिंग कंटेंट क्या होता है और इसे कैसे फाइंड आउट किया जाता है और इसके कैलकुलेशंस कैसे की जाती है इन सारी चीजों के बारे में डिटेल के साथ देखने वाले हैं तो सबसे पहले ये समझते हैं कि मिसिंग कंटेंट आता कैसे है मतलब यदि हम किसी डेटाबेस के अंदर देखें तो उसके अंदर मिसिंग कंटेंट कैसे आया है यहां पे उसको एक छोटे से एग्जांपल के थ्रू समझते हैं तो मेरे पास एक आपने कभी ना कभी आपने किसी कॉलेज का फॉर्म फिल किया होगा या किसी जॉब के लिए इंटरव्यू के लिए फॉर्म फिल किया होगा या फिर आपने किसी गवर्नमेंट जॉब के लिए फिल किया होगा यहां पे तो कुछ इस तरह के फॉर्म्स आपको दिखाई देते है अब इस फील्ड के अंदर आपको कुछ चीजें मैंडेटरी दिखाई दे रही है और कुछ चीजें नॉन मैंडेटरी दिखाई दे रही है अब एज अ यूजर क्या करते हैं आप यहां पर जो मैंडेटरी चीजें हैं वो आप जरूर फिल कर देते हैं जैसा कि मैं यहां पे अपनी डाटा फिल कर रहा हूं अब मुझे फादर नेम डालना है तो मैं यहां पे अपना फादर नेम डाल देता हूं देन नेक्स्ट अब हम बात करते हैं यहां पे कि क्लास के बारे में बात करें तो क्लास हमारे पास कोई मैंडेटरी ऑप्शन नहीं है अब जब मैंने इस डाटा को यहां पे नहीं चेक आउट किया और सब्जेक्ट भी हमारा कोई मैंडेटरी ऑप्शंस नहीं है और मैंने इसको भी चेक आउट नहीं किया और एड्रेस को भी चेक आउट नहीं किया तो ये वाला जो डाटा अंदर जाके जब सेव होता है तो वहां पे ब्लैंक स्पेस आ जाता है मतलब यदि मैं इस डटा को ले जाके अपने किसी भी डेटाबेस के अंदर स्टोर करूं चाहे वो एक्सेल फॉर्मेट में हो चाहे वो माल फॉर्मेट में हो या किसी भी डेटा सर्वर के फॉर्मेट में हो जब ये डाटा अंदर जाके सेव होता है उस वक्त यह आपके पास क्या करता है वहां पे ब्लैंक वैल्यू रख देता है इसी को हम बोलते हैं मिसिंग कंटेंट जैसा एक छोटा सा एग्जांपल और देखें यहां पे तो मेरे पास एक एकल सीट है इस एकल सीट के अंदर आपको ऐसा डाटा दिखाई देगा जहां पे बहुत सारे मिसिंग कंटेंट दिखेंगे जैसा कि मैं यहां पे इस डेटा सेट के ऊपर बात करूं तो देखिए लोन अमाउंट्स के अंदर ये आपको एक मिसिंग डाटा दिखाई देगा इसका मतलब क्या है कि जब यूजर ने इस फॉर्म को फिल किया होगा या जहां से ये डाटा आया होगा उस वक्त उस जगह पर कोई भी डाटा नहीं पहुंच पाया है या फिर उस जगह पर उस यूजर ने उस डाटा को फिल नहीं किया है तो इस तरीके के डाटा को बोलते हैं मिसिंग डाटा अब इस मिसिंग डाटा को हमें यहां पर हटाना बहुत ज्यादा जरूरी होता है अब हटाना है या फिर फिल करना है वो आपके डिसीजन पे मैटर करता है बट यह हटाना क्यों जरूरी है इसके पीछे रीजन यह है कि जब भी आप मशीन लर्निंग एल्गोरिथम के ऊपर काम करते हैं तो एल्गोरिथम मिसिंग वैल्यू पे काम नहीं करती है क्योंकि इसके पीछे सबसे बड़ा रीजन यह है कि जो भी आप मशीन लर्निंग एल्गोरिथम लगाएंगे वो होते हैं एक मैथमेटिकल फार्मूला मतलब बेसिक लैंग्वेज में बात करें तो एक मैथ का एक सिंपल सा फार्मूला होता है जिसे हम मशीन लर्निंग एल्गोरिथम बोलते हैं अब उस मैथ के फॉर्मूले के अंदर यदि हम इस मिसिंग डाटा को वहां पे ले जाक रखेंगे तो मैथ का फॉर्मूला कंफ्यूज हो जाएगा कि यहां पे क्या डाटा है बेसिकली बात करें मैं एक सिंपल सा क्वेश्चन आपको यहां पे देता हूं कि 2 * 2 करेंगे तो आंसर क्या आएगा आप लोगों का आंसर आएगा फोर यदि मैं बोलूं ब्लैंक * 2 कीजिए तो आपका आंसर क्या आएगा तो आप बोलेंगे सर ब्लैंक के साथ किसी भी नंबर को मल्टीप्लाई नहीं किया जा सकता क्योंकि ब्लैंक कंटेंट ही नहीं है वहां पर हमारे पास कोई डाटा ही प्रेजेंट नहीं है वहां पर तो हम उसका मल्टीप्लिकेशन कैसे कर सकते हैं तो बेसिक बात करें यहां यहां पे कि जब भी आप मशीन लर्निंग या फिर डीप लर्निंग दोनों के अंदर बात करें यहां पे तो मशीन लर्निंग या डीप लर्निंग के अंदर जब भी आप डेटा सेट के ऊपर काम करते हैं तो उस वक्त मिसिंग वैल्यू नहीं होनी चाहिए क्योंकि यदि आपके डाटा के अंदर मिसिंग वैल्यू प्रेजेंट हुई तो वो फॉर्मूला या फिर मशीन लर्निंग एल्गोरिथम या डीप लर्निंग के न्यूरल नेटवर्क्स आपके पास वर्क नहीं करेंगे तो इसलिए हमें हमारे डेटा सेट के अंदर मिसिंग वैल्यू को हमें कंप्लीट हटाना चाहिए या फिर इसके अंदर कोई डाटा फिल करना चाहिए इसके पीछे का रीजन हम थोड़ी देर में जानेंगे लेकिन सबसे पहले हमें ये पता करना चाहिए डाटा सेट के अंदर प्रेजेंट है या नहीं है हमें ये पता करना चाहिए तो अब इस वीडियो को मैं दो पार्ट के अंदर स्प्लिट कर रहा हूं पहला पार्ट यहां पे ये होगा जिसके अंदर हम ये जानेंगे कि किसी भी डेटा सेट के अंदर मिसिंग वैल्यू है या नहीं है सेकंड पार्ट के अंदर हम ये जानेंगे कि इस मिसिंग वैल्यू के साथ अब हमें आगे क्या ऑपरेशन करना है कसे रखना है क्यासे हटाना है यदि इसे रखना है तो रखने के वक्त हमें इसके अंदर क्या डाटा फिल करना है वो सारी चीजों के बारे में देखने वाले हैं तो पहले पार्ट के अंदर हम ये जानते हैं कि मिसिंग वैल्यू को हम कैसे पहचान सकते हैं तो ये मेरे पास एक डेटा सेट है जैसा कि आप देख रहे हैं जिसका नाम है लोन . सए अब ये जो डाटा है वो एक बैंक का डटा सेट है जिसके अंदर किसी पर्सन को लोन सेंशन हुआ है या नहीं हुआ है उससे रिलेटेड कुछ डटा है यहां पे अब इस डाटा के अंदर हमारे पास बहुत सारी जगह पर मिसिंग वैल्यू है अब देखिए यदि आप डायरेक्टली फाइंड आउट करने जाएंगे मिसिंग वैल्यू को तो डायरेक्टली आपको डटा नहीं मिलेगा मिसिंग वैल्यू को फिलहाल ये सबसे ऊपर ही था तो इसलिए हमें दिख गया है बाकी ऐसे आप सर्च करने बैठेंगे तो आपको डाटा के अंदर मिसिंग वैल्यू नहीं मिलेगा और इवन दैट आप ये भी कैलकुलेशन नहीं लगा पाएंगे कि किस कॉलम के अंदर कितनी मिसिंग वैल्यू है यदि मैं एज अ परसेंटेज के तौर पे बात करूं तो वो भी आप अच्छे से फाइंड आउट नहीं कर पाएंगे तो अब हमें ये फाइंड आउट करना जरूरी है क्योंकि एज अ डाटा साइंटिस्ट हमें मिसिंग वैल्यू को हटाना है यहां से तो अब इसके लिए हम क्या करेंगे पांडा का इस्तेमाल करेंगे पांडा का इस्तेमाल करने के लिए मैं जुपिटर नोटबुक का इस्तेमाल करूंगा और जुपिटर नोटबुक के थ्रू ही ये सब चीजें फाइंड आउट करने वाला हूं सबसे पहले आप अपने सिस्टम के अंदर जुपिटर नोटबुक को इंस्टॉल कर लें और जुपिटर नोटबुक को इंस्टॉल करने के बाद में हम यहां पर हमारा जो कोड है वो इसके अंदर लिखने वाले हैं तो इसके लिए हमें पांडा की जरूरत पड़ेगी तो मैं सबसे पहले क्या करने वाला हूं इंपोर्ट करने वाला हूं और इंपोर्ट क्या करूंगा पांडा एलियास ऑफ पीडी मैं यहां पे इंपोर्ट करूंगा यस सबसे पहले हमने पांडा की लाइब्रेरी को इंपोर्ट किया है देन उसके बाद में हम हमारे जो डेटा सेट है उसे लोड कराएंगे डटा सेट को लोड कराने के लिए पीडी डॉट यहां पर री सीएवी का इस्तेमाल करूंगा अब नेक्स्ट चीज यहां पे आएगी कि मेरे पास डटा सेट का एड्रेस क्या है और डाटा सेट का नाम क्या है तो डटा सेट का यदि आपको एड्रेस लेके आना है तो देखिए एड्रेस आपको सबसे टॉप में ही मिल जाएगा ये रहा आपका पास डेटा सेट का एड्रेस डीड के अंदर है डेटा सेट के नाम से और वीडियो के नाम से हमारे पास है तो मैं इसे जस्ट आपके पास क्या करता हूं कॉपी कर लेता हूं और उसके बाद यहां पे पेस्ट कर देता हूं उसके बाद मेरे पास जो सेट का नाम है मतलब आपका डेटा सेट का नाम है वो क्या है लोन . सीएवी है तो मैं वीडियोस के बाद में स्लैश लगाता हूं स्लैश लगाने के बाद में देखिए मेरे डाटा सेट का नाम क्या है लोन . सीएवी तो मैं इसे क्या करता हूं रिनेम के थ्रू यहां पे जो इसका नाम है वो पूरा का थोड़ा गेट कर लेता हूं और यहां पे रख लेता हूं अब जब भी आप किसी पांडा के थ्रू किसी डाटा सेट को गेट करने जा रहे हैं तो उस वक्त यहां पे जो आप स्ट्रिंग दे रहे हैं उसके आगे आपको क्या लगाना है r लगाना है इस r को बोलते हैं रॉ स्ट्रिंग यहीं से जो हमारा यहां पे जो लिखा हुआ टेक्स्ट है वो पाथ के अंदर कन्वर्ट हो जाएगा यूजिंग अ रॉ स्ट्रिंग के जरिए अब ये जो डेटा सेट है इसके अंदर हमारा डटा आ चुका है अब डेटा सेट आने के बाद में हम यहां पे क्या करेंगे हम हमारे डेटा सेट को देखेंगे डेटा सेट को देखने के लिए डॉट हैड का इस्तेमाल करूंगा और हेड के जरिए तीन डाटा को मैं यहां पे देखूंगा ताकि हम हमारे डाटा को थोड़ा सा समझ सके कि किस तरह का हमारे पास डाटा है यहां पे कि किस कॉलम के अंदर कौन सा डाटा प्रेजेंट है अब नेक्स्ट चीज यहां पर हमारे पास ये रहेगी कि इसके अंदर ओवरऑल कितना डटा प्रेजेंट है मतलब कितने नंबर ऑफ रो है कितने नंबर ऑफ कॉलम्स हैं ये हमें जानना बहुत ज्यादा जरूरी है अदर वाइज यदि हम ये नहीं जानेंगे तो आगे जाते हुए हम परसेंटेज कैलकुलेशन नहीं कर पाएंगे कि पर्टिकुलर कॉलम के अंदर कितनी परसेंटेज नल वैल्यू प्रेजेंट है तो इसके लिए हम क्या करेंगे गाइ यहां पे तो सबसे पहले मैं डेटा सेट के अंदर क्या जाता हूं यहां पे चलता हूं और इसके बाद में मैं यहां पे इसकी टोटल डाटा गेट करता हूं कितना हमारे पास डाटा है तो उसके लिए मैं क्या करूंगा डेटा सेट को कॉल करूंगा एंड दैट यहां पर सेप को लगा के कॉल कर दूंगा अब सेकंड चीज यहां पर हम ये देखेंगे कि नल वैल्यू हमें दिखती कैसी है मतलब यदि मैं एक्सल शीट को ओपन करता हूं तो यहां पे नल वैल्यू तो हमें ब्लैंक के तौर पे दिखाई देती है लेकिन जब मैं पांडा का इस्तेमाल करता हूं तो उसके अंदर नल वैल्यू किस तरह से दिखाई देती है यह हमें कैसे पता चलेगा तो उसके लिए जैसे ही आप यहां पर अपने डाटा सेट को लोड करेंगे जैसे कि मैं यहां पे क्या करता हूं हमारे 10 डाटा को यहां पे लोड करता हू हूं तो न डटा को जैसे ही मैंने लोड कराया तो अब हमें नल वैल्यू कैसे दिखाई देगी तो इसके अंदर जैसे ही आप थोड़ा सा और मूव करेंगे तो आपको एक ए ए के नाम से आपको मिलेगा ए ए ए के नाम से एक डाटा मिलेगा जो कि आपके पास नल वैल्यू को रिप्रेजेंट कर रहा होगा मतलब कि यहां पर यह है कि यह एक मिसिंग कंटेंट है कहीं पे भी आपको एन ए ए आपको देखने को मिल जाए इसका मतलब डेफिनेटली वो आपके पास क्या है मिसिंग कंटेंट है यदि मैं यहां पे देखूं तो इस जगह पर भी ए एए मुझे दिख रहा है इसका मतलब इसके अंदर भी क्या है एक मिसिंग कंटेंट है अब मुझे यहां पे क्या करना है मुझे पता लगाना है कि इसके अंदर टोटल नंबर ऑफ मिसिंग कंटेंट कितने हैं क्योंकि यदि मैं डायरेक्टली सर्च करूंगा तो बहुत ही ज्यादा डिफिकल्ट हो जाएगा क्योंकि डेटा हमारे पास एक लिमिटेड डेटा नहीं होगा बहुत ही लार्ज अमाउंट में डेटा होगा कभी-कभी आपको बिग डेटा के ऊपर भी काम करने की जरूरत पड़ सकती है तो वहां पे भी हमें नल वैल्यू को फाइंड आउट करना आना चाहिए तो उसके लिए हम क्या करेंगे कि हमारा जो डेटा सेट है जिसके बारे में हम यहां पे काम कर रहे थे फिलहाल मैं इसे वापस क्या कर देता हूं थ्री कर देता हूं ताकि हमारे पास यहां पे लिमिटेड अमाउंट पे डाटा हमें दिखे और और उसी से हम सारी एनालिसिस कर सके तो मैं वापस यहां पे चलता हूं और उसके बाद में मैं अपना डेटा सेट को क्या करता हूं कॉल करता हूं डेटा सेट को कॉल करने के बाद में पांडा का एक फंक्शन होता है इज नल इज नल के नाम से आप क्या करते हैं इस फंक्शन को कॉल करते हैं तो ये क्या करता है कि जहां पे आपका मिसिंग कंटेंट होता है वहां पे आपको ट्रू रिप्रेजेंट करता है और बाकी सारी जगह फॉल्स रिप्रेजेंट कर देता है तो मैं यहां पे क्या कर रहा हूं इस नल को मैं कॉल कर रहा हूं एंड देन रन कर रहा हूं तो जैसे ही मैंने इस नल को कॉल किया यहां पे आप देख पाएंगे कि आपके पास जो भी डाटा है यहां पे जो भी आपका डेटा सेट है उसके अंदर जहां-जहां आपकी नल वैल्यू है वहां पे आपको ट्रू रिप्रेजेंट कर रहा है और जहां नल वैल्यू नहीं है वहां पे आपको क्या कर रहा है फॉल्स रिप्रेजेंट किया जा रहा है अब मुझे तो यहां पे काउंटिंग करनी है कि कितनी नल है और कितनी नॉट नल है तो बेसिकली मैं यहां पे इसके पीछे जाऊंगा और डॉट सम नाम से एक फंक्शन को कॉल कर दूंगा अब डॉट सम नाम का फंक्शन क्या करेगा इसके अंदर क्या करेगा जितनी भी नल वैल्यू है मतलब जितने भी आपके पास ट्रू है यहां पे उनकी काउंटिंग करके हमें दे देगा एंड देन जैसे ही मैं रन करूंगा तो मेरे पास पर्टिकुलर जिस कॉलम के अंदर नल वैल्यू प्रेजेंट है उसकी काउंटिंग हमारे पास आ जाएगी जैसे आप लोन आईडी को देखेंगे तो इसके अंदर क्या है जीरो है जेंडर को देखेंगे तो इसके अंदर 13 है देखेंगे तो सिक्स है डिपार्टमेंट को देखेंगे 15 है एजुकेशन में नाइन है एंड एप्लीकेशन इनकम के अंदर टू है तो ऐसे करके हमें यहां पे हर कॉलम के बारे में अंडरस्टैंडिंग हो गई है कि किसके अंदर कितनी नल वैल्यू प्रेजेंट है बट यहां पे एक छोटी सी मिस्टेक है कि केवल आपको यदि मैं बोलूं कि जेंडर के अंदर 13 मिसिंग वैल्यू है तो इससे आप एक बेटर अंडरस्टैंडिंग नहीं कर पाएंगे तो अब इसको बेटर अंडरस्टैंडिंग कराने के लिए हमें यहां पर निकालनी पड़ती है परसेंटेज नल वैल्यू क्योंकि परसेंटेज नल वैल्यूज के थ्रू हम काफी अच्छे-अच्छे डिसीजन बना सकते हैं कि इस कंटेंट को हमें रखना है या इस कंटेंट को हमें हटाना है तो अब हम क्या करेंगे इसके अंदर परसेंटेज नल वैल्यू निकालेंगे अब परसेंटेज नल वैल्यू निकालने के लिए आपको थोड़ा सा परसेंटेज का फार्मूला आना चाहिए और जो कि आप बचपन में बहुत अच्छे तरीके से सीख चुके होंगे कि आप क्या करते हैं कि जो भी आपका डाटा ऑब्टेन होता है उसको डिवाइड कर देते हैं टोटल नंबर ऑफ डाटा से एंड मल्टीप्लाई बाय 100 कर लेते हैं तो ये आपका परसेंटेज का फार्मूला होता है हम भी वही यहां पे लगाने वाले हैं कैसे जरा समझिए यहां पे तो मेरे पास ये डाटा सेट जो इनल डॉट सम है यहां पे मैं इसी को वापस यहां पे लिखूंगा देन मैं डिवाइड कर दूंगा डिवाइड मुझे क्या करना है गाइस यहां पे डटा सेट डॉट यहां पर मैं शेप को कॉल करूंगा देन स्क्वायर ब्रैकेट ऑफ जीरो लगाऊंगा अ ये स्क्वायर ब्रैकेट ऑफ जीरो क्या है तो इसके लिए आपको थोड़ी बहुत पांडा की नॉलेज होनी चाहिए यदि आपको पांडा की नॉलेज नहीं है तो आप हमारे जो पांडा के वीडियोस है डब्लू एस कपट के youtube1 जा के देख सकते हैं पांडा के वीडियो और आप पांडा को पहले अच्छे तरीके से कवर कर लीजिए क्योंकि जितने भी आगे वाले जितने भी वीडियो आने वाले हैं यहां पे उनके अंदर पांडा का बहुत ज्यादा यूज़ होने वाला है तो एक तरीके से मान लीजिए कि मशीन लर्निंग की शुरुआत करनी है आपको तो पांडा का आना बहुत ज्यादा जरूरी है तो इसलिए पांडा के जो हमारे वीडियोस हैं उन्हें आप देखिए वहां से आप पांडा सीख लीजिए एंड देन आप इसके कंटेंट के ऊपर आगे से आके वर्क कीजिए यदि नहीं आता है तो आप यहां पर फर्द कैरी ऑन कीजिए आपको काफी चीजें अच्छे से और चीजें देखने को मिलेगी चलिए मैंने टा सेटड शप के पीछे रो क्यों लगाया है इसको भी अब जरा समझ लेते हैं यहां पे तो मैं क्या करूंगा गाइज यहां पे कि मैं डटा सेट के पास जाऊंगा डॉट यहां पर शेप को कॉल करूंगा देन स्क्वायर ब्रैकेट 0 लगाऊंगा तो ये 600 जो 18 हमारे पास जो टोटल नंबर ऑफ रो है वो हमें डायरेक्टली मिल जाती है और बेसिकली हमें वही चाहिए क्यों चाहिए कि हमारे पास डेटा सेट के अंदर कितनी नल वैल्यू प्रेजेंट है उसका हमें सम मिल चुका है और पर कॉलम के अंदर डटा सेट ड इज नल को हमने क्या किया हमारे पास पर पर्टिकुलर कॉलम के अंदर कितनी नल वैल्यू प्रेजेंट है वो हमने देखी यहां पर उसके बाद सेप के थ्रू हमने क्या देखा यहां पे कि टोटल नंबर ऑफ रो कितनी है वो हमें मिल गई यहां पे अब अब मुझे क्या करना है इस पूरे डाटा को मल्टीप्लाई बाय 100 कर देना है और मल्टीप्लाई बाय 100 जैसे ही करूंगा तो मुझे मेरे डाटा के अंदर कंटेंट मिल जाएगा कि किसके अंदर कितनी नल वैल्यू प्रेजेंट है जैसे कि आप यहां पे देखेंगे तो इसके अंदर 2 पर नल वैल्यू है अब देखिए ऊपर चल के देखेंगे तो 1 नल वैल्यू थी लेकिन अब परसेंटेज के अंदर जब हमारे पास नल वैल्यू आ चुकी है तो अब हमें बेटर अंडरस्टैंडिंग हो रही है कि किसी पर्टिकुलर कॉलम के अंदर कितनी नल वैल्यू प्रजेंट है क् 100 के अंदर कैलकुलेशन करना थोड़ा इजी होता है क् यदि में हम ओवरऑल डेटा सेट के ऊपर बात करें तो डाटा हमारे पास कम या ज्यादा कितना भी हो सकता है जैसे कि यहां पर देख रहे हैं 618 रोज है यहां पे तो उसके अंदर हमें कुछ बेटर अंडरस्टैंडिंग नहीं हो पा रही थी कि 618 में से 13 रो फिल ब्लैंक है यहां पे तो उसके बारे में हम प्रॉपर्ली अंडरस्टैंडिंग नहीं कर पा रहे थे जबकि हम यदि परसेंटेज वैल्यू निकाल रहे हैं तो यहां पर प्रॉपर अंडरस्टैंडिंग भी कर पा रहे हैं कि नल वैल्यू कितनी प्रेजेंट है अब सेकंड चीज हम यहां पर ये जानेंगे कि टोटल यहां पे कितनी नल वैल्यू प्रेजेंट है मतलब यदि मैं इन सबको टोटल कर दूं तो कितनी नल वैल्यू प्रेजेंट होगी हमारे यहां पे डेटा सेट के अंदर वो अब हम यहां पे निकाल रहे हैं तो उसके लिए हम क्या करेंगे गाइज यहां पे कि ये जो डटा सेट डट इनल लिखा ना यहां पे मैं इसी के ऊपर चलूंगा वापस तो मैं डटा सेट के पास जाऊंगा डॉट इनल को कॉल करूंगा यस इनल को मैंने कॉल किया इनल के बाद में डॉट यहां पर सम को लगाया डॉट सम को जैसे ही मैं लगाता हूं तो मुझे हर एक कॉलम के अंदर कितने वैल्यू प्रेजेंट है वो मुझे मिल रही है लेकिन यदि मैं इसके पीछे एक और सम लगा दूं तो मेरे ओवरऑल डाटा के अंदर कितनी नल वैल्यू प्रेजेंट है वो मुझे मिल जाएगी और वो कितनी है 1709 नल वैल्यू प्रेजेंट है अब बेसिकली नेक्स्ट स्टेप में हम ये जानने की कोशिश करेंगे कि ये जो 179 जो आप आपके पास रो खाली है ये कितने परसेंट खाली है हमारे ओवरऑल डाटा के अंदर ओवरऑल डेटा मतलब यदि मैं रो एंड कॉलम को मल्टीप्लाई करूं तो मुझे क्या मिलेंगे पर सेल मिलेंगे तो पर सेल के हिसाब से ये नल वैल्यू खाली है तो ओवरऑल डेटा सेट के अंदर से कितनी नल वैल्यू खाली है इसके अंदर मतलब कितनी नल वैल्यू आपके पास प्रेजेंट है यहां पे वो अब हम निकाल रहे हैं तो उसको यदि आपको फाइंड आउट करना है तो बहुत ही इजी काम है यहां पे वापस आप इसको ले लीजिए यहां पे वापस एंड उसके बाद में आपको क्या करना है डिवाइड करना है अब डिवाइड किससे करेंगे आप यहां पे तो ये जो डटा सेट डॉट शेप दिख रहा है यहां पे इन दोनों नंबर को मल्टीप्लाई कराना है और आपका काम हो जाएगा तो मैं डटा सेट डॉट यहां पर मैं शेप को कॉल करूंगा देन स्क्वायर ब्रैकेट ऑफ 0 लगाऊंगा और इसको मल्टीप्लाई कर दूंगा किससे डेटा सेट डॉट यहां पर फिर से मैं शेप को कॉल करूंगा एंड व से अब ये क्या हो गया मेरे पास यहां पे नीचे तो टोटल नंबर ऑफ डाटा आ गया ऊपर टोटल नंबर ऑफ नल वैल्यू आ गई है और इसके बाद में मुझे परसेंटेज में निकालना है तो मैं मल्टीप्लाई बाय क्या करूंगा यहां पे 100 करूंगा तो मेरे पास ओवरऑल डेटा सेट के अंदर जाके देखें तो 2 पर नल वैल्यू का रिजेंट है अब देखिए यहां पे आप बहुत ही बड़ा डिफरेंस देखेंगे कि पर पर कॉलम के अंदर चलेंगे तो पर कॉलम के अंदर बात करें तो किसी के अंदर 8 पर है किसी के अंदर 3 पर है किसी के अंदर 2 पर है लेकिन यदि मैं ओवरऑल डेटा सेट की बात करूं तो वहां पे हमारे पास कितनी परसेंट नल वैल्यू है यहां पर हमारे पास 2 पर नल वैल्यू है या फिर बात करें 2.2 पर नल वैल्यू प्रेजेंट यहां पर है हमारे पास है तो इस तरह से आप क्या करते हैं डेटा सेट के अंदर नल वैल्यू को फाइंड आउट करते हैं अब यदि मेरा क्वेश्चन थोड़ा सा रिवर्स यहां पे हो जाए कि यदि मेरे पास डटा सेट के अंदर कितनी नॉट नल वैल्यू प्रेजेंट है तो आप कैसे निकालेंगे तो उसका सवाल सिंपल सा उसका जवाब है यहां पे कि हमारे पास पांडा के अंदर एक फॉर्मूला होता है जिसके थ्रू हम नॉट नल वैल्यू को भी फाइंड आउट कर सकते हैं कैसे देखिए डाटा सेट के अंदर चलेंगे डॉट यहां पे आपको क्या लिखना है नॉट नल को कॉल करना है नॉट नल को कॉल करेंगे डॉट यहां पे सम को कॉल करेंगे एंड रन करेंगे तो हर कॉलम के अंदर कितनी नल वैल्यू प्रेजेंट नहीं है मतलब फिल डाटा कितना है यहां पे वो चीज आपको मिल जाएगा यदि मैं यहां पे डॉट सम को कॉल करूं यहां पे एक बार और से तो यहां पे टोटल जो आपके पास फिल डाटा है वो भी हमें यहां पर देखने को मिल जाएगा अब ये तो हो गया हमारे पास नंबर्स की बात लेकिन यदि मुझे यहां पे एक ग्राफ के तौर पे रिप्रेजेंट करना है कि हमारे डाटा के अंदर कितनी नल वैल्यू प्रेजेंट है तो वो भी हम यहां पर कर सकते हैं तो उसके लिए मुझे क्या करना पड़ेगा सी बन को कॉल करना पड़ेगा क्योंकि सी बन के थ्रू ही हम ग्राफ बना सकते हैं तो उसके लिए मैं क्या करूंगा इंपोर्ट करूंगा और इंपोर्ट किसे करूंगा गाइज यहां पे सी बन एलियाज ऑफ एसएनएस को कॉल करूंगा देन सेकंड चीज मैं यहां पे फिर से इंपोर्ट करूंगा किसे मैट प्लॉट लिप के क्योंकि हम यहां पे प्लॉट बनाने जा रहे हैं और प्लॉट बनाने के लिए मैट प्लर लिप नहीं यूज़ करें तो ऐसा तो हो नहीं सकता तो मैट पल डॉट यहां पर मैं पीवा प्लॉट का इस्तेमाल करूंगा यस क्या करूंगा यहां पे पीवा प्लॉट का इस्तेमाल करूंगा एलियाज ऑफ यहां पे पीएटी का बना लूंगा देन अब हम इसे रन करेंगे एंड रन करने के बाद में मुझे क्या करना है जितनी भी हमारे नल वैल्यू प्रेजेंट है इसका एक ग्राफिकल रिप्रेजेंटेशन दिखाना है यहां पे तो ग्राफिकल रिप्रेजेंट दिखाने के लिए मैं एए डॉट यहां पे क्या य करूंगा हिट मैप का इस्तेमाल करूंगा और हिट मैप के अंदर जाके मेरे पास ये डटा सेट ज इनल जो आपको दिख रहा है यहां पे इज नल को ओनली फॉर सम को नहीं मैं बात कर रहा हूं यहां पे टा सेट डॉट इनल जो दिख रहा है यहां पे बस मुझे इसी का ग्राफ बनाना है उसके बाद पीएटी डॉट मैं यहां पे क्या करूंगा शो फंक्शन को कॉल करूंगा यहां पे और फिर जाके मैं इसे रन कर दूंगा जैसे ही मैं इसे रन करता हूं तो देखिए मुझे हर एक कॉलम के अंदर कितनी नल वैल्यू प्रेजेंट है उसका ग्राफिकल रिप्रेजेंटेशन दिखने को मिल जाएगा अब देखिए जहां पे हमारा पास ब्लैक पार्ट है इसका मतलब वो क्या है हमारे पास डाटा नल वैल्यू प्रेजेंट नहीं है मतलब आपके पास यहां पे फुल डाटा फिल किया हुआ है और जो जो वाइट एरिया आपको दिखाई दे रहा है जैसे कि यहां पे देखिए वाइट लाइंस आपको दिखाई दे रही है इसका मतलब इसके अंदर इतनी सारी नल वैल्यू प्रेजेंट है अब ये कैसे अंदाजा लगा यहां पे किस तरह से पता लगा तो देखिए आपके पास आपके डाटा के अंदर रो से लगाकर 6180 तक हमारे पास रो है जो कि हमारे पास यहां पे हमें दिखाई दे रही है उसके बाद में आप देखेंगे हमारे पास जितने भी कॉलम्स हैं उन सारे कॉलम्स के नाम लिखे हुए हैं जैसे लोन आईडी जेंडर हो गया मैरिड हो गया डिपार्टमेंट एजुकेशन वगैरह सब कुछ दिख रहा है इसके बाद में यदि हम यहां पे हमारे पास कलर बार को देखें तो कलर बार के अंदर जीरो दिखाया जा रहा है यहां पे ब्लैक कलर को और वन दिखाया जा रहा है वाइट कलर को अब जब हमने इज नल को इस्तेमाल किया है तो इज नल यदि हमें कंटेंट को देखना है तो इज नल क्या करता है यहां पे कि जहां मिसिंग वैल्यू होती है वहां पे वो क्या करता है ट्रू दिखाता है और जहां पे मिसिंग वैल्यू नहीं होती है वहां पे वो फाल्स दिखाता है तो ट्रू का मतलब क्या होता है गाइज यहां पे वन होता है और फाल्स का मतलब क्या होता है ज़ीरो होता है तो वही चीज हमें यहां पे देखने को मिल ली है कि फॉल्स है यहां पे ज़ीरो है इसका मतलब आपके पास क्या है ब्लैक कंटेंट दिख रहा है और जहां पे हमारे पास मिसिंग वैल्यू है वहां पे हमें राइट कंटेंट देखने को मिल रहा है तो इस तरह से हम हमारी नल वैल्यू को फाइंड आउट कर सकते हैं तो गाइज नल वैल्यू यदि आपको फाइंड आउट करनी है तो पहला तो तरीका है आप यहां पे क्या करें इज नल का इस्तेमाल करें और डॉट सम लगा के आप यहां पे नल वल को देखें और उसके बाद में ओवरऑल नल वैल्यू देखनी है तो आप यहां पे एक बार और सम लगा दें यहां पे ग्राफिकल रिप्रेजेंटेशन देखना है तो आप सी बन का इस्तेमाल करके भी कर सकते हैं अब नेक्स्ट स्टेप जो हमारा सेकंड पार्ट है यहां पे जिसके अंदर हम ये देखेंगे कि अब इस नल वैल्यू को हमें रखना है या हटाना है इसके ऊपर क्या होना चाहिए मतलब आगे क्या प्रोसेसर करना चाहिए इसको जरा यहां पर समझते हैं तो गाइस देखिए सबसे पहले आप अपने डेटा सेट को आराम से देखिए डेटा सेट के बारे में आपको प्रॉपर पहली नॉलेज होनी चाहिए मतलब उस डोमेन के बारे में पूरी नॉलेज होनी चाहिए क्योंकि नल वैल्यू यदि आप उसमें में हैंडल करने जा रहे हैं तो उस डेटा सेट के बारे में पहले आप नॉलेज ले लीजिए कि ये डेटा सेट क्या काम करता है इस डेटा सेट के थ्रू आप क्या आगे मॉडल डिजाइन करने वाले हैं और ये मॉडल के लिए आपका पास किस तरह से यूज़ आने वाली है तो पहले ये चीज आप आराम से आइडेंटिफिकेशन चीज है जो मैं आपको बताना जा रहा हूं ज्यादातर डेटा साइंटिस्ट उसी चीज को इस्तेमाल करते हैं मैं उसी के बारे में बात करूंगा यहां पे कि यदि आपके डेटा सेट के अंदर ओवरऑल यदि मैं बात करूं यहां पे ओवरऑल जैसे यहां पर इस डेटा सेट के अंदर बात करें तो केवल 2 पर मिसिंग वैल्यू है यदि ओवरऑल डेटा सेट के अंदर 50 पर से ज्यादा मिसिंग वैल्यू आपको देखने को मिल जाए तो उस वक्त आपको उस डेटा सेट को यूज नहीं करना चाहिए क्योंकि 50 पर का मतलब होता है गाइस यहां पे आधा से ज्यादा डाटा आपके पास यहां पे हाफ से ज्यादा डाटा आपके पास उसके अंदर प्रेजेंट नहीं है अब जब हाफ से ज्यादा डाटा उसके अंदर प्रेजेंट नहीं होगा तो आप उसमें से बेटर इनसाइट्स को नहीं निकाल पाएंगे सेकंड चीज यदि आपके डेटा सेट के अंदर 50 पर से कम मिसिंग वैल्यू है तो उस वक्त आपको उस डटा सेट को अवॉइड नहीं करना चाहिए उस डेटा सेट के ऊपर वर्क स्टार्ट कर लेना चाहिए चाहिए अब यहां पे एक और कांसेप्ट आता है यहां पे कि आप क्या करें पर्टिकुलर कॉलम के अंदर परसेंटेज नल वैल्यू को निकालें और जो कि हमने निकाली भी है यहां पे इसके अंदर आप चेक करें कि इसके अंदर कितने परसेंट नल वैल्यू है यदि इस इस कंटेंट में भी आपके पास 50 पर से ज्यादा नल वैल्यू किसी एक पर्टिकुलर कॉलम में मिसिंग है तो इसका मतलब उस कॉलम के अंदर डाटा बिल्कुल भी नहीं प्रेजेंट है तो आप उसे उस कॉलम को मतलब हटा दीजिए मतलब उस कॉलम को ड्रॉप कर दीजिए उस कॉलम को वहां से उस टा से रिमूव कर दीजिए जो भी आप करना चाहे राइट यदि आपको लगता है कि नहीं वो कंटेंट हमारे लिए बहुत ज्यादा इंपॉर्टेंट है तो फिर आप उस कंटेंट को फिल कीजिए हम बात करने वाले हैं कि मिसिंग वैल्यू को कैसे ड्रॉप किया जाता है मतलब डिलीट कैसे किया जाता है इसके बारे में हम यहां पे डिटेल के साथ देखेंगे तो चलिए जरा इसको देखते हैं तो ये रहा हमारा डटा सेट जहां पे हमें बहुत सारी मिसिंग वैल्यू प्रेजेंट है और उसके बारे में हमने लास्ट वाले वीडियो के अंदर भी देखा था कि इसके अंदर बहुत सारी मिसिंग वैल्यू है यहां पे अब हम इसे क्या करेंगे हैंडल करेंगे हैंडल करने के लिए जो हम ऑपरेशन ले रहे हैं वो है हमारा डिलीट ऑपरेशन तो हम डिलीट करना सीखेंगे इसे तो चलते हैं जुपिटर नोटबुक के अंदर जहां पे हम इस डेटा सेट के ऊपर पूरा प्रॉपर्ली काम करेंगे इसके लिए सबसे पहले मैं यहां पे इंपोर्ट करने वाला हूं पांडा एलियाज ऑ पीडी को मतलब पांडा को हम यहां पे इंपोर्ट करेंगे इसके साथ-साथ मैं यहां पे इंपोर्ट करने वाला हूं किसे सी बन को भी क्योंकि हम इसका ग्राफ भी बनाएंगे एलियाज ऑफ एसएनएस लेंगे और उसके बाद में मैं फिर से यहां पे इंपोर्ट करने वाला हूं किसे मैट प्लॉट लिप को करूंगा और ताकि इसके लिए थ्रू हम ग्राफ बना सक और इसके अंदर पीवा प्लॉट्स के पास जाऊंगा एलियाज ऑफ पीएटी मैं रख लूंगा उसके बाद हम हमारे डेटा सेट को लोड करेंगे अ पांडा के अंदर यहां पे थोड़ी मिस्टेक हो गई है तो मैं इसे सॉल्व कर देता हूं पांडा ओके एंड डन करते हैं चलिए अब हम हमारे डटा सेट को लोड करते हैं तो डटा सेट के नाम से इसे वेरिएबल बनाते हैं पडी ड यहां पर ंड को सीएवी का इस्तेमाल करूंगा लोड करने के लिए और मेरी जो फाइल का नाम है वो लोन सीएवी है तो मैं अपनी फाइल का नाम लोन सीएसयू रख दूंगा अब मैंने यहां पे डायरेक्ट इस्तेमाल किया है लोन . सए को इसके पीछे रीजन यह है क्यों कि हम यहां पे जो डटा सेट ले रहे हैं और जो हमारी जुपिटर नोटबुक की फाइल जो है वो सेम पोर्टिकल फोल्डर के अंदर है इस वजह से हम यहां पर डायरेक्टली नेम रख सकते हैं अदर वाइज हमें एड्रेस विद नेम यहां पर देना पड़ता तो चलिए अब हम आगे बढ़ते हैं और हमारे डटा सेट को देखते हैं तो डेटा सेट के पास जाते हैं डॉट यहां पर मैं हैड लगाता हूं और हेड लगा के मैं यहां पे फोर डाटा यहां पर देखता हूं तो मुझे चारों के चारों जो डाटा है वो मुझे यहां पर मिल जाएंगे और ताकि हमसे आराम से देख पाएंगे चलिए अब हमें नेक्स्ट प्रोसीजर में क्या करना है हमें इसके अंदर देखना है कि मिंग वैल्यू कितनी है और उसका हमें ग्राफ भी बनाना है तो चलिए मिसिंग वैल्यू को फाइंड आउट करते हैं मिसिंग वैल्यू को फाइंड आउट करने से पहले मैं एक काम करूंगा डेटा सेट के अंदर डॉट शेप निका लूंगा शेप के थ्रू हम ये देखेंगे कि कितनी रो एंड कितने कॉलम हमारे मिस हो चुके हैं मतलब हमारे हट चुके हैं वो भी हम यहां पे ऑब्जर्व करते रहेंगे चलिए नेक्स्ट अब हमारे पास काम क्या होगा मिसिंग वैल्यू को देखना होगा तो मैं उसके लिए डटा सेट के पास जाऊंगा डॉट यहां पे मैं इस नल को मैं यहां पे लगाने वाला हूं इनल के बाद में मैं डॉट सम लगाऊंगा एंड रन करूंगा तो मुझे हर एक पर्टिकुलर कॉलम के अंदर जितने भी आपके पास नसिंग वैल्यू है वो हमें यहां पर दिख जाएगी नेक्स्ट हमारा टारगेट क्या होगा कि हम इसका ग्राफ बनाएंगे तो एसए डॉट यहां पर मैं यूज करूंगा हिट मैप का और ट मैप के अंदर मैं क्या करने वाला हूं यहां पे इस्तेमाल करने वाला हूं डटा इक्वल्स टू या फिर डायरेक्टली मैं डटा सेट डॉट यहां पे इस नल को कॉल कर दूंगा तो इससे मुझे क्या मिलेगा मेरे पास यहां पे एक ग्राफ मिलेगा और इसको शो करने के लिए मैं अच्छे से शो करने के लिए मैं पीएटी डॉट यहां पर शो फंक्शन को कॉल करने वाला हूं जैसे मुझे ये ग्राफ मिलेगा जहां पे जहां पे मेरी नेस्टिंग वैल्यू है वहां पे मुझे वाइट कलर देखने को मिलेगा और जो मेरी नॉन मिशिंग वैल्यू है जहां पे मुझे ब्लैक दिखने को मिलेगा तो इस तरह से मेरे पास मिसिंग कंटेंट भी मुझे यहां पर दिख चुका है अब हमारा नेक्स्ट टारगेट क्या होगा कि इन मिसिंग कंटेंट को हमें क्या करना है डिलीट करना है अब डिलीट करने के दो मेथड्स मैं आपको बताने वाला हूं पहला मेथड्स हमारे पास होगा कि हम किसी पर्टिकुलर कॉलम को ही डिलीट कर देते हैं यदि मान लीजिए आपका कोई कॉलम है जिसके अंदर 50 पर से ज्यादा डाटा आपके पास यहां पे मिसिंग है उस कांसेप्ट में आप क्या करें उस कॉलम को ही डिलीट कर दीजिए या फिर आप क्या कर सकते हैं कि जिस जिस जिस पर्टिकुलर रो के अंदर मिसिंग वैल्यू है आप क्या करें उस रो को ही डिलीट कर दें हमारे पास दो मेथड्स हैं इन दोनों मेथड्स में से जो भी आप चूज करना चाहे वो कर सकते हैं ये डिपेंड करेगा आपके डेटा सेट के ऊपर कि आपका डेटा सेट के अंदर जो डटा है वो कितना इंपॉर्टेंट है आपके लिए यदि आप रो वाइज डिलीट नहीं करना चाहते हैं तो आप उसके अंदर डटा फिल भी कर सकते हैं लेकिन आज के इस वीडियो के जरिए हम डाटा डिलीट के बारे में सीख रहे हैं इस वजह से मैं आपको डिलीट करना सिखाऊंगा कॉलम वाइज भी सिखाने वाला हूं एंड इवन दैट मैं आपको रो वाइज भी डिलीट करना सिखाऊंगा तो चलिए हम कैसे करेंगे इसको डिलीट जरा समझते हैं यहां पे तो सबसे पहले यदि मुझे किसी कॉलम को हटाना है डायरेक्टली किसी कॉलम को हटाना है तो पहले मैं पता करूंगा कि कौन सा कॉलम मैं हटाना चाहूंगा तो सबसे पहले देखिए सबसे ज्यादा मिसिंग वैल्यू किसमें है तो मुझे दिख रहा है क्रेडिट हिस्ट्री के अंदर सबसे ज्यादा मिसिंग वैल्यू मेरी प्रेजेंट है तो क्यों ना हम क्रेडिट हिस्ट्री को ही हटा दें तो यदि मुझे क्रेडिट हिस्ट्री को हटाना है तो उसके लिए मैं क्या करूंगा डेटा सेट के अंदर जाऊंगा देन यहां पे मैं ड्रॉप का इस्तेमाल करूंगा डटा सेट ड्रॉप का कॉल करने के बाद में मुझे क्या करना पड़ेगा यहां पे कॉलम देना पड़ेगा ड्रॉप फंक्शन क्या करता है आपके कॉलम वाइज डाटा को क्या करता है डिलीट करता है तो यहां पे आप जो भी कॉलम देंगे तो ये कॉलम वाइज आपके पास क्या करेगा उस डाटा को हटा देगा अब यहां पे मुझे कॉलम का नाम देना है तो कॉलम का नाम मैंने यहां पे दे दिया आपके पास यहां पे क्रेडिट हिस्ट्री तो मैंने जैसे ही यहां पे क्रेडिट हिस्ट्री डाला तो ये क्या करेगा ड्रॉप कर देगा अब इसके अंदर मुझे क्या करना है हमारे डाटा को प्रीवियस वाले डाटा से रिप्लेस करना है यदि मैं ऐसा नहीं करता हूं तो ये मुझे क्या करेगा एक नई शीट बना के देगा जिसके अंदर मेरे पास जो पर्टिकुलर कॉलम है वही हमारे पास क्या होंगे डिलीट हो जाएंगे जो हमने यहां पे नाम दिए है ऐसा जरूरी नहीं है कि आप सिंगल कॉलम को डिलीट करें आप मल्टीपल कॉलम को भी डिलीट कर सकते हैं बस यहां पे कॉमा सेपरेट करते हुए मल्टीपल कॉलम दे सकते हैं जिससे वो डिलीट हो जाएगा नेक्स्ट हमारे पास क्या है कि ये हमें क्या करता है एक नया डेटा सेट जनरेट करके देता है हमें हमारा डेटा सेट को नया तरीके से वापस जनरेट नहीं करना है मुझे मेरे पुराने वाले जो डेटा सेट है उसी के अंदर रिप्लेस करना है यहां पे आपको एक स्पेशली ध्यान रखिएगा कि जब आप रिप्लेस ऑप्शन लगा रहे हैं तो इसका मतलब आपके पास यह नहीं है कि आपका ओरिजिनल जो डेटा सेट था वो चेंज हो चुका है नहीं आपके एक्सल के अंदर जो डाटा पड़ा है वो एज इट इज रहेगा बस आपके पास जो आप जुपिटर नोटबुक इस्तेमाल कर रहे हैं इसके अंदर जो आपने फर्स्ट टाइम डाटा इंपोर्ट किया था यस फर्स्ट टाइम डाटा जो आपने लोड किया था उसी के अंदर आपके पास क्या होगी चीजें चेंजेज होने वाली है तो बस मैं यहां पे क्या करूंगा कॉलम के अंदर कैस्ट्री डालूंगा और उसके बाद में मैं यहां पे इस्तेमाल करूंगा इन प्लेस को जैसे ही मैं इन पलेस इक्वल टू ट्रू लगाऊंगा गाइज यहां पे तो यहां पे ये वाला जो कॉलम है वो डिलीट हो जाएगा चलिए अब हमें कैसे पता चलेगा तो आप क्या करें टा सेनल सम है ना इसे एक बार रन कर दीजिए रन करने पर देखिए आपका जो आपका क्रेडिट हिस्ट्री जो आपका पास था वो डिलीट हो चुका है अच्छा कॉलम के अंदर मुझे चेक करना है तो एक बार इसे मत छेड़िए एक बार नीचे जाके आपके पास क्या कीजिएगा डटा सेट डॉट यहां पर सेप को एक बार फिर से कॉल कीजिए जैसे ही आप दोबारा कॉल करते हैं अब आप यहां पे नोटिस कर पाएंगे कि 618 रोज तो एज इट इज है बट यहां पे कॉलम की जो काउंटिंग है वो 13 से किस में बदल चुकी है 12 में बदल चुकी है तो इस तरह से आप किसी भी पर्टिकुलर कॉलम को डिलीट कर सकते हैं इवन दैट जब आप यहां पे हिट मैप को रन करेंगे आपके नल वैल्यू के रिकॉर्डिंग तो उसमें भी आप ऑब्जर्व करेंगे कि आपका एक कॉलम जो है वो मिस हो चुका है तो इस तरह से आप क्या कर सकते हैं अपने पर्टिकुलर किसी भी कॉलम को डिलीट कर सकते हैं जिसके अंदर नल वैल्यू सबसे ज्यादा प्रेजेंट है यहां पे ये जो ऑप्शन है यहां पे नल वैल्यू ज्यादा प्रेजेंट होने का डिलीट करने का जो ऑप्शंस है ये आपका ऑप्शनल है ये आपके डिपेंड करेगा आपके डेटा सेट के ऊपर नेक्स्ट जो चीज हम यहां पे बताने जा रहे हैं जिसके अंदर हम ये सीखेंगे कि आप नल वैल्यू की जितनी भी रो है उनको कैसे डिलीट कर सकते हैं जैसे कि ये वाली जो रो है जैसे मैं 24 रो की बात करूं तो इसके अंदर आप देख पाएंगे आराम से कि इसमें नल वैल्यू प्रेजेंट है अब मुझे इस पर्टिकुलर रो को ही क्या करना है रिमूव कर देना है यहां पे तो वो कैसे होगा तो उसके लिए हम क्या करेंगे हम हमारे डेटा सेट के पास जाएंगे एंड डेटा सेट के पास जाने के बाद में हमारे पास ड्रॉप एन ए फंक्शन होता है इस ड्रॉप एन ए फंक्शन को आपको क्या करना है कॉल कर देना है जैसे ही आप ड्रॉप एन ए फंक्शन को कॉल करते हैं तो ये क्या करता है वो सारी रो को हटा देता है जिसके अंदर आपके मिसिंग कंटेंट होता है मिसिंग कंटेंट का मतलब ए ए प्रेजेंट होता है उसको हटा देता है अब बेसिकली बा बात करें यहां पे तो मिसिंग कंटेंट हट चुका है लेकिन इसने भी क्या कर दिया एक नया डटा सेट जनरेट करके दे दिया है हमें एक नया डेटा सेट नहीं जनरेट करना है हमें हमारे पुराने डटा सेट को ही अपडेट करना है तो उसके लिए मैं क्या करूंगा गाइज यहां पे इन पलेस को कॉल करूंगा और इन प्लेस इक्वल्स टू क्या कर दूंगा गाइज यहां पे ट्रू कर दूंगा यस इन प्लेस इक्वल्स टू क्या करूंगा गाइज यहां पे ट्रू मैं यहां पे कर दूंगा यहां पे एंड देन रन करूंगा जैसे ही रन करूंगा तो मेरे पास वो सारी मिसिंग वैल्यू डिलीट हो जाएगी जो हमारे प्रेजेंट डटा में है एक बार इनल ड सम को रन करते हैं तो कि आपका यहां पे सारी मिसिंग वैल्यू डिलीट हो चुकी है इवन दैट जब मैं हिट मैप को भी रन करता हूं तो मेरा जो हिट मैप है उसका कलर पूरा पूरा चेंज हो जाता है अब आप बोलेंगे कि सर पहले तो ब्लैक कलर था अब यहां पे रेड कलर कैसे आ चुका है तो ताकि आपका पूरा तो पूरा ब्लैक होना चाहिए था तो देखिए आप एक बार कलर बार को ऑब्जर्व करेंगे तो कलर बार के अंदर जो जीरो है वो रिप्रेजेंट कर रहा है रेड कलर को इट्स मीन दैट आपके पास इसके अंदर कोई भी मिसिंग वैल्यू प्रेजेंट नहीं है अब जो ब्लैक कलर है वो -1 के ऊपर शिफ्ट हो चुका है यस - 0.1 के ऊपर शिफ्ट हो चुका है और जो आपका वाइट कलर है वो 0.1 के ऊपर शिफ्ट हो चुका है हमारा मतलब है रो से तो जीरो का कलर कौन सा है रेड कलर है जो कि हमें यहां पर दिखाई दे रहा है तो आई थिंक आई होप सो समझ में आ चुका होगा अब देखते हैं हमारे डेटा सेट के अंदर क्या रो हमारी डिलीट हो चुकी है तो यदि आप यहां पर शेप को वापस जाके दोबारा रन करेंगे तो अब देखिए शेप जो है वो आपकी चेंजेज हो चुकी है और अब जो रो की काउंटिंग है वो 506 हो चुकी है जबकि पहले क्या थी आपका 618 रोज प्रजेंट थी चलिए एक बात देख लेते हैं कि यदि हमने ड्रॉप का इस्तेमाल किया है तो इससे हमने डाटा का कितना लूज किया है मतलब हमने कितनी रो लूज की है एज अ परसेंटेज के तौर पे वो भी जरा चेक कर लेते हैं यहां पे वो कैसे चेक करेंगे इट्स अ वेरी सिंपल 618 में से मैं सबट क्ट कर दूंगा 506 को यस 506 को सबट करूंगा और उसके बाद में नेक्स्ट मैं क्या करूंगा डिवाइड कर दूंगा किससे 618 से डिवाइड कर दूंगा और मुझे परसेंटेज निकालना है तो मैं इसको मल्टीप्लाई बाय क्या कर दूंगा गाइज यहां पे 100 कर दूंगा तो परसेंटेज निकालना मल्टीप्लाई बा 100 किया तो मैंने टोटल 18 पर जो है यहां पे गाइज डाटा को को लूज कर दिया है और ये एक बहुत ही ज्यादा अमाउंट में डाटा है जिसको हमने लूज किया है क्या पता हमारे पास इसी डाटा के अंदर बहुत सारे इंपॉर्टेंट जो चीजें हैं वो छुपी हुई हो सकती थी जो कि हमने लूज कर दी है तो इस पर्टिकुलर कंडीशन के अंदर हमें ये चीज ध्यान रखनी है कि जब भी आपके पास डाटा को आप ड्रॉप करने जा रहे हैं तो बहुत से बहुत कम आप यहां पर डाटा को ड्रॉप कीजिए ज्यादा कोशिश कीजिए डाटा को फिल करने के लिए क्योंकि आपका डाटा लूज होने के चांसेस ज्यादा रहते हैं और आपको ये नहीं पता होता है कि उस डाटा के अंदर क्या आपका इंपॉर्टेंट कंटेंट छुपा हुआ था या नहीं था जो आपके आगे आने वाले टाइम के अंदर मशीन लर्निंग में उसमें हेल्प करने वाला है हम ये जानेंगे कि मिसिंग कंटेंट को कैसे फिल किया जाता है और स्पेशली आज के इस वीडियो के अंदर हम ये जानने वाले हैं कि यदि हमारा डाटा कैटेगरी कल डाटा है तो उसके अंदर डाटा को कैसे फिल किया जा सकता है वो हम डिटेल के साथ देखेंगे तो चलिए सबसे पहले मैं यहां पे आपको ले चलता हूं जुपिटर नोटबुक के ऊपर जहां पे मैंने मैंने क्या कर रखा है पांडा और सीन को लोड कर रखा है और मैंने अपने डेटा सेट को भी लोड कर रखा है और इसके अंदर हमारे पास बहुत सारा मिसिंग कंटेंट है अब देखिए मिसिंग कंटेंट को यदि मुझे फिल करना है तो वैसे तो मैं डायरेक्टली फिल कर सकता हूं और फिल करने के बाद में जो एनएन है वहां पे कुछ ना कुछ डाटा फिल हो जाएगा ये एक आपके पास राइट वे नहीं है क्योंकि आपके पास किसी भी डाटा के अंदर कुछ भी रैंडम फिल कर देना ये सही तरीका नहीं होता है इसकी जगह पर हम क्या करेंगे हमारे डाटा सेट के पहले आपके पास डटा टाइप्स को जानेंगे और फिर उसके बाद उसके अंदर हम क्या करेंगे डटा को फिल करेंगे चलिए जरा समझते हैं यहां पे पहले तो बेसिक फिल करना कैसे करते हैं यहां पे तो देखिए फिल करने का तरीके से पहले मैं आपको क्या कर देता हूं डेटा सेट के ऊपर ले चलता हूं और यहां पे क्या करता हूं इनल के थ्रू में यहां पे आपको मिसिंग कंटेंट के बारे में पहले बताता हूं कि मिसिंग कंटेंट को आप कैसे निकालते हैं तो स्नल डॉट यहां पे मैं क्या करूंगा सम लगाऊंगा एंड देन रन करूंगा तो इसके थ्रू हमें ये पता चलेगा कि किस पर्टिकुलर कॉलम के अंदर कितना मिसिंग कंटेंट प्रेजेंट है अब नेक्स्ट चीज हमें ये जाननी है कि इसके अंदर कैसे डाटा फिल किया जाता है तो उसके लिए मैं डटा सेट डॉट यहां पर फिल ए नाम के जो फंक्शन है उसे मैं अप्लाई करने वाला हूं और इसके अंदर जो भी चीज मुझे फिल करनी है वो मुझे सिर्फ सिंपल सी देनी है इसके अंदर जैसे कि मैं इसके अंदर 10 फिल करना जाह रहा हूं ओके तो जैसे ही मैं 10 लिख के यहां पे एंटर करूंगा तो ये क्या करेगा मेरे पास वो सारे जो मिसिंग कंटेंट है वहां पे 10 को फिल कर देगा जैसे कि आप यहां पर थोड़ा सा देख पाएंगे कि लोन अमाउंट्स के अंदर हमारे पास मिसिंग कंटेंट था और इसने क्या कर दिया 10 को फिल कर दिया है यही चीज आप यदि ऊपर देखेंगे तो इसके अंदर आपको ए मिलेगा तो ये एक मिसिंग कंटेंट है और इसकी जगह पर इन्होंने क्या कर दिया 10 फिल कर दिया है इसी तरह से आप दूसरी जगह पर भी दे देखेंगे तो आपको वहां पे भी मिसिंग कंटेंट के अंदर आपको रैंडम चीजें फिल करी हुई मिलेगी जस्ट लाइक मैं आपको थोड़ा सा एग्जांपल दिखाता हूं तो मैंने यहां पे हैड लगाया है और हेड के अंदर मैंने 10 डाटा रखा है यहां पे तो स्टार्टिंग के यदि मैं 10 डाटा देखूं तो उसके अंदर देखिए आपके पास जो प्रॉपर्टी एरिया है उस प्रॉपर्टी एरिया के अंदर आप देखेंगे तो आपको 10 जो है वो फिल हो चुका है अब जबकि ये जो है वो राइट वे नहीं है क्योंकि प्रॉपर्टी एरिया के अंदर अर्बन रूलर सेमी अर्बन ऐसी कुछ चीजें चल रही है और इसके अंदर यदि हम 10 फिल कर रहे हैं तो इट्स अ रॉन्ग वे तो अब मुझे यहां पे पे क्या करना है इसके अंदर राइट चीजों को फिल करना है अब राइट चीजों को कैसे फिल करना है वो चीज जरा समझ लेते हैं यहां पे तो बेसिकली गाइज यदि डायरेक्टली फिल करना है तो आप इस मेथड को इस्तेमाल कर सकते हैं रदर देन आपके पास ये जो मेथड है बहुत ही गलत तरीका है तो मैं इसे क्लोज करने जा रहा हूं अब मैं सही तरीके के ऊपर बात करूंगा देखिए ये डेटा सेट जो आपके पास दिया गया है इसके अंदर सबसे पहले आप अपने डाटा को देखें कि आपका डटा कौन-कौन सी टाइप्स के अंदर पड़ा है क्योंकि डाटा जो होता है वो दो तरीके से होता है एक तो होता है आपका न्यूमेरिकल डाटा और दूसरा होता है कैटेगरी कल डाटा कैगर कल डेटा मतलब स्ट्रिंग टाइप का आपको डाटा देखने को मिलता है अब जब आपके स्ट्रिंग टाइप का डाटा होता है जिसे हम मशीन लर्निंग के अंदर ऑब्जेक्ट टाइप का डाटा कहते हैं अब ऑब्जेक्ट टाइप के डाटा को हम क्या करते हैं ज्यादातर मड से फिल करना पसंद करते हैं क्योंकि उसके अंदर क्या होता है मोस्ट फ्रिक्वेंटली जो डाटा होता है वो आपके पास फिल करना ज्यादा सही रहता है इसकी जगह पर हम यहां पे बैकवर्ड फिलिंग या फॉरवर्ड फिलिंग का भी इस्तेमाल करते हैं बैकवर्ड फिलिंग के अंदर क्या होता है कि जो आपका पीछे वाला जो डाटा होता है वो आगे जाके फिल होता है और फॉरवर्ड फिलिंग के अंदर क्या होता है कि जो आगे वाला डाटा होता है वो पीछे जाके आपके पास फिल होता है तो हम चाहे तो बैकवर्ड फिलिंग फॉरवर्ड फिलिंग या फिर हम क्या कर सकते हैं यहां पे मोड को फिल कर सकते हैं तो चलिए जरा अब इस वीडियो के जरिए इन तीनों टेक्निक को समझते हैं जो कि एक राइट वे है डाटा को फिल करने का वो भी कैटेगरी कल डाटा के अंदर तो सबसे पहले मैं अपने कैटेगरी कल डाटा को पहचानू कि कैटेगरी डेटा कौन-कौन से हैं फिलहाल यदि हम डेटा सेट को देखें तो यहां से मुझे आराम से पता चल जाएगा कि कौन से कैटेगरी कल है कौन से आपके पास ब्यू मेरिकल डेटा है लेकिन यदि मुझे इसके अलावा भी मुझे जानना है तो उसके लिए मैं क्या करूंगा डेटा सेट के पास जाऊंगा डॉट यहां पर मैं क्या करूंगा इंफो लगाऊंगा इंफो लगाने के बाद में मैं यहां पे देखूंगा हमारे डाटा को तो मुझे यहां पे मिल जाएगा कि कौन-कौन से कैटेगरी कल है और कौन-कौन से हमारे न्यूमेरिकल हैं अब इसके अंदर जो हमें जेंडर है इस जेंडर के अंदर हमें क्या करना है मिसिंग कंटेंट को फिल करना है अब मुझे यहां पे सबसे पहले आपको ये बताना है कि बैकवर्ड फिलिंग एंड फॉरवर्ड फिलिंग क्या होता है उसके बाद नेक्स्ट हम यहां पे मोड को भी फिल करना सीखेंगे तो सबसे पहले मैं क्या करर हूं बैकवर्ड फिलिंग एंड फॉरवर्ड फिलिंग को समझाता हूं आप लोगों को तो देखिए ये लोन अमाउंट्स है इस लोन अमाउंट्स के जरिए ही हम क्या करेंगे बैकवर्ड फिलिंग एंड फॉरवर्ड फिलिंग को समझने वाले हैं तो इसको जरा समझने के लिए मैं क्या करूंगा यहां पे गाइ एक और नया कॉलम बनाऊंगा नया सेल बनाऊंगा और उसके बाद डेटा सेट लूंगा एंड दैट डॉट यहां पर मैं क्या लूंगा फिल एन लूंगा फिल एन लेने के बाद में मुझे क्या करना है यहां पे मेथड को अप्लाई करना है मेथड इक्वल्स टू के अंदर मुझे क्या करना है यहां पे बैक फी को इस्तेमाल करना है तो यहां पर मैं बी फी को इस्तेमाल करूंगा बैकवर्ड फिलिंग के लिए और जैसे ही मैं रन करूंगा तो देखिए हमारा जो पीछे वाला कंटेंट है वो आगे जाके फिल हो जाएगा जो कि आप लोन अमाउंट में बहुत ही अच्छी तरीके से देख पा रहे हैं कि जो आपका 128 है वो ऊपर जाके आपके पास क्या हो गया फिल हो चुका है ये कहलाता है बैकवर्ड फिलिंग यदि मैं बात करूं यहां पे फॉरवर्ड फिलिंग के बारे में तो मुझे एफ लगाना पड़ेगा एंड देन रन करूंगा तो देखिए आपका जो ऊपर वाला डाटा है वो नीचे आके फिल हो चुका है लेकिन यहां पे आपके पास ऊपर कोई भी डाटा प्रेजेंट नहीं है इस वजह से ये ए जो है वो ए की ही तरह रह चुका है आपके पास कहीं पे भी डाटा फिल नहीं हुआ है इसको अच्छे से समझने के लिए हम क्या करते हैं एक्सेस को चेंज करते हैं एक्सेस का मतलब क्या है एक्सेस = 0 का मतलब हम रो वाइज फीलिंग चला रहे हैं यहां पे और एक्सेस इल टू यदि मैं वन का इस्तेमाल करूंगा इसका मतलब मैं कॉलम वाइज आपका डाटा को फिल करूंगा तो इसको अच्छे से समझने के लिए मैं क्या करूंगा एक्सेस का इस्तेमाल करूंगा और एक्सेस को कर दूंगा वन जैसे ही एक्सेस = 1 करूंगा तो अब आप यहां पे आराम से देख पाएंगे कि जो को एप्लीकेशन इनकम का जो डाटा है वो आपके पास क्या आ चुका है लोन अमाउंट में आ चुका है जो कि हमारा क्या है एक फॉरवर्ड फीलिंग डाटा है इसी तरह से हम यहां पे क्या कर सकते हैं बी फील को लगा सकते हैं बी फील के अंदर क्या होता है कि जो पीछे वाला जो डाटा है वो आपके आगे जाके फिल हो जाएगा तो देखिए आपके पास यहां पे वापस देखेंगे तो जो 360 है वो लोन अमाउंट के अंदर आके आपका शिफ्ट हो चुका है तो इसको बोलते हैं बैकवर्ड फीलिंग तो गाइज बैकवर्ड फीलिंग एंड फॉरवर्ड फीलिंग ये जो टेक्नीक है ये आपका कैटे डेटा के अंदर ज्यादातर अप्लाई की जाती है इसके साथ-साथ हम ज्यादातर केसेस के अंदर मोड को फिल करते हैं अब आप लोगों के दिमाग में एक बहुत बड़ा क्वेश्चन चला होगा कि हमें किस समय कौन सी चीज अपनानी चाहिए तो बेसिकली इसका कोई एक फिक्स रूल नहीं है ये डिपेंड करेगा आपके डेटा सेट के ऊपर कि आपका डेटा सेट का पैटर्न क्या है डेटा सेट किस तरह से दिया गया है और उस डेटा सेट से आप क्या समझते हैं वहां पे आप इस डेटा सेट को देखते हुए आप ये डिसाइड करेंगे कि बैकवर्ड फिलिंग सही रहेगा या फॉरवर्ड फीलिंग सही रहेगा या फिर मॉड करना फिल सही रहेगा अब मॉड का मतलब मैं आपको सिंपल सी बात करूं यहां पे आप किसी भी डेटा सेट को लेते हैं उस डेटा सेट के अंदर जो सबसे ज्यादा बार डटा रिपीट हो रहा होता है उस डाटा को आप क्या करते हैं मिसिंग कंटेंट की जगह फिल कर देते हैं ये आपके पास क्या कहता है मॉड फिलिंग कहलाता है अब ये कैसे यूज़ किया जाता है तो जरा समझते हैं यहां पे तो अब हमें क्या करना है केवल और केवल कैटेगरी कल डाटा के अंदर हमारा जो मोड है वो फिल करना है तो फिलहाल मैं इसे आपके कहता हूं कमेंट आउट कर देता हूं अब नेक्स्ट मुझे क्या करना है अपने आपको अपने डेटा सेट के अंदर मड फिल करना है तो मैं डेटा सेट को यूज़ करता हूं देन स्क्वायर ब्रैकेट और यहां पर मैं क्या करता हूं जेंडर को डाल देता हूं क्योंकि मुझे जेंटर के अंदर मोड निकालना है और उसी के अंदर वो डाटा फिल करना है तो दैट यहां पे क्या करूंगा फिल ने को इस्तेमाल करूंगा क्योंकि जो मॉड होता है वो पर्टिकुलर एक सिंगल कॉलम के ही निकाला जाता है क्योंकि आपके पास उसी मोस्ट रिपीटेड जो डाटा है उसी को फिल करना है तो इसीलिए आप क्या करते हैं एक पर्टिकुलर कॉलम के अंदर ही क्या करते हैं आप मोड को फिल करते हैं तो मैं पर्टिकुलर एक कॉलम को ले रहा हूं यहां पे जो कि मेरा जेंडर कॉलम है उसके बाद मैं फिल एने को लगाऊंगा यहां पे फिल एने के अंदर मुझे क्या करना है मोड को लगाना है तो पहले मैं आपको थोड़ा सा मड निकालना बता देता हूं फिर उसके बाद हम य हमारा क्या करेंगे डाटा को फिल करेंगे तो देखिए मोड कैसे निकालते हैं तो सबसे पहले मैं डेटा सेट के पास जाऊंगा देन स्क्वायर रके उसके बाद मैं अपने जेंडर को कॉल करूंगा उसके बाद मुझे क्या करना है मड को निकालना है तो मैं यहां पे मड लिख दूंगा तो हमारे पास जो मड है वो यहां पे आ जाएगा देन मड आने के बाद में आप इसे जैसे ही रन करेंगे तो मॉड मुझे मिलेगा मेल अब ये जो डाटा दिया गया है वो सीरीज डाटा सेट है तो इसके अंदर दैट स्क्वायर ब्रैकेट ऑफ 0 लगाने पर मुझे क्या मिलेगा यहां पे मुझे मेरा मेल जो है वो मुझे मिल जाएगा अब इस मेल को ही मुझे क्या करना है फिल करना है तो मैं इस मेल को फिल कर देता हूं किस तरह से करेंगे डाटा सेट को कॉल करेंगे देन स्क्वायर ब्रैकेट और जेंडर को लगा के डॉट यहां पर आप क्या लगाएंगे फिल एने लगाएंगे यस फिल एन लगाने के बाद में आप क्या करेंगे कि ये जो आपका डाटा आ रखा है इस पूरे डाटा को लेके यहां पे इसके अंदर एडजस्ट करेंगे देन आप यहां पे क्या करेंगे इसके अंदर पेस्ट कर देंगे पेस्ट करने के बाद गाइज यहां पे जैसे ही आप एंटर करेंगे तो आपके पास एक नया कॉलम जनरेट हो जाएगा जिसके अंदर आपके पास जो मोड है वो फिल हो चुका है अब आपको इस तरह से नहीं करना है आपको क्या करना है अपने पुराने वाले डेटा सेट से रिप्लेस करना है तो पुराने वाले डेटा सेट से रिप्लेस करने के लिए आप क्या करेंगे इन पलेस का इस्तेमाल करेंगे इन पलेस इक्वल्स टू आप यहां पे ट्रू लगाइए और रन कर दीजिए तो इससे क्या होगा आपका जो मड है वो फिल हो चुका है आपके गिवन डाटा के अंदर अब ये तो हो गया एक पर्टिकुलर कॉलम के अंदर कि हमने एक पर्टिकुलर कॉलम के अंदर क्या कर दिया है मड फिल कर दिया है लेकिन मुझे मेरे सारे ऑब्जेक्ट टाइप के डाटा के अंदर मड को फिल करना है तो फिर मैं कैसे करूंगा तो इसके लिए बहुत ही सिंपल तरीका है आप क्या कर सकते हैं लूप का इस्तेमाल कर सकते हैं और मोड फील को लगा सकते हैं किस तरह से करेंगे इट्स अ वेरी सिंपल सबसे पहले आप अपने डेटा सेट के अंदर जो ऑब्जेक्ट टाइप के डाटा है उनको कलेक्ट कर लीजिए वो कैसे कलेक्ट करेंगे तो आपको जाना है डटा सेट के अंदर देन आपको क्या करना है डॉट यहां पर सेलेक्ट डेटा टाइप को कॉल करना है सेलेक्ट डाटा टाइप के अंदर आपको क्या करना है इंक्लूड करना है और इंक्लूड किसे करना है गाइज यहां पे ऑब्जेक्ट टाइप के डटा टाइप को कलेक्ट करना है जैसे ही आप रन करेंगे तो आपको वो डेटा सेट मिल जाएगा जिसके अंदर आपके पास क्या है ऑब्जेक्ट टाइप का डाटा यहां पे प्रेजेंट है राइट अब उसके बाद में मुझे क्या करना है गाइस यहां पे मुझे इसमें से क्या करना है आपके कॉलम के नाम को गेट करना ना है तो आप यहां से कॉलम के नेम को गेट कर सकते हैं या फिर आप यहां पर क्या कर सकते हैं इस नल को कॉल कर सकते हैं इज नल को कॉल करने के बाद में आप यहां पर जैसे ही रन करेंगे तो आपके पास नल वैल्यू प्रेजेंट हो जाएगी और उसके बाद आप यहां पे डॉट सम को कॉल करेंगे आपको यहां पे वो कॉलम मिल जाएंगे जिसके अंदर नल वैल्यू प्रेजेंट है जैसे कि आपका डिपार्टमेंट हो गया सेल्फ एंप्लॉयड हो गया मैरिड हो गया एंड उसके बाद में प्रॉपर्टी एरिया भी आपके पास हो गया तो इन सब के अंदर हमें क्या करना है मोड को फिल करना है तो हम इसके अंदर मोड फिल लगा सकते हैं या फिर आप एक और काम कर सकते हैं है इसकी जगह पर आप क्या करें डॉट यहां पे कॉलम्स को लगा दीजिए जैसे ही आप डॉट कॉलम्स को लगाएंगे तो आपको क्या करेगा सारे के सारे कॉलम के नाम मिल जाएंगे एज अ लिस्ट के तौर पे तो मैं यहां पे क्या करूंगा एक फोर लूप लगाऊंगा 4 आ इन यहां पे करूंगा डेटा सेट को लिखूंगा देन उसके बाद मैं कॉलन को लगा के प्रिंट ऑफ आ करूंगा तो मुझे मेरे सारे कॉलम के नाम मिल जाएंगे जो कि कैटेगरी कल डाटा है अब मुझे क्या करना है सिंपल सा जो फिल लेने का कांसेप्ट मैंने ऊपर लगाया था इसी को जस्ट मुझे कॉपी करना है और कॉपी करके मुझे यहां पे पेस्ट कर देना है और जैसे ही मैं पेस्ट करूंगा तो मुझे यहां यहां पे क्या करेगा जेंडर जेंडर मिलेगा इस जेंडर की जगह मैं क्या करूंगा इस आई को पेस्ट कर दूंगा यदि आप भी मशीन लर्निंग डेटा साइंस एंड डेटा एनालिटिक्स जैसी फील्ड में अपने आप को ग्रो करना चाहते हैं तो इसके लिए डब्ल्यू एस क्यूटेक के ऑनलाइन एंड ऑफलाइन बने बैच के अंदर जवाइन करके आप अपनी स्किल को इंप्रूव कर सकते हैं इसके लिए दिए गए कांटेक्ट नंबर पे कॉल करके आप हमारी फ्री डेमो क्लासेस ले सकते हैं तो फिर स्टार्ट करते हैं इस प्लेलिस्ट को और सीखते हैं कि किस तरीके से डाटा को क्लीन किया जाता है इस जेंटर की जगह मैं आ को लगा दूंगा ताकि हमारे पास इन सारे कॉलम्स के अंदर क्या कर रहे हैं मोड को फिल हो जाए अब जिनके अंदर हमारा मिसिंग कंटेंट है उस जगह पर तो हमारा मड फिल हो जाएगा लेकिन जिनके अंदर हमारा मिसिंग कंटेंट नहीं है उस जगह पर हमारा कुछ भी चीजें फिल नहीं होने वाली है तो हमें वैसे भी एरर नहीं मिलने वाली है और मैं जैसे ही इसे रन करूंगा तो मेरे जितने भी मिसिंग कंटेंट थे वो सारे के सारे एक बार के अंदर ही आप क्या कर चुके हैं मोड से फिल हो चुके हैं चलिए इसको जरा देख लेते हैं कि क्या ये वाकई में मोड से फिल हुए हैं या नहीं हुए हैं जैसे ही रन करूंगा तो देखिए अब हमारे पास मिसिंग कंटेंट बहुत कम बच चुके हैं और हमारे पास वो कंटेंट बच चुका है जो कि हमारा न्यूमेरिकल कंटेंट है इस तरह से आप क्या कर सकते हैं कि आपका जो गिवन डेटा सेट है इसके अंदर आप मड को फिल कर सकते हैं वो भी कैटेगरी कल डाटा के अंदर हम ये जानेंगे कि साइक लन के थ्रू मिसिंग वैल्यू को कैसे इंप्यूट किया जाता है मतलब कैसे फिल किया जाता है उसको हम जरा देख रहे हैं तो सबसे पहले हम चलते हैं हमारे डाटा सेट के ऊपर वहां पे हम मिसिंग वैल्यू को थोड़ा आईडेंटिफाई करते हैं और उसके बाद उसको इंप्यूटिंग करने के तरीके को देखते हैं तो देखिए हम आ चुके हैं हमारे जुपिटर नोटबुक के अंदर वहां पे मैंने जो रिक्वायर्ड लाइब्रेरी है उनको इंपोर्ट कर रखा है यहां पे और उसके बाद में मैंने क्या कर रखा है हमारे डाटा सेट को भी लोड कर रखा है फिलहाल मैं क्या करता हूं दोनों को रन कर देता हूं एक बार के लिए अब मैं इसके अंदर क्या करता हूं हमारे मिसिंग वैल्यू को सर्च करता हूं कि कितनी मिसिंग वैल्यू इसके अंदर प्रेजेंट है उसको हम देखते हैं यहां पे तो उसके लिए क्या करते हैं डेटा सेट के पास चलते हैं डॉट यहां पे इनल को कॉल कर देते हैं यहां पे एंड इस नल के बाद में डॉट यहां पर सम को कॉल करते हैं ताकि हमें मिसिंग वैल्यू को पता चल सके तो ये हमें सारी मिसिंग वैल्यू के बारे में सारी इंफॉर्मेशन हमें मिल चुकी है अब इन मिसिंग वैल्यू को हमें क्या करना है फिल करना है तो फिल करने के हमारे पास बहुत सारे टेक्निक हो सकते हैं फिल करने की जो टेक्निक्स हैं उनके बारे में मैं पहले से डिस्कस कर चुका हूं कि जब आपके पास कैटेगरी कल डाटा प्रेजेंट हो तो उस समय आपको क्या फील करना है और जब आपके पास न्यूमेरिकल डेटा प्रेजेंट हो तो उस वक्त आपको क्या फिल करना है ये मैं बहुत ही अच्छी तरीके से क्लियर कर चुका हूं कि आपका डेटा के पैटर्न को देखते हुए किस तरह से आप डाटा को फिल कर सकते हैं कि कब आपको मीन बनना है कब आपको मीडियन बनना है कब आपको मॉड बनना है ये सारी चीजें क्लियर हो चुकी है तो फिलहाल आज के इस वीडियो के अंदर हम उस चीज को टॉपिक को डिस्कस ना करते हुए हम सीधा कैसे फिल करते हैं वो समझने वाले हैं यहां पे तो सबसे पहले क्या करते हैं यहां पे जितने भी न्यूमेरिकल डेटा है उनको थोड़ा अलग कर लेते हैं क्योंकि वहीं पे हम क्या करेंगे थोड़ा फिल करना सीखेंगे तो इसके लिए मैं क्या करूंगा हमारे डटा सेट के पास जाऊंगा यहां पे डॉट यहां पे क्या करूंगा सेलेक्ट डेटा टाइप को कॉल करूंगा पहले तो मैं देख लेता हूं इसमें न्यूमेरिकल डाटा कौन-कौन से हैं तो उसके लिए मुझे क्या करना पड़ेगा यहां पे हमारे डटा सेट के पास जाना पड़ेगा डॉट यहां पे इनो को कॉल करेंगे और जैसे ही हम रन करेंगे तो इसके अंदर देखिए हमारे पास फ्लोटिंग की वैल्यू मिल जाएगी और ऑब्जेक्ट टाइप का भी डटा मिल जाएगा इसके अंदर चलेंगे हम सेलेक्ट डेटा टाइप के अंदर सेलेक्ट ले डेटा टाइप के अंदर हम क्या करेंगे हम इंक्लूड को कॉल करेंगे मतलब हमें कौन-कौन सा डाटा इंक्लूड करना है उसको हम यहां पर लेने वाले हैं अब इसके अंदर मुझे क्या चाहिए मुझे चाहिए प्लॉट 64 बिट्स का जो डाटा है उसे हमें यहां पे चाएगा तो जैसे रन करेंगे वो हमें सारे डाटा दे देगा और उसके बाद में मुझे क्या करना है इसके कॉलम्स के नाम को ही कैट करना है तो मैं सिंपल सा कॉलम को कॉल करूंगा तो मेरे पास जो कॉलम के नाम है यहां पे वो मुझे यहां पर देखने को मिल जाएंगे अब नेक्स्ट टारगेट हमारा क्या होगा यहां पे कि मुझे मिसिंग वैल्यू को फिल करना है यूजिंग द साइकेड लर्न तो मैं करूंगा साइकेड लर्न की लाइब्रेरीज को कॉल कर दूंगा तो फ्रॉम यहां पे सबसे पहले मैं साइक लन के पास जाऊंगा यहां पे डॉट साइक लन की लाइब्रेरी के अंदर इनपुट नाम के क्या है हमारे पास एक मॉड्यूल है तो उसको मैं कॉल करने वाला हूं यहां पे तो मैं क्या करूंगा यहां पे इंप्यूट को कॉल करूंगा इंप्यूट को कॉल करने के बाद में यहां पे फ्रॉम के थ्रू मैं यहां पे सिंपल इंप्यूटर नाम की जो क्लास है उसे मैं यहां पे कॉल करना वाला हूं क्योंकि सिंपल इंप्यूटर के थ्रू ही हम क्या करने वाले हैं हमारे डाटा को फिल करने वाले हैं अब सिंपल इंप्यूटर के अंदर मैं करूंगा एसआई के नाम से एक वेरिएबल बना लेता हूं यहां पे और उसके बाद मैं मेरी जो सिंपल इंप्यूटर क्लास है इसको मैं कॉल कर देता हूं अब इस क्लास को जैसे ही आप ओपन करेंगे तो इसके अंदर बहुत सारे हाइपर पैरामीटर्स आपको देखने को मिल जाएंगे जिसके अंदर आपको देखि सबसे पहले क्या मिलेगा मिसिंग वैल्यू मिलेगा मिसिंग वैल्यू के अंदर आप एनएन को फिल करना चाहते हैं स्ट्रेटेजी आपको मिल जाएगी स्ट्रेटेजी के मतलब आप क्या फिल करना चाहते हैं मीन मीडियन मॉड क्या फिल करना चाहते हैं वो भी आप देख सकते हैं फिल वैल्यू फिल वैल्यू का मतलब है यदि आप किसी कांस्टेंट को फिल करना चाहते हैं और वो कांस्टेंट वैल्यू क्या है वो भी आप यहां पे दे सकते हैं इसके साथ-साथ वेयर बॉस मिल जाएगा कॉपी मिल जाएगा और ऐड इंडक्टर भी मिल जाएगा और बहुत सारी चीजें आपको मिल जाएगी इसके अंदर हमारे पास जो सबसे हमारी जो मेन इंपॉर्टेंट चीज है वो स्ट्रेटजी है स्ट्रेटेजी के अंदर आप यहां पर देख पाएंगे आपके पास मीन भी है मीन के बाद में आप देखेंगे मीडियन भी है मीडियन के बाद में मोस्ट फ्रीक्वेंसी है मोस्ट फ्रीक्वेंसी का मतलब है यहां पे मोड से मतलब है आपका तो यहां पे आप मड को भी फिल कर सकते हैं इसके साथ-साथ आपको कांस्टेंट वैल्यू यदि फिल करनी है तो कांस्टेंट वैल्यू भी आप यहां पर दे सकते हैं तो फिलहाल मैं मीन को ही रखना चाहूंगा क्योंकि मेरे पास सारा न्यूमेरिकल डटा है तो मुझे मीन को ही फिल करना है बेसिकली तो मैं मीन को ही रखना चाहूंगा हमारे स्ट्रेटजी के तौर पे और मैं किसी चीज को चेंज नहीं करना चाहूंगा तो आप चाहे तो इसे चेंज कर सकते हैं मैं करूंगा यहां पे स्ट्रेटेजी लगाऊंगा स्ट्रेटजी के अंदर मैं यहां पे क्या करूंगा मीन लिख दूंगा इस तरह से आप मोस्ट फ्रीक्वेंसी मीडियन वगैरह रख सकते हैं ये आपका सिंपल इंप्यूटर का जो क्लास है वो आपका रेडी हो चुका है अब इस एसआई के अंदर ही आपको क्या मिलेगा फिट ट्रांसफॉर्म आपको मिल जाएगा फिट ट्रांसफ के थ्रू आप अपने डाटा के अंदर जो मिसिंग वैल्यू है उसे फिल कर सकते हैं अब मुझे इसके लिए क्या चाहिए मेरा डेटा सेट चाहिए तो मैं डेटा सेट के पास जाऊंगा देन डबल स्क्वायर ब्रैकेट लगाऊंगा और डबल स्क्वायर ब्रैकेट लगाते हुए एक काम करेंगे ये जितने भी मेरे नाम है यहां पे इन सबको कॉपी कर लेंगे क्योंकि इन सभी के अंदर मेरे पास क्या है मिसिंग वैल्यू प्रेजेंट है तो मैं यहां पे इन सब को लेके यहां पे पेस्ट कर देता हूं पेस्ट करने के बाद आप जैसे ही यहां पे रन करेंगे तो इसके अंदर आपके जो मिसिंग हैं वो सारे के सारे फिल हो चुके हैं और आपका जो डाटा मिला है वो एज ए एरे के तौर पे मिला है अब आप चाहें तो इसे आप अपने डाटा फ्रेम के अंदर कन्वर्ट कर सकते हैं अब डटा फ्रेम के अंदर कैसे कन्वर्ट करेंगे तो इट्स अ वेरी सिंपल आंसर आपके पास ये जो डटा आया है वो एक एरे के तौर पे आया है तो आप इसे एआर के अंदर जाके सेव कर सकते हैं मतलब किसी पर्टिकुलर वेरिएबल के अंदर जाके सेव कर सकते हैं फिर उसके बाद आप यहां पर पीडी डॉट यहां पर डटा फ्रेम का इस्तेमाल कर सकते हैं और पीडी डॉट डेटा फ्रेम के अंदर ये जो एरे है वो एज एरे के तौर पे देंगे यहां पे और आपके पास जो कॉलम के नाम है वो कॉलम के नाम आप किस तरह से देंगे तो कॉलम के नाम ये आपके पास पड़े हैं इसी के थ्रू आप दे सकते हैं जैसे डटा टाइप के बाद में सेलेक्ट डटा टाइप इंक्लूड करके ये जो आपके पास है इसी को सेम टू सेम आप यहां पर इसके थ्रू दे सकते हैं और जैसे ही आप रन करेंगे तो अब आपके पास जो डटा है वो मिसिंग वैल्यू फिल हुआ हुआ आपके पास यहां पे डाटा मिलेगा अब आप चाहे तो इसके अंदर मिसिंग वैल्यू को चेक भी कर सकते हैं कि इसके अंदर मिसिंग वैल्यू है या नहीं है तो उसको मैं चेक कैसे करूंगा तो मैं न्यू डेटा सेट के नाम से वेरिएबल बना लेता हूं ताकि मैं उसके अंदर देख सकूं कि मिसिंग वैल्यू प्रेजेंट है या नहीं है तो मैं न्यू डेटा सेट के अंदर गया यहां पे डॉट मैंने इज नल को कॉल किया यहां पे और और फिर उसके बाद मैंने यहां पे डॉट सम को मैंने कॉल किया यहां पे ताकि मुझे पता चल सके कितनी मिसिंग वैल्यू प्रेजेंट है और फिलहाल यहां पे सभी के अंदर जीरो आई है क्योंकि यहां पे मिसिंग वैल्यू जो है थी वो आपकी फिल हो चुकी है चलिए एक बार चेक कर लेते हैं यहां पे न्यू डेटा सेट के अंदर जाके कि आपकी मिसिंग वैल्यू फिल हुई है या नहीं हुई है तो आप लोन अमाउंट को देख सकते हैं क्योंकि लोन अमाउंट के अंदर आपकी जो मिसिंग वैल्यू है वो प्रेजेंट थी और वो आपके पास भर चुकी है और वो किससे भरी है 146 से भरी है यहां पे जो कि उस डाटा का मीन है कैसे पता चला मुझे यहां पे तो देखिए मुझे आपके पास लोन अमाउंट प जाएंगे तो लोन अमाउंट में आपके पास क्या है एन आपको दिखाई दे रहा है इसी के अंदर आपके पास देखिए 146 आपके पास जो डाटा है वो फिल हो चुका है और ये इसका मीन है ये कैसे कंफर्म करेंगे आप यहां पे तो वो आप देख सकते हैं अपने डेटा सेट के थ्रू डेटा सेट के अंदर चलेंगे यहां पे और डटा सेट के अंदर जाने के बाद मुझे लोन अमाउंट चाहिए था तो मैंने यहां पे क्या किया लोन अमाउंट्स यहां पे डाल दिया यहां पे और लोन अमाउंट्स के पास जाने के बाद में डॉट मैं यहां पे क्या करूंगा इसका मीन को कॉल करूंगा मतलब मुझे इसका मीन निकालना है यहां पे मैं मीन को जैसे ही कॉल करूंगा तो देखिए मीन जो है वो 14632 मुझे मिला है यहां पे और जो कि आप यहां पे देख पाएंगे लोन अमाउंट्स के अंदर 140 6.32 मुझे यहां पे देखने को मिल रहा है तो इसका मतलब क्या है कि मेरे डेटा सेट के अंदर जो मीन है वो फिल हो चुका है और ये मीन आपके पास एप्लीकेशन इन कम को एप्लीकेशन इनकम लोन अमाउंट लोन अमाउंट टर्न्स एंड कैस्ट्री इन सभी के अंदर आपके पास क्या हो चुका है फिल हो चुका है तो इस तरह से आप क्या कर सकते हैं अपने डाटा के अंदर मीन को फिल कर सकते हैं आप चाहे तो मीडियन को भी फिल कर सकते हैं बहुत ही सिंपल है आप स्ट्रेटेजी के अंदर जाएं और अपनी स्ट्रेटेजी को चेंज करें तो आपके पास मीडियन भी फिल हो जाएगा और यदि किसी कांस्टेंट वैल्यू को फिल करना है तो भी कर सकते हैं अब इसका इस्तेमाल कहां किया जाता है तो कॉलम टान ट्रांसफॉर्मेशन और जब आप मशीन लर्निंग की पाइपलाइन को इस्तेमाल करेंगे मशीन लर्निंग की पाइपलाइन का मतलब बेसिकली यहां पे है कि जब आप अपने प्रोजेक्ट को एंड मोड पे लेके आएंगे और आप इसे डिप्लॉयड जाएंगे तब आपको एक पाइपलाइन सर्किट्स बनाना पड़ता है और उसके अंदर आपका ये जितना भी प्रोसेसर है मिसिंग वैल्यू को फिल करने का जो प्रोसेसर है वो आपको ऑटोमेटिक रखना पड़ता है ताकि आपके पास कोई नया डाटा है तो उसके अंदर भी ऑटोमेटिक जो डाटा है वो फिल हो जाए यहां पे तो उस कंडीशन के अंदर आपको सिंपल इंप्यूटर की जरूरत पड़ती है और उसके थ्रू आप अपने डाटा को फिल कर सकते हैं हम बात करेंगे एन कोडिंग कैसे कर सकते हैं वो भी वन हॉट एन कोडिंग के बारे में तो बेसिकली बात करें तो लास्ट वाले वीडियो के अंदर हमने ये देखा था कि इनकोडिंग होती क्या है जब भी हमारे पास कोई कैटेगरी कल डाटा हमें मिल जाए और उनको हम न्यूमेरिकल डाटा में कन्वर्ट करना चाहे तो उसे हम इनकोडिंग बोलते हैं और इसके करने के पीछे पर्पस क्या होता है क्योंकि आप जब इस डाटा को मशीन लर्निंग एल्गोरिथम के अंदर यूज यूज करने वाले हैं तो उस वक्त आपके डाटा को आप क्या करते हैं इनकोडिंग करके देते हैं क्योंकि मशीन लर्निंग एल्गोरिथम्स जो होती है वो एक मैथमेटिकल फार्मूला होती है जस्ट एग्जांपल y = mx3 या फिर 1 / e टू पावर x + c इस तरह के फार्मूला के कॉमिनेशन होते हैं यहां पे अब इन फार्मूला के अंदर हमें जरूरत होती है न्यूमेरिकल डाटा की और हम दे देते हैं यहां पे कैटेगरी कल डेटा तो ये इनके ऊपर वर्क नहीं कर पाती है तो इस सिचुएशन के अंदर हमें क्या करना पड़ता है कि हम हमारे पास जितने भी कैटेगरी कल डाटा होता है इन्हें हमें न्यूमेरिकल डाटा में कन्वर्ट करना पड़ता है इन कन्वर्ट करने की प्रोसीजर को हम इनकोडिंग बोलते हैं और आज के इस वीडियो के अंदर हम वन हॉट एन कोडिंग को समझने वाले हैं कि ये वन हॉट एन कोडिंग का प्रोसीजर क्या होता है और इसे किस तरीके से परफॉर्म कर सकते हैं इसको जरा समझते हैं यहां पे तो देखिए मैं एक्सल सीट में आ चुका हूं और वन हॉट एन कोडिंग को समझाऊं मैं जनर और मैरिड के बेसिस पे बेसिकली ये उस वक्त यहां पे इनकोडिंग की जाती है जब आपके पास नंबर नंबर ऑफ डाटा कम प्रेजेंट हो मतलब जैसे मेल फीमेल इस तरह के डेटा प्रेजेंट हो मैरिड में यस नो इस तरह के डटा प्रेजेंट हो या प्रॉपर्टी एरिया में आपके पास यहां पे अर्बन सेमी अर्बन रूलर इस तरह के डाटा यदि आपके प्रेजेंट है मतलब एक लिमिटेड अमाउंट में डेटा प्रेजेंट है एक या दो डाटा प्रेजेंट है तो आप वहां पे वन हॉट एन कोडिंग को इस्तेमाल कर सकते हैं अब वन हॉट एन कोडिंग करते कैसे है परफॉर्म यहां पे तो इसको जरा देखते हैं यहां पे तो सबसे पहले वन हॉट एन कोडिंग क्या करता है आपके पास दो वेरिएबल क्रिएट करता है जैसे मुझे जेंडर की वन हॉट एन कोडिंग करनी है तो इसको समझने के लिए मैं क्या करूंगा यहां पे एक नया जो डाटा है वो इंसर्ट करूंगा इसी के जस्ट आगे और इसके अंदर क्या करेंगे आपके पास जेंडर के अंदर क्या करेंगे यहां पे जेंडर के नाम से ही यस जेंडर मेल के नाम से ही आपके पास क्या बन जाएगा एक कॉलम बन जाएगा और इसी के अंदर आपके पास जेंडर के नाम से ही आपके पास जेंडर अंडरस्कोर फीमेल भी एक बन जाएगा तो मैं यहां पे फीमेल भी आपके पास यहां पे बन जाता है अब होता क्या है कि आपके पास जो जेंडर वाला कॉलम है उसके अकॉर्डिंग आपका जो डाटा है यहां पे जीरो और वन के अकॉर्डिंग फिल होता रहता है जैसे आपके यहां पे देखेंगे इस डाटा के अंदर आपको क्या दिख रहा है मेल दिख रहा है तो मेल के अंदर आपके पास वन आ जाता है और फीमेल के अंदर आपका जीरो चला जाता है सेम इसी तरह से यदि आपके पास फिर से मेल है तो वन आ जाएगा और फीमेल के अंदर आपका जीरो चला जाएगा अब मान लीजिए कभी आपका फीमेल डेटा आ जागा तो उस वक्त क्या होगा कि यहां पे मेल वाले सेशन के अंदर रो आ जाएगा और फीमेल वाले सेक्शन के अंदर वन आ जाएगा तो इस तरह के इनकोडिंग को हम क्या बोलते हैं वन हॉट इनकोडिंग बोलते हैं और इसके थ्रू आप क्या करते हैं आपने डाटा को एनकोड करते हैं अब आपका डाटा रो और वन के अंदर कन्वर्ट हो चुका है मतलब आपके पास आपका डाटा नंबर के अंदर कन्वर्ट हो चुका है तो अब इसका इस्तेमाल हम मशीन लर्निंग एल्गोरिथम में कर सकते हैं तो चलिए जरा अब इसको डिटेल के साथ समझ लेते हैं कि ये इनकोडिंग कैसे परफॉर्म होगी तो अब हम इसे मैनुअल ना करते हुए हम इसे python's एलियाज ऑफ यहां पे पीडी को इंपोर्ट करने वाला हूं और उसके बाद आप चाहे तो इसके अंदर आप यहां पे ग्राफ वगर वैह बनाने के लिए c1 का भी इस्तेमाल कर सकते हैं लेकिन फिलहाल हम ऐसा अभी कुछ नहीं करने वाले हैं हम सीधा इनकोडिंग को परफॉर्म करेंगे अब इनकोडिंग करने के लिए सबसे पहले मुझे डेटा सेट की जरूरत पड़ेगी तो मैं डेटा सेट ले लेता हूं यहां पे और पीडी डॉट यहां पर ड सीएसवी की हेल्प से मेरे जो डेटा सेट है उसे लोड कराता हूं और डेटा सेट का नाम है हमारे पास यहां पे लोड सीएवी उसके बाद हम क्या करते हैं हमारे डेटा सेट को देखते हैं डॉट हैड लगाते हुए चलिए मुझे मेरा डाटा दिख चुका है अब मुझे मेरी जिसकी इनकोडिंग करनी है वो है आपके पास कॉलम जेंडर और मेरिड एक काम कर ते हैं पहले इसके जो आपके पास कॉलम्स हैं इन कॉलम के अंदर मिसिंग वैल्यू को फिल कर देते हैं तो चलिए देखते हैं क्या इसमें मिसिंग वैल्यू प्रेजेंट है या नहीं है तो मिसिंग वैल्यू देखने के लिए डटा सेट डॉट यहां पर मैं इस नल का इस्तेमाल करने वाला हूं यहां पे एंड डॉट सम लगाते हुए मैं क्या कर रहा हूं इसके अंदर मिसिंग वैल्यू को देखूंगा इसके अंदर हमें क्या देखने को मिल रहा है कि जेंडर और मैरिड ऐसे दो कॉलम है जिनके अंदर हमें मिसिंग वैल्यू प्रेजेंट है और ये दोनों कैटेगरी कल कॉलम है तो हमें पहले इनकी मिसिंग वैल्यू को फिल करना पड़ेगा फिर हम जाके क्या करेंगे इसके अंदर अंदर हम क्या इस्तेमाल करेंगे एन कोडिंग का इस्तेमाल करेंगे मिसिंग वैल्यू को फिल करने के लिए क्या करूंगा मैं फिल लेने का इस्तेमाल करूंगा तो मैं चलता हूं डेटा सेट के अंदर और सबसे पहले मैं चलता हूं किसके अंदर जेंडर के अंदर तो मैंने जेंडर ले लिया है जेंडर लेने के बाद में मैं यहां पे क्या इस्तेमाल करने वाला हूं फिल लेने का इस्तेमाल करूंगा डाटा को फिल करने के लिए तो मैंने फिल लेने इस्तेमाल किया है अब देखिए हमारे पास ये डाटा जो है वो कैटेगरी कॉलम में है तो इसलिए हम इसके अंदर क्या करेंगे मोड को फिल कर देंगे तो फटाफट से मलव को फिल कर देते हैं ताकि हम एन कोडिंग को समझ सक तो मैंने यहां पे जेंडर लगा दिया है जेंडर को लगाने के बाद मैंने यहां पे मोड को कॉल कर दिया है और मोड को कॉल करने के बाद में मैंने यहां पे क्या किया है इसका स्क्वायर ब्रैकेट ऑफ ़ ले लिया है उसके बाद मैंने यहां पे इन प्लेस इक्वल्स टू क्या कर दिया है यहां पे टू का इस्तेमाल कर दिया है चलिए जेंडर तो हमारा फिल हो ही चुका है और इसको देखने के लिए हम चले तो जेंडर भी हमारा फिल हो गया है उसके बाद देखिए हमारे पास मेरिड को फिल करना है तो मैं क्या करता हूं मैरिड को सेलेक्ट कर लेता हूं तो जेंडर की जगह हम क्या करते हैं मैरिड को डाल देते हैं और फिर उसके बाद में यहां पे भी हम मेरिड डाल के इसे भी फिल कर देते हैं चलिए मेरिड भी हमारा क्या हो चुका है फिल हो चुका है अब बारी है इनकोडिंग की तो वन हॉट एन कोडिंग करने के लिए आप दो तरीके का इस्तेमाल कर सकते हैं इसके अंदर सबसे पहला आता है गेट डमस गेट डमस की हेल्प से आप क्या कर सकते हैं वन ह एंड कोडी को परफॉर्म कर सकते हैं ये पांडा का आपके पास क्या है मेथड है जिसका इस्तेमाल कर सकते हैं आप यहां पे दूसरा है आपके पास साइक्र लर्न लाइब्रेरी के अंदर वन हॉट इनकोडर नाम से क्लास जिसका इस्तेमाल करते हुए वन हॉट एन कोडिंग का भी इस्तेमाल कर सकते हैं तो दोनों प्रोसेसर को इस वीडियो के जरिए हम समझने वाले हैं चलिए वन बाय वन इन दोनों प्रोसीजर को समझते हैं सबसे पहले चलते हैं गेट डमस के पास में गेट डमीज किस तरह से परफॉर्म करता है जरा उसको समझेंगे तो इसके लिए मैं क्या करूंगा गाइज यहां पे सबसे पहले मैं यहां पे पडी डॉट यहां पर गेट डमीज को कॉल कर देता हूं यहां पे एंड गेट डमीज के अंदर जाने के बाद में ये देखिए सबसे पहले आपके पास जो आपका डाटा है उसकी डिमांड करता है उसके बाद आप जो भी प्रीफिक्स लगाना चाहे वो आप लगा सकते हैं प्रीफिक्स को सेपरेटर भी दे सकते हैं और भी बहुत सारी चीजें मांगता है तो मैं क्या करता हूं हमारा जो डाटा है जो इनकोडिंग हमें करना है पहले उस डाटा को अलग कर लेता हूं तो मैंने देखिए _ डटा के नाम से मैंने एक अलग से वेरिएबल बना रखा है जहां पे मैं अपने डटा टा सेट से क्या करूंगा कि मुझे जेंडर और आपके पास जो मैरिड है इन दोनों को अलग कर देना है ताकि मैं यहां पे क्या कर सकूं एन कोडिंग को परफॉर्म कर सकूं तो मैंने क्या किया जेंडर और मैरिड को मैंने क्या कर दिया यहां पे गाइस अलग कर दिया है उसके बाद में मेरे पास क्या है ईन डाटा को मैं एक बार चेक कर लेता हूं ईन डाटा मुझे किस तरह दिखाई दे रहा है तो ईन डाटा मेरे पास आ चुका है अब मैं इसकी इनकोडिंग आराम से कर पाऊंगा चलिए अब मुझे क्या करना है गाइस यहां पे सिंपल सा न अंडरस्कोर जो डाटा है वो मुझे पास करना है एंड देन एंटर करना है तो देखिए इसने मेरी जो डाटा की इनकोडिंग है वो करके दे दी है देखिए जेंडर के अंदर फीमेल बनाया है जेंडर के अंदर मेल बनाया है और ट्रू फॉल्स के अंदर इसने अपना जो रिजल्ट है वो मुझे यहां पे दे दिया है अब देखिए जैसा कि इसने आपका जो आंसर है वो ट्रू फॉल्स में दिया है इस डाटा को यदि आप चेक करेंगे यहां पे इंफो लगा के तो ये डाटा आपको बाइनरी कोडेड के अंदर दिखाएगा यदि मैं यहां पे इंफो लगा के चेक करूं यहां पे तो ये मुझे क्या दिखाता है यहां पे बुलियन डाटा के अंदर दिखाता है मतलब बाइनरी कोडेड में 01 के अंदर आपको रिप्रेजेंट करता है लेकिन हमें जो हमारा डाटा चाहिए वो न्यूमेरिकल कंटेंट में चाहिए तो फिर से मुझे यहां पे क्या करना पड़ेगा इसे न्यूमेरिकल कंटेंट में कन्वर्ट करने के लिए इनकोडिंग का इस्तेमाल करना पड़ेगा या नंबर्स को देना पड़ेगा इसकी जगह आप यहां पे क्या इस्तेमाल कर सकते हैं साइकेड लन की लाइब्रेरी के अंदर जाकर आप वन हॉट एन कोडिंग को इस्तेमाल करते हुए यह काम बहुत ही आसानी से कर सकते हैं अब ये कैसे करा जाएगा तो इसको भी जरा हम देख लेते हैं तो इसके लिए आपको जरूरत पड़ेगी साइक लन की लाइब्रेरी अब साइक लन की लाइब्रेरी को सबसे पहले क्या करें आप अपने सिस्टम के अंदर इंस्टॉल कर लें ये कहां मिलेगी तो आपको सबसे पहले सर्च करना है और सर्च बार पे जाने के बाद में एलन pythonanywhere.com केलन के लिए लाइब्रेरी को जब आप देखेंगे तो इसके अंदर आपका सब तरह का काम होता है इसके अंदर प्री प्रोसेसिंग से लगाकर आपके मॉडल बिल्डिंग तक का सारा काम होता है यदि आप इसके अंदर जाएंगे तो देखिए प्री प्रोसेसिंग के अंदर आपके पास यहां पे अलग-अलग तरीके से काम कर सकते हैं जिसके अंदर आपके पास प्री प्रोसेसिंग के अंदर प्री प्रोसेसिंग होगा फीचर एक्सट्रैक्शन होगा और भी बहुत से तरीके जो काम होते हैं आपके पास डाटा को तैयार करने से रिलेटेड वो सारे के सारे काम इसके अंदर करे जा सकते हैं तो बस हम इसी का ही इस्तेमाल करने वाले हैं आपके पास इनकोडिंग करने के लिए अब ये इनकोडिंग होगी कैसे तो आपको सबसे पहले क्या करना है फ्रॉम साइक लन के अंदर चलना है साइक लर्न के अंदर आपके पास क्या आता है प्री प्रोसेसिंग नाम की एक फाइल है मतलब साइकल न आपके पास का एक मॉड्यूल है जहां पे प्री प्रोसेसिंग नाम की एक फाइल पड़ी है उस फाइल के अंदर आप जाके इंपोर्ट करेंगे और किसे इंपोर्ट करने वाले हैं वन हॉट इनकोडर को इंपोर्ट करने वाले हैं वन हॉट इनकोडर नाम की क्लास के अंदर आपका इनकोडिंग परफॉर्म होगी अब क्या करना है आपको गाइज यहां पे सिंपल सा ओई के नाम से आप क्या करें एक वेरिएबल बना दें मतलब एक ऑब्जेक्ट तैयार कर लें इसके अंदर जाके आप यहां पे क्या करें वन हॉट एन कोडर को कॉल कर लें उसके बाद देखिए ओई के अंदर जाना है और मॉडल को क्या करना है फिट ट्रांसफॉर्म करना है आप चाहे तो यहां पे फिट भी कर सकते हैं और ट्रांसफॉर्म अलग से कर सकते हैं और आप चाहे तो आप यहां पे फिट ट्रांसफॉर्म एक साथ भी कर सकते हैं फिट ट्रांसफॉर्म यहां पे क्या काम करता है इसको जरा थोड़ा डिटेल के साथ समझते हैं तो देखिए फिट ट्रांसफॉर्म क्या करता है कि आपके पहले आपके डाटा को देखता है समझता है और उसके अंदर अपनी सार्किट लर्न की जो एल्गोरिथम है वो अप्लाई करता है एंड देन उसके बाद में जो भी आपका डाटा है उसे ट्रांसफॉर्म कर देता है जैसे कि मैं यदि यहां पे कैटेगरी कल डाटा भेजूं तो यह उसे न्यूमेरिकल डाटा में कन्वर्ट कर देता है तो बस यही इसका काम होता है फिट ट्रांसफॉर्म का तो हम भी यही काम करने वाले हैं बस इसके अंदर आपको क्या करना है आपका जो भी अन कोडिंग का डाटा है वो इसके अंदर पास करना है तो मैं यहां पे क्या करना हूं _ डाटा को यहां पे पास कर रहा हूं जैसे ही मैं _ डाटा को पास करता हूं ये मुझे एक स्पर्स मैट्रिक्स बना के देता है स्पर्स मैट्रिक्स का मतलब आप जरा समझिए क्योंकि ये बहुत ज्यादा आगे काम आने वाली है जब भी आप डीप लर्निंग अंदर जब वर्क कर रहे हैं तब स्पर्स मैट्रिक्स एक ऐसी मैट्रिक्स होती है जिसके अंदर ज्यादातर जो कंटेंट होता है मतलब ज्यादातर जो एलिमेंट्स होते हैं वो जीरो और वन से फिल होते हैं और जैसा कि हमें पता है कि हमारे पास ये जो आपका वन हॉट इनकोडिंग डिटा लेके आता है वो आपके जीरो और वन कंटेंट से ही बना हुआ होता है तो बेसिकली स्पार्क्स मैट्रिक्स उस मैट्रिक्स को कहते हैं जहां पे ज्यादातर कंटेंट आपके पास जीरो और वन से फिल करे हुए होते हैं आपके पास यहां पे अब ये हमें क्या दे रहा है एक एड्रेस दे रहा है या फिर आप बोल सकते हैं एक आपके पास ग्रॉस फॉर्मेट दे रहा है जहां पे आपका डेटा मतलब वन हॉट एन कोडिंग करा हुआ जो डटा है वो प्रेजेंट पड़ा है अब हमें क्या करना पड़ेगा इस डाटा को एरे में कन्वर्ट करना पड़ेगा एरे में कन्वर्ट करने के लिए आप बस क्या करें सिसे इसके पीछे सिंपल सा ड एरे को कॉल कर दें आप यहां पे और 2 एरे को जैसे ही आप कॉल करेंगे तो आपका जो डाटा है वो एरे में कन्वर्ट हो जाएगा मतलब आपका डाटा इनकोडिंग हो जाएगा और एक एरे फॉर्मेट में मिल जाएगा लेकिन मुझे ये मेरा जो डटा है वो एक एरे फॉर्मेट में नहीं चाहिए मुझे एक डेटा फ्रेम के के तौर पे चाहिए तो आपको यहां पे इसे डटा फ्रेम के अंदर कन्वर्ट करना पड़ेगा अब डटा फ्रेम के अंदर कैसे कन्वर्ट कर सकते हैं तो उसके लिए बहुत ही सिंपल तरीका है आप क्या करें यहां पे पहले इसे सेव कर लें तो मैं इसे एर नाम के वेरिएबल के अंदर सेव कर रहा हूं और डटा फ्रेम में कन्वर्ट करने के लिए पडी डॉ मैं डटा फ्रेम का इस्तेमाल करूंगा यहां पे जिसके अंदर एआर जो डाटा है वो एज इट इज दूंगा अब बारी है हमारे कॉलम के नेम की तो कॉलम के नेम के अंदर आप अपने कॉलम के नाम तैयार कर लें जैसा कि सबसे पहले मैं बात करूं कि हमारे पास क्या है जेंडर है जेंडर में मेल और फीमेल है फिर उसी तरह से में भी यस एंड नो है तो देखिए ये कॉलम हमारे पास पहले से तैयार है तो मुझे बार-बार लिखने की जरूरत नहीं पड़ेगी तो मैं क्या करूंगा गाइस यहां पे सिंपल सा इन्हीं को यूज कर लूंगा तो मैंने जेंडर फीमेल डाल दिया है और इसी तरह से मैं क्या करूंगा यहां पे जेंडर मेल को भी ले लूंगा यहां पे ओके और इसी तरीके से मैं क्या करूंगा गाइस यहां पे मैरिड में भी नो को ले लूंगा यहां पे और इसी तरीके से मैं क्या करने वाला हूं मैरिड को मैं यस भी ले लूंगा एंड इसको कर देते हैं यस चलिए अब मैं इसे रन करता हूं तो देखिए मेरे पास जो मेरे डाटा है उनकी एन कोडिंग हो चुकी है मतलब अब मुझे इन कॉलम की इस्तेमाल करने की जरूरत नहीं है जो कि कैटेगरी कल कॉलम है यहां पे जिसके अंदर मेल और फीमेल लिखा है उसकी जगह पर मैं यहां पे इन कॉलम का इस्तेमाल कर सकता हूं जहां पे मैं जेंडर फीमेल जेंडर मेल मैरिड नो और मैरिड एस का इस्तेमाल कर सकता हूं अब देखिए इसके अंदर देखिए एक और बहुत इंपॉर्टेंट चीज है काफी बार क्या होता है कि आपका जो डाटा होता है वो काफी बड़ा हो जाता है जैसे मेरे ने यहां पे दो कॉलम दिए थे और इसने मुझे जनरेट करके दिए चार कॉलम तो आपका डाटा जो क्या हुआ यहां पे बहुत ही ज्यादा हो चुका है यहां पे मतलब आपका डाटा एक्सीड हो चुका है अब इस एक्सीड डाटा को यदि आपको कम करना है तो आप यहां पे ड्रॉप फर्स्ट का इस्तेमाल कर सकते हैं ड्रॉप फर्स्ट क्या करेगा गाइ यहां पे कि आपके पास जो पहला कॉलम आया है ये उसे डिलीट कर देगा अब इसके लिए आप क्या करें सिंपल सा जो वन हॉट इनकोडिंग है इसके ऊपर जाएं और इसे ओपन करें ओपन करते ही देखिए आपको यहां पे ड्रॉप मिल जाएगा ड्रॉप के अंदर जैसे ही आप यहां पे जाएंगे तो ड्रॉप के अंदर आप थोड़ा सा नीचे जाएंगे और सर्च करेंगे तो देखिए ड्रॉप आपको क्या मिलेगा फर्स्ट मिल जाएगा तो आप यहां पे ड्रॉप फर्स्ट का इस्तेमाल कर सकते हैं तो मैं भी यहां पे क्या कर लहा हूं ड्रॉप यहां पे जाऊंगा और एफ आई आर एस टी फर्स्ट यहां पर देने वाला हूं और जैसे ही मैं रन करूंगा तो मेरे पास एक नया एरे जनरेट होगा जहां पे मेरा जो डाटा होगा वो ड्रॉप फर्स्ट करके मिलेगा अब मैं इसे रन करूंगा तो देखिए मेरे पास जो कॉलम है वो दो ही मिलने वाले हैं अब ये कॉलम बना कौन सा है ये कॉलम के अंदर आपके पास जो जेंडर फीमेल है वो यहां से हट चुका है मैरिड के अंदर जो नो है वो भी यहां से हट चुका है ड्रॉप फर्स्ट का मतलब यह होता है कि आपके पास जितने भी इनकोडिंग के बाद कॉलम बनते हैं उनमें से जो पहला कॉलम होता है वो आपका डिलीट हो जाता है और पीछे बचे रिमेनिंग जितने भी कॉलम्स हैं वो आपको देखने को मिलते हैं बस यही एक ड्रॉप फथ का नियम होता है चलिए इसके द्वारा जो बनी हुई नई आपका एरे है उसको हम देखते हैं और इसके थ्रू हम य क्या करते हैं आपका जो नया डेटा सेट है वो तैयार करते हैं तो मैं यहां पे क्या कर रहा हूं मैं जेंडर मेल को ले रहा हूं यहां पे और मैरिड नो को भी मैं यहां पे हटा रहा हूं जैसे ही रन करूंगा तो देखिए मेरे पास जो मेरा डाटा है वो मुझे मिल चुका है ये कैसे थ्रू मिला है ये ड्रॉप फर्स्ट के थ्रू मुझे यहां पे मिला है अब इसके थ्रू भी हम यहां पे बहुत सारी इंफॉर्मेशन निकाल सकते हैं मैं बेसिकली जेंडर की बात करूं तो जेंडर आपके पास तीन तरह के होते हैं लेकिन यहां पे हमें जेंडर के अंदर दो तरीके के जेंडर की बात की गई है जेंडर मेल और जेंडर फीमेल तो यहां पर यदि जेंडर मेल दिया गया है और वहां पे यदि वन दिया गया है तो अंडरस्टूड होगा कि यहां पे मेल की बात की गई है लेकिन जहां-जहां जीरो दे रखा है वहां पे आपका अंडरस्टूड हो जाएगा कि मेल नहीं है मेल नहीं है इसका मतलब क्या है गाइज यहां पे फीमेल प्रेजेंट है तो इससे थ्रू हम बहुत ही आसानी से अपनी चीजें एनालिसिस कर सकते हैं तो बेसिकली गाइज आपके पास जब भी कैटेगरी डाटा हो और आपको न्यूमेरिकल डाटा में कन्वर्ट करने की जरूरत पड़े तो आप वहां पे वन हॉट एन कोडिंग का इस्तेमाल करके आप ये चीजें कर सकते हैं हम सीखने वाले हैं लेबल एन कोडिंग को और इसका इस्तेमाल कहां पे होता है ये चीज देखने वाले हैं देखिए सबसे पहले मैं बात करूं इनकोडिंग का इस्तेमाल हम क्यों कर रहे हैं डेटा साइंस के अंदर क्योंकि देखिए जब भी आप मशीन लर्निंग मॉडल को बनाने जाते हैं तो मशीन लर्निंग का जो मॉडल होता है वो आपके पास क्या होता है एक मैथमेटिकल फार्मूला होता है जैसे कि y = राइट अब इस तरह के फॉर्मूले के अंदर हमारा न्यूमेरिकल डाटा जाता है ना कि कैटेगरी कल डाटा जैसे कि मैं हाइट विड्थ की बात करूं तो वो चला जाएगा लेकिन यदि मैं बात करने जा रहा हूं यहां पे किसी के नेम के बारे में किसी के जेंडर के बारे में तो वो वहां पे नहीं जा सकता तो उसके लिए हमें जरूरत पड़ती है एन कोडिंग की अब इसी एन कोडिंग की सीरीज के अंदर हमने ऑर्डिनल एन कोडिंग को देखा था आज के इस वीडियो के अंदर हम देख रहे हैं लेबल एन कोडिंग को तो लेबल एन कोडिंग किस जगह परफॉर्म की जाती है उसको देखते हैं यहां पे तो देखिए लेबल एन कोडिंग जो होती है यहां पे वो आपके पास नॉमिनल डाटा के ऊपर परफॉर्म की जाती है अब यहां पे कांसेप्ट आता है व्हाट इज अ नॉमिनल डाटा तो देखिए नॉमिनल डाटा देखिए क्या होता है कि जब आप किसी कैटेगरी कल डाटा के ऊपर बात करते हैं तो उसको हम दो पार्ट के अंदर कैटेगरी इज करते हैं एक होता है हमारा नॉमिनल डाटा दूसरा होता है हमारे पास ऑर्डिनल डाटा नॉमिनल डाटा वो डटा होता है जिसके अंदर आपके पास किसी भी डाटा के अंदर कोई भी आपके पास कनेक्शंस नहीं होता है जस्ट लाइक एग्जांपल की बात करूं यहां पे तो आप मान लीजिए काव डॉग बफेलो पैरोट इस तरह से आप किसी भी एनिमल का नेम ले लीजिए अब ये जो एनिमल नेम्स है यहां पे इनमें कोई ऑर्डर सीक्वेंस नहीं है ऑर्डर सीक्वेंस का मतलब क्या है ये एक दूसरे के साथ कनेक्टेड नहीं है हालांकि एक दूसरे के साथ कनेक्टेड है ये सब एनिमल की कैटेगरी के अंदर आते हैं लेकिन इन सबके अंदर कोई भी कनेक्शंस नहीं है कि ये कोई एक सीक्वेंस ऑर्डर के अंदर नहीं है सारे कुछ क्या है आपके पास इंडिविजुअल वर्क करते हैं वहीं पे यदि मैं बात करूं ऑर्डिनल डाटा के बारे में तो ऑर्डिनल डाटा के अंदर आपको एक सीक्वेंस पैटर्न देखने को मिलता है जैसे कि एक छोटा सा एग्जांपल दूं मैं आप लोगों को आप सब लोग ड्रेस खरीदने चाहते हैं ड्रेसेस के अंदर आपके पास ड्रेसेस की क्या होती है एक साइज ऑर्डर होता है कि सबसे पहले स्मॉल साइज होती है उसके बाद आपकी मीडियम होती है फिर लार्ज होती है फिर एक्स्ट्रा लार्ज होती है फिर उसके बाद डबल एक्स्ट्रा लार्ज भी होती है तो यहां पे आपको सारी चीजें क्या मिलती है एक ऑर्डर के थ्रू मिलती है तो इस तरह के डेटा को हम ऑर्डिनल डाटा यहां पे बोलते हैं तो मैं आ चुका हूं हमारी जुपिटर नोटबुक के अंदर यहां पे जो मेरी अ रिक्वायर्ड है यहां पे लाइब्रेरी उनको मैं इंपोर्ट करता हूं तो सबसे पहले मैं यहां पे इंपोर्ट करूंगा किसे पांडा को कर देता हूं यहां पे पांडा एलियाज ऑफ पीडी और देखिए पांडा एलिस और पीडी लगाने के बाद में मैं जो डेटा सेट है वो खुद क्रिएट कर रहा हूं ताकि आप लोगों को थोड़ी एन कोडिंग के बारे में नॉलेज हो सके और छोटे डटा सेट के अंदर आप इसे आराम से समझ सके तो इसके लिए मैं क्या करता हूं यहां पे एक डीएफ नाम से एक डेटा फ्रेम क्रिएट करता हूं पडी ड डटा फ्रेम के थ्रू मैं यहां पे एक डाटा फ्रेम क्रिएट करने जा रहा हूं यहां पे और यहां पे क्या करते हैं नेम देते हैं किसी के भी एनिमल के या कोई भी पर्सन के किसी के भी दे सकते हैं आप यहां पे नाम तो मैं किसी के भी नाम डाल रहा हूं जैसे एक नाम डालते हैं डब्लू ए क्यूब टेक राइट और सेकंड चीज क्या डालते हैं यहां पे काउ डाल देते हैं उसके बाद में गाइस यहां पे कैट डाल देते हैं और उसके बाद मैं क्या करता हूं गाइज यहां पे डॉग डाल देता हूं इसके अलावा देखिए आप कुछ भी डाल सकते हैं जैसे कि मैं यहां पे बीएल एसी के ब्लैक कलर डाल देता हूं तो मैंने क्या किया कुछ भी नाम यहां पे दे दिया है अब ये जो मेरा डाटा फ्रेम तैयार हुआ है मुझे इसी की क्या करनी है इनकोडिंग करनी है तो इसकी इनकोडिंग करने के लिए मैं साइकेल लाइब्रेरी का इस्तेमाल करूंगा लेकिन उससे पहले साइ साटन लाइब्रेरी आप सभी के सिस्टम में इंस्टॉल होनी चाहिए जैसा कि मैंने लास्ट वाली वीडियो के अंदर भी आपको बताया था कि साइक टन लाइब्रेरी को आप अपने सिस्टम के अंदर कैसे इंस्टॉल कर सकते हैं तो चलिए इसको साइकल लन लाइब्रेरी के थ्रू एन कोडिंग करते हैं यहां पे साइकल लन लाइब्रेरी के अंदर आप क्या करेंगे आप सबसे पहले जाएंगे फ्रॉम साइकल लन के अंदर जाएंगे साइकल लन के अंदर आपको जाएंगे प्री प्रोसेसिंग के अंदर प्री प्रोसेसिंग के अंदर आपके पास क्या मिलेगी इनकोडिंग की लाइब्रेरी मिल जाएगी तो उसके अंदर जाएंगे आप यहां पे इंपोर्ट करेंगे और किसको इंपोर्ट करना है लेबल इनकोडर को इंपोर्ट करना है लेबल इनकोडर को इंपोर्ट करने के बाद में आप क्या करें एक बना ले मतलब एक ऑब्जेक्ट बना ले एई के नाम से उसके बाद में लेबल इनकोडर को कॉल कर दीजिए लेबल इनकोडर को कॉल करने के बाद एई डॉट यहां पे क्या करें फिट ट्रांसफॉर्म का इस्तेमाल करें आप चाहे तो फिट का भी इस्तेमाल कर सकते हैं ट्रांसफॉर्म का भी इस्तेमाल कर सकते हैं जैसा कि मैंने आपको पहले भी बताया है कि फिट क्या करता है आपके मॉडल को केवल और केवल ट्रेंड करता है अब ट्रेंड करने के बाद में आपको उसे कन्वर्ट करना होता है तो आप यहां पे ट्रांसफॉर्म का इस्तेमाल कर सकते हैं और आप चाहें तो फिट ट्रांसफॉर्म का एक साथ भी इस्तेमाल कर सकते हैं हालांकि इसका इस्तेमाल उस वक्त किया जाता जाता है जब आप मॉडल बिल्डिंग करने के लिए जा रहे हैं मॉडल को डिप्लॉयड को जब भी डिप्लॉयड हैं तो आपको इनकोडिंग को परमानेंटली रखना पड़ता है तो आप क्या करते हैं एली को पहले फिट करते हैं और ट्रांसफॉर्म आप अलग से करते हैं और जब आपके पास ट्रेनिंग मॉडल आता है तब उस वक्त आप यहां पे क्या करते हैं फिट ट्रांसफॉर्म यहां पे दोबारा करते हैं तो बेसिकली गाइज यहां पे मैं डायरेक्टली आपको सिर्फ समझाने के परपस के लिए यहां पे क्या कर रहा हूं फिट ट्रांसफॉर्म को यहां पे दे रहा हूं अब उसके बाद मैं क्या करूंगा गाइज यहां पे डीए दूंगा और डीएफ के अंदर यहां पे डबल स्क्वायर ब्रैकेट बनाते हुए मैं जो मेरा नेम है डीएफ के अंदर मेरा जो यहां पे नेम नाम से यहां पे पैरामीटर है वो मैं पास करा रहा हूं और इसने मुझे क्या करके दे दी है मुझे मेरे डाटा की इनकोडिंग करके दे दी है और वो भी एक एरे फॉर्मेट में यहां पे करके दी है अब इस इनकोडिंग को ले जाके हम इस नेम नाम के वेरिएबल के अंदर इसके पास लगा देते हैं मतलब इसी डेटा फ्रेम में लगा देते हैं तो देखिए डेटा फ्रेम में लगाने के लिए मैं क्या करूंगा यहां पे गाइज डीएफ नाम से जो डेटा फ्रेम है उसे कॉल करूंगा और उसके बाद मैं क्या करूंगा _ नेम के नाम से एक आपके पास कॉलम का नाम बना दूंगा एंड रन करूंगा तो मेरा ईन नेम जो है वहां जाके लग जाएगा अब एक बार डीएफ को देखते हैं तो देखिए मेरे पास यहां पे क्या है ओरिजिनल डाटा दिख रहा है और उसके साथ-साथ मुझे अनकोडिफाइड एन कोडिंग को परफॉर्म कर सकते हैं यहां पे आपका पास जितना भी डाटा है वो आपके पास क्या है अन सक्व मेंस डाटा है मतलब यहां पे कोई सीक्वेंस ऑर्डर परफॉर्म नहीं किया जा रहा है इसलिए हम यहां पे क्या कर रहे हैं इस तरह से यूज कर रहे हैं अब एक काम करते हैं हम रियल वर्ल्ड डेटा सेट को लेते हैं जैसे कि हम पहले भी डेटा सेट के ऊपर काम कर रहे थे उसके ऊपर इनकोडिंग परफॉर्म करके देखते हैं तो उसके लिए मुझे क्या करना पड़ेगा मुझे मेरा डेटा सेट को लोड करना पड़ेगा तो मैं डेटा सेट को लोड करता हूं pd3 cscseva.com के थ्रू मैं इस डाटा को देखता हूं तो इसके अंदर आप देखेंगे कि आपके पास जो प्रॉपर्टी एरिया है यहां पे आपको इनकोडिंग करने की जरूरत है और यहां पे जो डाटा है वो एक से ज्यादा भी है हमारे पास यहां पे तो क्यों ना इसके अंदर इनकोडिंग की जाए यहां पे तो चलिए इसके अंदर इनकोडिंग करते हैं क्या करना पड़ेगा गाइज यहां पे आप सिंपल सा क्या करें आप एल के नाम से एक वेरिएबल बना सकते हैं क्योंकि देखिए मैंने यहां पे एली के नाम से ऑलरेडी वेरिएबल बना रखा है तो मैं यहां पे एल के नाम से क्वेब बनाऊगा और मैं अपना जो लेबल इनकोडर है उसे मैं यहां पे कॉल करने वाला हूं उसके बाद ए ट मैं करूंगा मॉडल को फिट करूंगा यहां पे या फिर ट्रांसफॉर्म का इस्तेमाल भी कर सकता हूं तो देखिए मैं फिट करने वाला हूं यहां पे फिलहाल फिट करने के बाद में मैं जो हमारा डेटा सेट है उसको लूंगा और इसके अंदर जो मेरा प्रॉपर्टी एरिया है उसको मैं लगा दूंगा तो मेरा जो मॉडल है वो फिट हो जाएगा उसके एले के बाद मैं क्या करूंगा यहां पे ट्रांसफॉर्म करूंगा और ट्रांसफॉर्म के अंदर मैं मेरा जो डेटा सेट है उसे लूंगा और इसके अंदर मेरा जो प्रॉपर्टी है इसे लूंगा तो देखिए इसने मुझे अपने डाटा की जो इनकोडिंग है वो करके दे दी है यहां पे अब देखिए इसने नंबर टू दिया है पहले वाले को और उसके बाद रो दिया है फिर उसको टू दिया है इसका मतलब इसने अर्बन को क्या दिया है टू नंबर दिया है रूलर को इसने जीरो दिया है अब देखिए इसके अंदर क्या है हमारे पास तीन तरह की कैटेगरी है यदि आप इसको एक्सपेंड करके देखेंगे ना त आपको तीन तरह की कैटेगरी मिलेगी इसको देखने के लिए मैं क्या करूंगा यहां पे गाइज डटा सेट देन स्क्वायर ब्रैकेट और प्रॉपर्टी एरिया जो है यहां पे इसे कॉल करूंगा और इसके अंदर जो यूनिक वैल्यू को निकालूं यहां पे यूनिक से मुझे पता चल जाएगा कि इसके अंदर किस तरह का डाटा प्रेजेंट है फिलहाल आप देखिए यहां पे अर्बन है रूलर है सेमी अर्बन है और नैन वैल्यू भी है अब देखिए इस नैन वैल्यू को हमने फिल नहीं किया है तो वहां पे भी इसने क्या कर रखा है जीरो या वन से आपके पास फिल करके इसने मुझे दे दिया है तो इस तरह से आप क्या कर सकते हैं अपने डाटा की इनकोडिंग कर सकते हैं और यदि आप चाहें कि इस डाटा को वापस इसी जगह पे लगाना है तो आप क्या करेंगे अपने डेटा सेट को कॉल करेंगे देन स्क्वायर ब्रैकेट और जो आपके कॉलम का नाम है वो रिप्लेस कर देंगे तो प्रॉपर्टी एरिया का जो डाटा है वो उसके अंदर जाके रिप्लेस हो जाएगा अब जाके आप यूनिक को चेक कीजिए तो यहां पे आपको नंबर मिल जाएगा 0 1 2 एंड ्र इसका मतलब नैन को भी हमें यहां पे एक नंबर मिला है और वो हो सकता है आपका टू हो सकता है या थ्री हो सकता है वो आपको देखना पड़ेगा कि नन का आपको किस तरह से नंबर दिया है यहां पे तो इस तरह से आप क्या कर सकते हैं डाटा की इनकोडिंग कर सकते हैं और वो भी लेबल एन कोडिंग कर सकते हैं हम बात करेंगे ऑर्डिनल इनकोडिंग के बारे में कि ऑर्डिनल इनकोडिंग किस तरीके से परफॉर्म की जाती है हम प्रेफर करते हैं ऑर्डिनल इनकोडिंग को अब ये जो एडल इनकोडिंग होती है वो दो तरीके से आप परफॉर्म कर सकते हैं पहला तरीका है यहां पे कि आप साइक लन की हेल्प ले सक सते हैं दूसरा तरीका है मैप फंक्शन के थ्रू यस मैप फंक्शन के थ्रू भी आप इस एन कोडिंग को परफॉर्म किया जा सकता है तो आज की इस वीडियो के अंदर हम दोनों टेक्निक को बात करेंगे पहले हम बात करेंगे यहां पे साइकिल लर्न के थ्रू फिर दूसरी टेक्निक के अंदर हम मैप के थ्रू बात करेंगे तो इसको समझने के लिए चलते हैं जुपिटर नोटबुक के अंदर जहां पे इस टेक्निक को डिटेल के साथ देखते हैं चलिए मैं आ चुका हूं जुपिटर नोटबुक के अंदर अब मैं एक काम करता हूं सबसे पहले मैं अपना खुद का एक डेटा सेट तैयार करता हूं देखिए डेटा सेट तो फिलहाल मेरे पास बहुत सारे पड़े हैं लेकिन मैं आपको एक छोटे डेटा सेट के ऊपर दिखाऊंगा ताकि आप ऑब्जर्वेशन आराम से ले सकें और चीजों को अच्छे तरीके से समझ सक फिर हम यहां पे इसको डिटेल के साथ एक बड़े डाटा सेट के साथ भी परफॉर्म कर लेंगे चलिए सबसे पहले मैं बात करूंगा यहां पे कि हमें क्या करना पड़ेगा हम एक डेटा सेट बनाना चाह रहे हैं डेटा सेट बनाने के लिए मैं क्या करूंगा यहां पे इंपोर्ट करूंगा और इंपोर्ट कैसे करने वाला हूं पांडा एलियाज और पीडी को मैं इंपोर्ट करूंगा डेटा फ्रेम तैयार करना है तो उसके लिए मैं क्या करता हूं डीएफ नाम से एक डेटा फ्रेम तैयार करता हूं पीडी डॉट यहां पर मैं डटा फ्रेम को इस्तेमाल करूंगा इसके अंदर क्या करने वाला हूं गाइज यहां पे एक नेम नाम से या फिर एक काम करते हैं साइज की बात कर लेते हैं तो मैं साइज के नाम से एक वेरिएबल बना लेता हूं मतलब एक कॉलम का नाम बना लेता हूं यहां पे और यहां पे मैं अपनी अलग-अलग साइज रख लेता हूं जैसे कि मैंने रखा है स्मॉल साइज रखी फिर मैंने मीडियम साइज लिया यहां पे फिर मैंने लार्ज ले लिया फिर मैंने एक्सेल डबल एक्सल ले लिया यहां पे फिर देखिए मैंने फिर से स्मॉल ले लिया फिर मैंने मीडियम ले लिया फिर मैंने लार्ज ले लिया फिर से लेके मैंने स्मॉल ले लिया फिर से मैंने स्मॉल ले लिया फिर से मैंने यहां पे लार्ज ले लिया फिर मैंने एक्सल ले लिया और फिर मैंने लास्ट में चलते हुए मैंने m वापस ले लिया तो इस तरह से मैंने अपना एक डेटा सेट तैयार कर रखा है यहां पे और इस डेटा सेट को देखा जाए तो डीए आपको एक डेटा सेट मिल जाएगा एक छोटी सी मिस्टेक हो गई है यहां पे क्योंकि मुझे ये डाटा किस में डालना था एज अ डिक्शनरी के तौर पे डालना था हमारी जो डेटा फ्रेम है वो यहां पे तैयार हो चुका है अब मुझे इसकी क्या करनी है इनकोडिंग करनी है इनकोडिंग करनी है तो फिलहाल इस डेटा सेट को कम कर देते हैं इसके अंदर दो डाटा या तीन डेटा को दिखा देते हैं यहां पे अब इनकोडिंग करने के लिए मुझे यहां पे क्या करना पड़ेगा इनकोडिंग के नंबर्स डिसाइड करने पड़ेंगे मतलब मुझे ऑर्डर डिसाइड करना पड़ेगा तो मैं एक काम करता हूं डटा नाम से एक वेरिएबल बना लेता हूं उसके बाद मैं डबल स्क्वायर ब्रैकेट के अंदर एक चीज का ध्यान रखिएगा यहां पे टू डायमेंशन डेटा सेट चलता है तो आपको डबल स्क्वायर ब्रैकेट्स के अंदर लेना पड़ेगा ट्यू डायमेंशन डेटा के लिए डबल स्क्वायर लिया मैंने यहां पे और सबसे पहला आर्डर दिया स्मॉल को फिर मैंने दिया ला मीडियम को फिर मैंने लार्ज को दिया और फिर मैंने एक्स्ट्रा लार्ज को दिया इस तरह से मैंने क्या किया एक सीक्वेंशियल ऑर्डर तैयार कर दिया एक काम करते हैं इसको ओ आरडी अंड डाटा के नाम से इसे सेव कर लेते हैं अब चलते हैं साइकल लन की लाइब्रेरी के थ्रू जिसके थ्रू हम यहां पे इस ऑर्डिनल एन कोडिंग को परफॉर्म करेंगे तो उसके लिए मैं करूंगा यहां पे फ्रॉम जाऊंगा यहां पे साइक लन के पास में देन डॉट उसके बाद मुझे क्या करना पड़ेगा प्री प्रोसेसिंग को कॉल करना पड़ेगा प्री प्रोसेसिंग के थ्रू हम ये इनकोडिंग परफॉर्म कर सकते हैं उसके बाद हम इंपोर्ट करेंगे और इंपोर्ट करने के बाद में मैं यहां पे करूंगा ऑर्डिनल इनकोडर को जहां पे हम हमारी ऑर्डिनल इनकोडिंग को परफॉर्म करने वाले हैं चलिए इसे रन करते हैं फिर मैं यहां पे काम करता हूं ई के नाम से एक वेरिएबल बना लेता हूं जहां पे मैं ऑर्डिन इनकोडिंग का एक क्या बना रहा हूं ऑब्जेक्ट तैयार कर रहा हूं और इधर मैं क्या करता हूं ऑर्डिन इनकोडिंग को कॉल कर देता हूं अब इस ऑर्डिनल इनकोडिंग को जब आप ओपन करेंगे तो यहां पे आपको सबसे पहले पहले मिलेगी कैटेगरी कैटेगरी का मतलब है कि आप इस इनकोडिंग को किस तरह से परफॉर्म करना चाहते हैं फिलहाल यहां लिखा है ऑटो जब यह ऑटो की सिचुएशन में रहता है उस वक्त आपके पास क्या होता है कि आपके पास जो अल्फाबेटिकल ऑर्डर होते हैं उसके हिसाब से ये इनकोडिंग कर देता है लेकिन मुझे यहां पे अल्फाबेटिकल ऑर्डर नहीं करना है मुझे यहां पे एस ए एल एक्सल इस फॉर्मेट में मुझे यहां पे इनकोडिंग करनी है तो इसलिए मुझे क्या करना पड़ेगा कैटेगरी को चेंज करना पड़ेगा और कैटेगरी को मुझे क्या करना पड़ेगा ओ आरडी डाटा को रखना पड़ेगा बस इतना सा आपको करना है फिर मैं क्या करूंगा ओई डॉट यहां पे क्या करूंगा फिट ट्रांसफॉर्म का इस्तेमाल करूंगा आप चाहे तो पहले फिट कर सकते हैं और उसके बाद ट्रांसफॉर्म भी परफॉर्म कर सकते हैं क्योंकि देखिए क्या होता है कि जब आप यहां पे इस मॉडल को डिप्लॉयड जाएंगे तो आपको इस ओई की जरूरत पड़ेगी क्योंकि आपके पास जो नया डाटा आएगा उसके अंदर भी आपको इनकोडिंग करने की जरूरत पड़ेगी तो उस वक्त आपको यहां पे इस ओई डाटा सेट की जरूरत पड़ेगी तो इसलिए जब भी आप यहां पे ओई के साथ इनकोडिंग करने जा रहे हैं तो पहले आप इसमें आराम से फिट कर लीजिए उसके बाद आप यहां पे क्या करिए इनकोडिंग कीजिए चलिए मैं डीएफ डालता हूं और डीएफ डालने के बाद डबल स्क्वायर ब्रैकेट के अंदर मैं क्या कर रहा हूं यहां पे जो मेरी साइज है उसे डाल देता हूं तो मैंने यहां पे साइज डाल दिया रन करते हैं ये इनकोडिंग हमारी परफॉर्म हो चुकी है उसके बाद में हम क्या करते हैं ई के साथ चलते हैं और उसके बाद हम यहां पे ट्रांसफॉर्म को कॉल करते हैं ट्रांसफॉर्म के अंदर जाने के बाद मैं df2 को डाल देता हूं जैसे ही मैं साइज को डालूंगा तो देखिए इसने मुझे मेरी इनकोडिंग परफॉर्म करके दे दी है यहां पे अकॉर्डिंग टू नंबर्स यहां पे लग चुके हैं चलिए एक काम करते हैं इसको हम क्या करते हैं हमारी मेन टेबल के साथ से ऐड कर देते हैं मेन टेबल का नाम क्या है डीएफ है तो मैं चलता हूं यहां पे डीए और डीएफ के बाद मैं एक कॉलम बनाता हूं नया जहां पे मैं क्या लिखूंगा कि मेरी जो साइज है उसको इनकोडिंग किया है मतलब e किया है चलिए इसे रन कर देते हैं अब एक काम करते हैं डीए को दोबारा देखते हैं तो डीए को मैंने दोबारा देखा तो एक तरफ हमारे पास क्या है वेरिएबल का नाम है एक तरफ हमारे पास क्या है हमारे पास कैटेगरी कल डाटा है और दूसरी तरफ हमारे पास क्या है इनकोडिंग डाटा है चलिए देखते हैं साइज को क्या मिला है साइज को हमें जीरो मिला है यहां पे मीडियम को वन मिला है लार्ज को हमने टू दिया है एक्स्ट्रा लार्ज को हमने थ्री दिया फिर उसके बाद देखिए रो वन वन टू के बाद टू फिर जीरो फिर जीरो फिर टू फिर एक्स्ट्रा लार्ज को थ्री फिर m को वन तो इस तरह से आपके डाटा की क्या हो चुकी है एन कोडिंग हो चुकी है तो ये था साइकेड लर्न का मेथड जहां पे आपने क्या किया ऑर्डिनल एन कोडिंग को परफॉर्म किया अब आप चाहें तो इस परफॉर्मेंस को मैप फंक्शन के थ्रू भी कर सकते हैं तो अब स्टेप जानते हैं मैप फंक्शन के थ्रू हम ये इनकोडिंग कैसे करने वाले हैं चलिए मैप फंक्शन को जरा समझते हैं तो मैं काम करता हूं यहां पे वापस से इसी डाटा को लूंगा मैं यहां पे साइज को ही लूंगा मैं यहां पे और और फिर इसी के थ्रू मैं यहां पे परफॉर्म करूंगा मैप फंक्शन से करना और भी ज्यादा आसान है इसके लिए आपको क्या करना पड़ेगा एक आपको डिक्शनरी तैयार करनी पड़ेगी जहां पे आप ये बताएंगे कि किसको क्या नंबर देने वाले हैं तो चलिए डिक्शनरी तैयार करते हैं एक काम करते हैं यहां पे डी डटा के नाम से एक वेरिएबल बना लेते हैं यहां पे अच्छा देखिए डी अ डटा के नाम से हमने पहले से ही वेलेबल बना रखा है तो एक काम करेंगे इसको डीवन कर देते हैं अब मैं क्या करूंगा यहां पे एक डिक्शनरी तैयार करूंगा इस डिक्शनरी के अंदर क्या करूंगा स्मॉल को दूंगा नंबर यहां पे जीरो अब यहां पे आप नंबर देने की पूरी फैसिलिटी होती है कि आप इसे कुछ भी नंबर दे सकते हैं जरूरी नहीं है आप 0 1 2 3 से स्टार्ट करें आप यहां पे चाहे तो 5 6 से से स्टार्ट कर सकते हैं चलिए मैं दोनों तरीके से करके आपको दिखाने वाला हूं तो फिलहाल मैं रो रखूंगा यहां पे s को फिर मैं रखूंगा मीडियम को मीडियम को कर देता हूं यहां पे वन फिर उसके बाद में मुझे क्या करना है यहां पे मुझे लार्ज चाहिए लार्ज को कर देता हूं मैं टू टू के बाद में मुझे चाहिए एक्स्ट्रा लार्ज और एक्स्ट्रा लार्ज को कर देता हूं थ्री तो ये मैंने ओ आरडी डाटा डिसाइड कर दिया है अब मुझे क्या करना है जिसकी इनकोडिंग करनी है उस डे डाटा को लेके आना है तो मैंने डीएफ लिया डीएफ के बाद में मैंने कहा मुझे साइज की इनकोडिंग करनी है साइज के बाद में मुझे क्या करना है यहां पे सिंपल सा मैप फंक्शन को कॉल करना है मै फंक्शन के अंदर ये जो ओ आरडी डाटा है इसको मुझे सिंपल सा पास करवा देना है तो रडी व को जैसे ही मैं पास कराऊंगा इसने मुझे वो इनकोडिंग करके परफॉर्म करके दे दी है अब बस मुझे क्या करना है इसे सेव कर लेना है कहीं पे भी जैसे कि मैं इसी शीट के अंदर सेव करने वाला हूं तो मैंने लिखा यहां पे साइज e अब e तो पहले से रख रखा है तो मैं अंडर मैप फंक्शन के थ्रू किया है तो यहां पर मैप रख देता हूं देन रन करता हूं तो मेरे पास यहां पे डाटा स्टोर हो चुका है चलिए एक बार चेक कर लेते हैं कि क्या हमारा डाटा यहां पे सही तरीके से आया है या नहीं आया रन करते हैं तो देखिए वही तरीके से आया है जो आपने पहले किया था तो आप चाहें तो ऑर्डिनल एन कोडिंग को इस तरह से भी परफॉर्म कर सकते हैं अब जैसा कि मैंने आप लोगों को बोला था कि ये जो नंबर्स आपने दिए हैं ये नंबर को आप अपने अकॉर्डिंग चेंज कर सकते हैं आप चाहे तो 5 6 78 भी दे सकते हैं आप चाह तो कुछ भी रैंडम नंबर परफॉर्म कर सकते हैं तो वो मैं परफॉर्म करके आपको दिखाने वाला हूं चलिए तो मैं क्या करूंगा यहां पे इस नंबर को थोड़ा सा चेंज करूंगा मैं नंबर को को चेंज करके क्या करने वाला हूं गाइ यहां पे जस्ट लाइक दे दूंगा फाइव देन अगले वाले को मैं दे दूंगा यहां पे सिक्स उसके अगले वाले को दे दूंगा मैं सेवन और उसके अगले वाले को दे दूंगा मैं एट अब जरूरी नहीं है कि मैंने 5 6 78 दिया है मैं यहां पे 7 5 कुछ भी रैंडम नंबर असाइन कर सकता था तो मैप के थ्रू जब भी आप इनकोडिंग करने जा रहे हैं वहां पे आप अपने अकॉर्डिंग डिसाइड कर सकते हैं कि किसको क्या नंबर्स देना है चलिए अब इसे रन करते हैं और इसे भी रन करते हैं फिर इसे रन करके फिर इसे रन करते हैं तो अब देखिए आपके अकॉर्डिंग नंबर यहां पे डिसाइड चुके हैं ए को मिल चुका है फाइव नंबर एम को मिल चुका है सिक्स नंबर एल को मिल चुका है सेवन नंबर और एक्सेल को मिल चुका है एट नंबर तो इस तरह से आप अपने हिसाब से नंबर को डिसाइड कर सकते हैं तो क्या इसमें इनकोडिंग के अंदर कुछ चेंजेज हुई नहीं बेसिकली मैप फंक्शन एक ऐसी फंक्शनैलिटी प्रोवाइड करा रहा है जहां पे आप किसी को भी कोई नंबर असाइन कर सकते हैं और ये एक बेनिफिशियल है आपके लिए क्योंकि जब भी आप मशीन लर्निंग एल्गोरिथम बनाते जाएं तो वहां पे कभी भी किसी का आउटपुट थोड़ा सा भी चेंज आई आपको आउटपुट के अंदर इंप्रूव करने की जरूरत पड़े तो वहां पे आप आप इस नंबर को चेंजेज करके अपने मॉडल को थोड़ा सा इंप्रूव कर सकते हैं चलिए अब थोड़ा सा आगे बढ़ते हैं यहां पे और मुझे यहां पे क्या करना है एक बड़े डाटा के साथ इनकोडिंग करनी है तो मैं कैसे करूंगा तो एक चलते हैं हमारे उसी डेटा सेट के ऊप जिसके ऊपर हम पहले से बहुत टाइम से काम कर रहे हैं यहां पे और वो है हमारा लोन . सीएवी जैसा कि आप सबको पता है राइट तो मैं आ चुका हूं लोन ड सीएवी के अंदर जहां पे मुझे इसकी इनकोडिंग करनी है पहले मुझे यहां पे ये देखना पड़ेगा कि ऑर्डिन एन कोडिंग का डाटा कौन सा है तो यहां पे आप देखेंगे तो प्रॉपर्टी एरिया जो है वो आपका एन कोडिंग का डाटा बन सकता है क्योंकि प्रॉपर्टी एरिया के अंदर क्या है आपका अर्बन है फिर रूलर है इसमें ही सेमी अर्बन भी है अब बेसिकली बात करें तो रूलर होता है आपके ग्रामीण इलाकों को फिर आता है सेमी अर्बन जो कि बड़े इलाके होते हैं ग्रामीण से थोड़े बड़े इलाके होते हैं यहां पे और फिर आता है अर्बन अर्बन का मतलब होता है शहरी मतलब जो आपका सिटी जिसे बोलते हैं यहां पे उनको अर्बन स्टेट बोलते हैं तो गाइज इस तरह से हम क्या कर सकते हैं इनके बीच में एक ऑर्डर रिलेशनशिप देख सकते हैं तो हम इनके अंदर ऑर्डिन इनकोडिंग को परफॉर्म कर सकते हैं तो चलिए इनके अंदर ऑर्डिनल इनकोडिंग को परफॉर्म करके देखते हैं तो मैं मैं चलता हूं वापस जूपिटर नोटबुक के अंदर और मैं इसको परफॉर्म करने जा रहा हूं सबसे पहले मैं क्या करूंगा अपने डेटा सेट को गेट करूंगा डेटा सेट को गेट करने के लिए मैं डेटा सेट के नाम से एक वेरिएबल बना देता हूं पीडी डॉट यहां पर मैं क्या करने वाला हूं डंड सीएसवी को कॉल करने वाला हूं उसके बाद में मैं लोन ड सीएवी को कॉल करूंगा अब देखिए लोन ड सीएसवी को कॉल करने के बाद में मैं अपने डेटा सेट को लूंगा यहां पे और डॉट हैड लगाते हुए तीन डाटा यहां पे देखूंगा मुझे मेरा सारा डाटा मिल चुका है अब इस डाटा में से मुझे क्या चाहिए मुझे इसमें से प्रॉपर्टी एरिया का डाटा चाहिए लेकिन अब प्रॉपर्टी एरिया में मुझे नाम याद नहीं है कि क्या-क्या नाम होने वाले हैं तो मैं एक काम करता हूं अपनी खुद की एक नई लिस्ट बनाऊंगा उस लिस्ट के लिए मुझे नाम की जरूरत पड़ेगी तो नाम बहुत आसानी से आप निकाल सकते हैं कैसे आप अपने डेटा सेट के पास जाएंगे देन स्क्वायर ब्रैकेट और आप जाएंगे किसके ऊपर प्रॉपर्टी एरिया के ऊपर यस आप कहां जाएंगे प्रॉपर्टी एरिया में प्रॉपर्टी एरिया में आपको बस क्या लगाना है यूनिक लगाना है यूनिक लगाने से आपके पास क्या आएगा आपके जितने भी नाम है वो मिल जाएंगे अब देखिए अर्बन आ चुका है रूलर आ चुका है सेमी अर्बन आ चुका है नैन आ चुका है अब इस नन को हमें हटाना पड़ेगा क्योंकि नन को हम नंबर नहीं दे सकते तो मुझे क्या करना पड़ेगा पहले नन वैल को फिल करना पड़ेगा नन वैल्यू को फिल कर लेते हैं चलिए फटाफट यहां पे तो मैं डेटा सेट लूंगा यहां पे देन स्क्वायर ब्रैकेट उसके बाद मुझे क्या चाहिए प्रॉपर्टी एरिया चाहिए जहां पे मैं अपनी नल वैल्यू को फिल करूंगा उसके लिए मैं करूंगा यहां पे फिल एने का इस्तेमाल यस चलिए मैं फिल एने लगा देता हूं यहां पे फिल एने के अंदर मैं इसके अंदर क्या करूंगा कैटेगरी कल डाटा है तो मड फीलिंग करनी पड़ेगी मुझे यहां पे तो मैं मड फीलिंग यहां पे परफॉर्म करता हूं तो चलिए डेटा सेट को इस्तेमाल करते हैं फिर से उसके बाद में मैं चलता हूं यहां पे प्रॉपर्टी एरिया के पास में देन मैं यहां पे क्या निकालू मोड निकालू और मोड के अंदर स्क्वायर बके ऑफ 0 से इसे फिल कर दूंगा उसके बाद में क्या करना है गाइज यहां पे मुझे इन प्लेस देना है यहां पे और इन प्लेस को मैं कर देता हूं ट्रू अब फिल वैल्यू कैसे करते हैं हमने इसको बहुत अच्छी तरीके से समझ चुके हैं यहां पे तो मैं फिलहाल अभी यहां पे नहीं समझाने वाला हूं यदि इसको समझना है तो आप हमारे प्रीवियस वीडियो को जरूर जाके देखें चलिए मैं इसे फिल कर देता हूं फिल हो चुका है और उसके बाद मैं फिर से इसे फिल कर देता हूं तो मेरे पास डटा आ चुका है अब अर्बन रूलर सेमी अर्बन ये आपके पास डाटा आ चुका है अब यहां पे इसे सेट करना चाहे तो आप सेट कर सकते हैं तो चलिए मैं यहां पे क्या करता हूं न अंडर डटा अंड ओडी ऑर्डर मैंने न अ डटा ऑर्डर दे दिया यहां पे अब ये ऑर्डर मुझे कैसे देना है तो सबसे पहले मेरे पास क्या आएगा रूलर आएगा तो मैंने यहां पे सबसे पहले डाल दिया है रूलर रूलर के बाद में मेरे पास क्या आएगा गाइज यहां पे तो रूलर के बाद में मेरे पास आएगा सेमी अर्बन तो मैंने सेमी अर्बन दे दिया है सेमी अर्बन के बाद में मेरे पास क्या आएगा तो वो आने वाला है अर्बन तो मैंने यहां पे भी डाल दिया है अर्बन तो इस तरह से न ऑर्डर मेरे पास आ चुका है अब जब न ऑर्डर आ चुका है तो इसके अंदर इनकोडिंग कर लेते हैं तो देखिए हमने पहले ही ऊपर लेवल ए कोडिंग को इंपोर्ट कर चुके हैं तो फिलहाल यहां नहीं करेंगे लेकिन मैं आपको एक बार के लिए फिर से दिखा देता हूं कैसे करना है यहां पे तो आप चलिए साइकल लन के अंदर देन डॉट फिर उसके बाद किस पे जाएंगे आप यहां पे आपको जाना है यहां पे प्री प्रोसेसिंग के अंदर प्री प्रोसेसिंग के अंदर आप इंपोर्ट करेंगे और किसे करेंगे यहां पे ऑर्डिनल एन कोडिंग को तो मैं ऑर्डिनल इनकोडर को कॉल कर रहा हूं उसके बाद मैं यहां पे क्या करेंगे ओई ए के नाम से एक वेरिएबल बना लेता हूं और उसके बाद मैं अपनी ऑर्डिनल इनकोडेड को कॉल कर देता हूं यहां पे आपको मिलेगी कैटेगरी कैटेगरी में आपको क्या देना है _ ऑर्डर डाटा आपको देना है बस इतना सा काम करना है ओ लीजिए डॉट यहां पे फिट ट्रांसफॉर्म का इस्तेमाल कर लीजिए क्योंकि हम डायरेक्टली डटा के ऊपर काम करने वाले हैं तो इसके लिए मैं करूंगा डेटा सेट के पास जाऊंगा एंड देन स्क्वायर पैकेट डबल डॉट के साथ में मुझे यहां पे देना पड़ेगा हमारा प्रॉपर्टी एरिया बस तो प्रॉपर्टी एरिया मुझे यहां पे देना है और रन करना है तो इसने मुझे इनकोडिंग बना के दे दी है अब बस मुझे क्या करना है हमारे ओरिजिनल डेटा से इसे रिप्लेस कर देना है तो कर देते हैं इसे यहां पे तो चलते हैं डटा सेट के अंदर देन स्क्वायर ब्रैकेट और डाल देते हैं इसे प्रॉपर्टी एरिया के अंदर तो अब हम क्या करते हैं इसे प्रॉपर्टी एरिया के अंदर स्टोर कर चुके हैं तो चलिए लास्ट वाले हम यहां पे एक काम करते हैं प्रॉपर्टी एरिया में जाके चेक कर लेते हैं कि क्या हमारा जो इनकोडिंग वाला डाटा है वो आ चुका है या नहीं तो चलते हैं डेटा सेट के पास यहां पे तो डेटा सेट के पास आ चुके हैं और हेड लगाते हुए टॉप 10 जो हमारा डाटा है उसे हम यहां पर देख लेते हैं तो चलिए टॉप 10 डाटा हम आ चुके हैं और उसके बाद हमने किसको किया था हमने प्रॉपर्टी एरिया को किया था तो देखिए प्रॉपर्टी एरिया के अंदर हमारी जो इनकोडिंग है वो यहां पर लग चुकी है तो आई थिंक आई होप सो समझ में आ चुका होगा कि आप यहां पे ऑर्डिनल एन कोडिंग किस तरह से परफॉर्म कर सकते हैं ऑर्डिन ल डाटा के साथ हम समझने वाले हैं आउटलायर के बारे में और डाटा साइंस के अंदर आउटलायर एक बहुत ही बड़ी प्रॉब्लम रहती है तो इसको हमें हटाना बहुत ज्यादा जरूरी होता है और बेसिकली पहले तो हम ये देखेंगे कि आउटलायर दिखते कैसे हैं मतलब डिटेक्ट कैसे करते हैं और फिर उसे रिमूव करने की टेक्निक को भी हम समझने वाले हैं तो सबसे पहले बात करते हैं आउटलायर होते क्या है देखिए आपके पास जो भी आपका डाटा होता है वो एक गिवन रेंज के अंदर आपको देखने को मिलता है और यदि आपका डाटा उस रेंज से बाहर चला जाए तो हम उसे बेसिकली क्या बोलते हैं आउटलायर बोलते हैं और जनरली आउटलायर उसे बोला जाता है कि जब आपका डाटा एक नॉर्मल डिस्ट्रीब्यूशन के पैटर्न को फॉलो करता है और उसके अंदर जो जो टेल है उसकी वो टेल बहुत ही ज्यादा लंबी चली जाती है तो बेसिकली हम उसे आउटलायर बोलते हैं इसको थोड़ा ग्राफिकली फॉर्मेट में आपको दिखाऊं मैं यहां पे तो बेसिकली मेरे पास एक एग्जांपल है जिसके अंदर आप आउटलायर को बहुत अच्छे तरीके से पहचान सकते हैं तो इसको जरा ग्राफिकली जोड़ थोड़ा समझे यहां पे तो आप आउटलायर को समझा सकते हैं देखिए आपके पास जितना भी डाटा होता है वो आपके पास क्या होता है एक नॉर्मल डिस्ट्रीब्यूशन डाटा होता है जैसा कि आप इस ग्राफ के थ्रू देख सकते हैं इस ग्राफ के अंदर जैसे ही आप यहां पे थर्ड स्टैंडर्ड डिविज से थोड़ा सा आप पहले से आगे चले जाते हैं तो ये सारे डाटा क्या कहलाते है आउटलायर कहलाते हैं अब इसको देखने का तरीका क्या होता है कि आप अपने बॉक्स प्लॉट के थ्रू देख सकते हैं इसके अंदर बॉक्स प्लॉट के अंदर आपके पास क्या होता है कि जो आपके विस्कर प्लॉट होते हैं और विस्कर प्लॉट की जो कैप्स होती है उस कैप के बाहर का जितना भी आपके पास डाटा होता है वो सारा का सारा क्या कहलाता है आउटलायर कहलाता है ये आउटलायर आप के पास जितने भी मैथमेटिकल ऑपरेशंस होते हैं उनमें बहुत ज्यादा मिस्टेक करते हैं जैसे कि आप किसी भी डाटा का एवरेज निकालने जा रहे हैं स्टैंडर्ड डिवीजन निकालने जा रहे हैं मीन निकालने जा रहे हैं कुछ भी निकालने जा रहे हैं उसके अंदर ये बहुत ज्यादा आपके पास नॉइस क्रिएट करते हैं यहां पे और आपके पास जो आउटकम आपको निकलना चाहिए उसके अंदर भी डिस्टॉर्शन लाते हैं तो बेसिकली आउटलायर होते क्या है कि आपके पास कोई डाटा आपके पास गिवन रेंज से बाहर चला जाता है तो हम उसे आउटल करते हैं जैसे एग्जांपल के तौर पे बात करूं कि मेरे पास जो मेरा डाटा है वो कुछ इस तरह से है कि 546 की रेंज के अंदर है या फिर 547 की रेंज के अंदर है लेकिन अचानक से उसके अंदर 13 एंटर कर जाए तो वह बेसिकली क्या कहलाएगा आउटलायर कहलाएगा उस पर्टिकुलर डाटा के लिए अब बेसिकली आउटलायर को हटाना क्यों ज्यादा जरूरी हो जाता है यहां पे क्योंकि हमारे पास मशीन लर्निंग के अंदर काफी ऐसी एल्गोरिथम्स होती है जो आउटलायर के आने से आपके पास रॉन्ग प्रिडिक्शंस देना स्टार्ट कर देती है मतलब वह आउटलायर की तरफ आपके पास यहां पे ट्रेंड हो जाती है और जिसकी वजह से हमारे डिजायर आउटपुट होते हैं वो हमें नहीं मिल पाते हैं और बेसिकली हमें रॉन्ग आंसर्स देखने को मिल सकते हैं जस्ट एग्जांपल के तौर पे बात करें यहां पे तो मान लीजिए मेरा डाटा कुछ इस तरह से है 5 67 फिर मैंने ले लिया 5.5 फिर ले लिया मैंने 6.5 फिर मैंने ले लिया 7.5 एंड उसके बाद मैंने ले लिया 99.5 एंड अचानक से मैंने ले लिया यहां पे 100 तो ये 100 मेरे लिए इस सिनेरियो के अंदर क्या बन जाएगा एक आउटलायर बन जाएगा अब हम यहां पे ये समझेंगे कि हमारे पास कोई डेटा सेट हो तो उस डेटा सेट के अंदर हम आउटलायर कैसे डिटेक्ट कर सकते हैं फिर उसके बाद हम आउटलायर को रिमूव करने की टेक्निक को भी समझने वाले हैं तो इसको देखने के लिए मेरे पास एक डाटा सेट पड़ा है यहां पे जैसा कि आप सबको पता है लोन . सए के ऊपर हम काफी दिनों से काम कर रहे हैं यहां पे इसके अंदर जो एप्लीकेशन एंड को एप्लीकेशन वाला जो दो पार्ट है हमारे पास यहां पे इसके अंदर हमारे पास आउटलायर होने के चांसेस हो सकते हैं तो पहले मैं आपको ये बताऊंगा कि आउटलायर कैसे डिटेक्ट किया जा सकता है इन दोनों डाटा के अंदर तो इसके लिए चलते हैं जुपिटर नोटबुक के ऊपर जहां पे हम ये सारा कुछ काम करेंगे हम सबसे पहले इंपोर्ट करेंगे पांडा को क्योंकि हमारा जो डाटा सेट है उसे हम लोड कराना चाते हैं तो पांडा जलिस ऑफ पीडी मैं यहां पे लूंगा और उसके बाद में मुझे ग्राफ भी बनाना है तो उसके लिए मैं इंपोर्ट करूंगा किसे अ सी बन को इंपोर्ट करने वाला हूं सीब एस ऑफ एनएस और मैट प्लर लिप के बिना तो ग्राफ बनने वाला है नहीं तो उसके लिए हम यहां पे इंपोर्ट करेंगे किसे मैट पल लिप को फिलहाल मैट पल लिप के बिना भी ग्राफ बन सकता है लेकिन मेटलर लिप के अंदर सो फंक्शन के थ्रू हम हमारे ग्राफ को देख सकते हैं और इवन दैट यदि हमें उसे ज़ूम करना है तब भी हम यहां पे आराम से कर सकते हैं तो मैटल लिप के अंदर चलेंगे और पीवा प्लॉट को हम कॉल करने वाले हैं एलियाज ऑफ पीएटी का इस्तेमाल करेंगे तो ये हमारी रिक्वायर्ड जो लाइब्रेरी है वो सारी आ चुकी है और उसके बाद में हम क्या करते हैं हमारे डाटा सेट को लेते हैं उसके बाद पीडी डॉट यहां पर _ सीएवी के थ्रू हमारी जो फाइल है उसे लोड करते हैं और फाइल का नाम है यहां पे लोन . सीएवी और उसके बाद में हम हमारे डटा सेट को देखें और डाटा सेट को देखने के बाद टा सेटड हैड लगा के तीन डाटा हम यहां पर देखना चाहेंगे तो ताकि हम हमारे डाटा को ऑब्जर्व कर सके कि कौन-कौन सा डाटा है और किसके अंदर हमें आउटलाइन फाइंड करने की जरूरत है इसके अंदर हमें यहां पे दो न्यूमेरिकल डाटा देखने को मिला है जिसके अंदर हमारे पास क्या है एक एप्लीकेशन कम है और दूसरा को एप्लीकेशन इन कम है तो फिलहाल हम चाहें तो इन दोनों के अंदर जो नल वैल्यू प्रेजेंट है उनको भी फिल कर सकते हैं अब ये नल वैल्यू आप कैसे पता करेंगे तो इसके बारे में हमने एक डेडिकेटेड वीडियो बनाया है जहां से आप नल वैल्यू को आप देख सकते हैं कि वो कैसे ऑब्जर्व किया जा सकता है फिलहाल मैं इसकी इंफॉर्मेशन निकालूं ताकि मुझे थोड़ा बहुत आईडिया लग सके कि इसके अंदर डाटा किस तरह से प्रेजेंट है नल वैल्यू प्रेजेंट है या नहीं है और इवन दैट हम यहां पे इसका डिस्क्राइब भी निकालेंगे ताकि हम इसकी मिनिमम और मैक्सिमम रेंज को पहचान सके ताकि हमें एक आईडिया लग सके कि क्या इसके अंदर आउटलायर होने की पॉसिबिलिटी है या नहीं है तो मैं डाटा सेट के अंदर चलूंगा और डॉट यहां पर इंफो निकालू और इंफो निकाल के रन करूंगा तो जैसे ही मैं रन करूंगा तो देखिए मेरे पास एप्लीकेशन और को एप्लीकेशन इनकम दो ऐसे डेटा सेट हैं जिनके अंदर आपके पास नल वैल्यू आपके पास प्रेजेंट है एप्लीकेशन इनकम के अंदर तो है और को एप्लीकेशन इनकम के अंदर फिलहाल नहीं है चलिए अब मैं थोड़ा इसका डिस्क्राइब निकालना चाहूंगा मैथमेटिकल कैलकुलेशन देखना चाहूंगा कि क्या इसके अंदर नल वैल्यू प्रेजेंट होने के चांसेस हैं तो वो हम देख सकते हैं कैसे डाटा सेट के अंदर चलेंगे डॉट यहां पर आप क्या निकालेंगे इसका डिस्क्राइब निकालेंगे जैसे ही आप डिस्क्राइब फंक्शन को कॉल करेंगे तो आपको एप्लीकेशन और को एप्लीकेशन इनकम के रिलेटेड सारी चीजें मिल जाएगी जैसे उसके अंदर टोटल नंबर ऑफ एलिमेंट्स कितने परसेंट है मतलब उसके अंदर डाटा कितना परजेंट है अ मीन कितना है मतलब मिनिमम वैल्यू कितनी है यहां पे और मैक्सिमम वैल्यू कितनी है फिलहाल देखिए को एप्लीकेशन इनकम को यदि मैं गौर से देखूं तो इसके अंदर मिनिमम वैल्यू ज़ीरो दिखा रही है यहां पे मैक्सिमम वैल्यू 41600 के आसपास यहां पे दिखाई जा रही है तो बेसिकली इसके अंदर आउटलाइन होने के चांसेस बहुत ही ज्यादा हो सकते हैं क्योंकि मिनिमम वैल्यू के करेस्पॉन्डिंग्ली को देखूं तो बहुत ही ज्यादा है यहां पर इवन दैट आप इसके मीन को भी ऑब्जर्व करेंगे तो मीन जो है आपके पास यहां पे वो 1600 ही है यहां पे और उसके कर पॉन्डिंग यदि मैं मैक्सिमम वैल्यू को देखूं तो वो बहुत ही ज्यादा हमारे पास यहां पर है तो बेसिकली को एप्लीकेशन इनकम के अंदर हमारे पास यहां पे आउटलायर होने की पॉसिबिलिटी सबसे ज्यादा है यदि आप भी मशीन लर्निंग डेटा साइंस एंड डेटा एनालिटिक्स जैसी फील्ड में अपने आप को ग्रो करना चाहते हैं तो इसके लिए डब्ल्यू एस क्यूटेक के ऑनलाइन एंड ऑफलाइन बने बैच के अंदर जॉइन करके आप अपनी स्किल को इंप्रूव कर सकते हैं स्के लिए लिए दिए गए कांटेक्ट नंबर पे कॉल करके आप हमारी फ्री डेमो क्लासेस ले सकते हैं तो फिर स्टार्ट करते हैं इस प्लेलिस्ट को और सीखते हैं कि किस तरीके से डाटा को क्लीन किया जाता है इवन दैट आप एप्लीकेशन इनकम को भी आप देखेंगे तो एप्लीकेशन इनकम के अंदर भी आप मिनिमम वैल्यू को देखेंगे तो 150 है और मैक्सिमम वैल्यू को देखेंगे तो 81000 है जो कि एक बहुत ही ज्यादा नंबर्स है यहां पे और इवन दैट आप यहां पे मीन को भी देखेंगे तो मीन आपके पास केवल और केवल 5 5000 के आसपास ही है यहां पे तो बेसिकली बात करें यहां पे तो एप्लीकेशन और को एप्लीकेशन इनकम ये दो ऐसी चीजें हैं जहां पे आपके पास आउटलायर होने की पॉसिबिलिटीज सबसे ज्यादा है तो चलिए अब इनके आउटलायर को हम फाइंड आउट करते हैं आउटलायर को यदि आपको देखना है तो उसके लिए आप बॉक्स प्लॉट का इस्तेमाल कर सकते हैं या फिर आप यहां पे डिस्ट्रीब्यूशन प्लॉट का भी इस्तेमाल कर सकते हैं लेकिन मेरी मानिए आप बॉक्स प्लॉट का इस्तेमाल कीजिए ताकि वहां पे आउटलायर को बहुत अच्छे तरीके से आप डिटेक्ट कर सके क्योंकि बॉक्स प्लॉट को जब आप यहां पर देखेंगे कड से तो बॉक्स प्लॉट के अंदर एक चीज है यहां पे कि आपका जो बॉक्स प्लॉट होता है इसके अंदर जो बॉक्स होता है वो आपके पास यहां पे बीच वाला पार्ट होता है इसके अंदर जो बीच वाला पॉइंट होता है वो आपका मीडियन होता है इसके साथ-साथ यहां पे ये जो दो लाइन होती है इसके अंदर विस्कर प्लॉट मिल जाती है और विस्कर प्लॉट की कैप आपको मिल जाती है अब ये विस्कर प्लॉट की जो कैप होती है इसकी वैल्यू होती है यहां पे और इसकी वैल्यू होती है q3 + 1.5 * आ क और यहां पे इस स्क प्लॉट की कैप का रेंज होती है q1 - 1.5 * आ क और इसके आगे जितने भी डेटा पॉइंट्स हमारे पास प्रेजेंट होंगे ये सारे के सारे क्या कहलाते हैं हमारे आउटलायर यहां पे कहलाते हैं तो बेसिकली गाइज बात करें तो हम आउटलायर को बहुत ही आराम से डिटेक्ट कर सकते हैं किसके थ्रू बॉक्स प्लॉट के थ्रू तो चलिए हम बॉक्स प्लॉट बनाते हैं और इसके थ्रू आउटलायर को डिटेक्ट करते हैं तो बॉक्स प्लॉट बनाने के लिए मैं c1 का इस्तेमाल करूंगा इसके लिए मैं sns2 पलट का इस्तेमाल करने वाला हूं और फिलहाल मैं को एप्लीकेशन इनकम के बीच के लिए ही मैं यहां पे बॉक्स प्लॉट तैयार करूंगा एप्लीकेशन इनकम के लिए नहीं तैयार करूंगा क्योंकि इसके अंदर नल वैल्यू प्रेजेंट है तो पहले मैं इसके अंदर नल वैल्यू फिल कर लूंगा फिर उसके बाद बॉक्स प्लॉट बना लूंगा तो फिलहाल मैं अभी को एप्लीकेशन इनकम के ऊपर बॉक्स प्लॉट बनाने के लिए रेडी हूं यहां पे तो मैंने x = टू मतलब x एक्सेस में मुझे बॉक्स पड बनाना है और वो किसका बनाना है मुझे को एप्लीकेशन इनकम का बनाना है तो मैंने को एप्लीकेशन इनकम यहां पे डाल दिया उसके बाद मैंने यहां पे डाटा लिया है और डटा इक्वल्स टू मैंने क्या किया है यहां पे डेटा सेट को डाल दिया है उसके बाद इस ग्राफ को देखना है तो मैंने पीएटी डॉट यहां पर शो फंक्शन को अप्लाई कर दिया है देन जैसे ही रन करूंगा मेरा बॉक्स प्लॉट मेरे पास रेडी हो गया और जैसा कि आप इस बॉक्स प्लॉट में देख पा रहे हैं यहां पे कि जो आपका विस्कर लाइन है यहां पे मतलब विस्कर प्लॉट की जो कैप है आपके पास यहां पे उसके बाद में आपको बहुत सारे आउटलायर दिखाई दे रहे हैं यहां पे और जैसे कि हमने ऑब्जर्वेशन भी कर लिया था यहां पे कि आपकी मिनिमम वैल्यू जीरो है और मैक्सिमम वैल्यू जो आप देख पा रहे हैं यहां पे 41000 के आसपास दिखाई दे रही है और जो मीन है वो आपका 1600 ही है केवल यहां पे तो इसका मतलब डेफिनेटली आपके पास यहां पे क्या मिलेंगे आपको बहुत सारे आउट लायर्स देखने को मिलेंगे और जैसे कि आप यहां पे ग्राफ से भी देख पा रहे हैं कि इसके अंदर बहुत सारे आउटलाइंस प्रेजेंट है यहां पे ये जितने भी डॉट डॉट्स आपको दिखाई दे रहे हैं ब्लैक कलर के स्पॉट्स दिखाई दे रहे हैं ये सारे के सारे क्या कहलाते है आउट लायर्स कहलाते हैं अब एक काम करते हैं हम यहां पे एप्लीकेशन इनकम के अंदर भी देख लेते हैं कि एप्लीकेशन इनकम के अंदर भी आउटलायर है क्या या नहीं है तो मैंने जैसे ही एप्लीकेशन इनकम के अंदर डाला तो एप्लीकेशन इनकम के अंदर भी आप देख पाएंगे कि इसके अंदर भी बहुत सारे आउटलायर प्रेजेंट है यहां पे तो बेसिकली यदि आउटलायर आपको फाइंड आउट करना है तो आप बॉक्स प्लॉट के थ्रू आउटलायर फाइंड आउट कर सकते हैं इसके अलावा आप डिस्ट्रीब्यूशन प्लॉट के थ्रू भी आप आउटलायर फाइंड आउट कर सकते हैं डिस्ट्रीब्यूशन के अंदर आपको एगजैक्टली आउटलायर तो नहीं मिलेगा लेकिन आपको यदि नॉर्मल डिस्ट्रीब्यूशन कर्व की नॉलेज है तो वहां से आप उसकी टेल के थ्रू पहचान सकते हैं कि उसके अंदर आउटलायर है या नहीं है कैसे जरा इसको समझते हैं यहां पे तो एए डॉट मैं यहां पे क्या करने वाला हूं डिस्क प्लॉट बनाने वाला हूं मतलब डिस्ट्रीब्यूशन प्लॉट बनाने वाला हूं अब डिस्ट्रीब्यूशन प्लॉट किसका बनाऊंगा तो मैं हमारे जो डेटा सेट है इसके अंदर जो हमारी एप्लीकेशन इनकम है उसका डिस्ट्रीब्यूशन प्लॉट बनाने वाला हूं उसके बाद मैं पीएटी डॉट शो करके इस ग्राफ को देखूंगा यहां पे तो जैसे ही मैं इस ग्राफ को बनाऊंगा तो देखिए मेरे पास एक ग्राफ नजर आता है जो कि लुक लाइक अ नॉर्मल डिस्ट्रीब्यूशन दिखता है बट इसके अंदर जो इसकी टेल है वो टेल बहुत ही ज्यादा लंबी है अब ये टेल कैसे लंबी है जरा इसको देखें यहां पे तो ये जो आप टेल का ये वाला पार्ट देख रहे हैं ये वाला जो पार्ट देख रहे हैं जो कि आपका 20000 से आगे वाला है यहां पे ये टेल वाला जो पार्ट है वो काफी लंबा जा रहा है मतलब उसकी जो टेल है वो बहुत ही लॉन्ग स्ट्रेच हो रही है इसका मतलब क्या हो गया यहां पे आउटलायर प्रेजेंट है क्योंकि ये जो टेल है वो बहुत ज्यादा लंबी है यदि आपका जो कर्वेचर है यदि वो नॉर्मल डिस्ट्रीब्यूशन कर्व की तरफ होता तो वो केवल इतना ही कर्वेचर आता लेकिन आपके पास ये जो कर्वेचर है वो इस तरह से आगे जा रहा है इसका मतलब यहां तक का जो भी पार्ट है ये जितना भी पार्ट आप देख पा रहे हैं यहां पे ये सारे के सारे क्या है आपके आउट लायर्स हैं तो बेसिकली आउटलायर को डिटेक्ट करना है तो बॉक्स प्लॉट सबसे बेस्ट है बॉक्स प्लॉट के थ्रू आप आउटलायर को डिटेक्ट कर सकते हैं और नहीं तो आप यहां पे डिस्ट्रीब्यूशन प्लॉट्स भी बना के उसका आउटलायर डिटेक्ट कर सकते हैं अब बेसिकली बात करें आउटलायर तो हमने डिटेक्ट कर लिया है है लेकिन आउटलायर से क्या-क्या प्रॉब्लम हो सकती है तो आउटलायर से जैसा कि मैंने आपको बताया था कि आपके जितने भी स्टैटिकल प्रॉब्लम्स होती है मतलब स्टैटिकल प्रॉब्लम का क्या है मीन मीडियन मोड जो भी आप निकालना चाहें यहां पे स्टैंडर्ड डेविएशन निकालना चाहे आगे चलते हुए मशीन लर्निंग एल्गोरिथम का भी आप इस्तेमाल करने वाले हैं तो इनके अंदर बहुत ज्यादा प्रॉब्लम्स क्रिएट हो जाती है ये आपके पास यहां पे रॉन्ग आउटपुट प्रिडिक्शन करना स्टार्ट कर देते हैं जैसे कि मैंने आपको स्टार्टिंग में भी एक एग्जांपल बताया था कि यदि आपके पास एक सैलरी रेंज पांच से सात के बीच में है तो एवरेज 6 लाख ही आता है लेकिन अचानक से उसके अंदर 12 लाख यदि मैं ऐड कर दूं तो वो एवरेज जो है वो आपका चेंज हो जाता है इसको जरा थोड़ा प्रैक्टिकल भी समझ लेते हैं ये कैसे होता है यहां पे जो कि मैंने बोला यहां पे कि आउटलायर का इफेक्ट आपको देखने को मिलता है जैसे मान लीजिए कि मेरे पास यहां पे कंपनी के कुछ एंप्लॉई है और उन कंपनी के एंप्लॉई का मैं क्या कर रहा हूं एवरेज निकालना चाह ताहा हूं यहां पे तो उनका कुछ डाटा यहां पर है 5 6 सा और उसके बाद मान लीजिए 5 4 6 सा और उसके बाद पांच ये कुछ आपका डाटा यहां पे प्रेजेंट है अब मुझे क्या करना है इसका मीन निकालना है तो मीन निकालना मतलब एवरेज निकालना यहां पे एवरेज निकालने के लिए मैं क्या करूंगा यहां पे मैं इसका इस्तेमाल करूंगा सम का सम ऑफ l लिखूंगा डिवाइड बाय यहां यहां पे लेन ऑफ यहां पे एल करने वाला हूं जैसे रन करूंगा इसका एवरेज आएगा 5.67 आने वाला है राइट ये हमारे पास इस तरह से आएगा लेकिन यदि मैंने यहां पे हमारा कुछ डाटा एक्स्ट्रा डाल दिया जैसे कि मैंने यहां पे डाल दिया एक 100 बीच में और फिर मैंने यहां पे रन किया तो देखो मेरा एवरेज जो है वो 16 पहुंच गया जो कि एक रॉन्ग आंसर है क्योंकि यदि मैं यहां पे 100 को देखूं तो 100 जो है वो मेरे डाटा के लिए एक आउटलायर है और वो मेरे जो प्रेडिक्शन आंसर्स हैं उनको यहां पे क्या कर रहा है थोड़ा सा मिस्टेक कर रहा है तो अब हमारा मेन टारगेट क्या होगा आउटलायर को रिमूव करने की जो टेक्निक है उस इसके अंदर जो सबसे फेमस टेक्निक है यहां पे वो है आई क्यूआर मेथड आपके पास है यहां पे इसके अलावा आपके पास यहां पे जेड स्कोर मेथड भी है ये दो मेथड आपके पास है जो सबसे फेमस है और इनकी हेल्प से आप आउटलायर को बहुत ही आसानी से रिमूव भी कर सकते हैं हम ये बात करने वाले हैं कि आई क्यूआर मेथड कैसे काम करता है आउटलायर को रिमूव करने के लिए आज की इस वीडियो के जरिए हम यहां पर देखने वाले हैं तो सबसे पहले बात करते हैं आउटलायर होते क्या हैं यहां पे तो यदि हमारे पास कोई एक डाटा गिवन रेंज के अंदर होता है और यदि हमारा कोई दूसरा जो जो डाटा है वो उस रेंज से बाहर चला जाता है यहां पे या फिर आप ऐसे मान लीजिए कि एक डाटा है जो एक रेंज के अंदर ही आपको देखने को मिलेगा और अचानक से उसके अंदर कोई ऐसे दो-तीन डेटा ऐसे आ गए या दो-तीन एलिमेंट ऐसे आ गए यहां पे जो उस रेंज से बहुत ही बियोंड चल रहे हैं बहुत ही बाहर चल रहे हैं यहां पे तो वो जो आपका डाटा होगा वो आपके लिए क्या होगा आउटलायर की तरह काम करने वाला है यहां पे अब ये आउटलायर कैसे डिटेक्ट करते हैं तो ये आउटलायर को डिटेक्ट करने के लिए हमने बॉक्स प्लॉट का इस्तेमाल किया था बॉक्स प्लॉट के थ्रू हम क्या करते हैं हमारे आउटलायर को डिटेक्ट करते हैं तो चलिए जरा इसको देखते हैं यहां पे आउटलायर को डिटेक्ट करते हैं और फिर से रिमूव करते हैं आईक्यू आर मेथड के थ्रू तो फिलहाल मैं अपने लैपटॉप में आ चुका हूं यहां पे और मैं अपना यहां पे जो रिक्वायर्ड जो लाइब्रेरीज है उनको इंपोर्ट कर चुका हूं और उसके बाद मैं अपना जो डेटा सेट है उसे भी लोड कर चुका हूं इस डेटा सेट के अंदर हमने देखा कि एप्लीकेशन इनकम और को एप्लीकेशन इनकम दो ऐसे हमारे पास डाटा है जिनके अंदर आउटलायर प्रेजेंट है और इनको ऑब्जर्व करने के लिए हमने क्या किया था डिस्क्राइब मेथड का इस्तेमाल भी किया था तो टा सेट डॉट यहां पर मैंने डिस्क्राइब को कॉल किया डिस्क्राइब के थ्रू हमें थोड़ा बहुत आईडिया लग जाता है कि इसके अंदर आउटलायर होने के चांसेस है या नहीं है और जो कि हमें यहां पे क्लियर बता रहा है कि यस इसके अंदर आउटलायर होने के चांसेस आपके पास है यहां पे अब बेसिकली हम इसे कैसे देख सकते हैं तो देखने के लिए मैं एए डॉट यहां पे बॉक्स प्लॉट का इस्तेमाल करूंगा और बॉक्स प्लॉट के थ्रू हम बहुत ही आराम से देख पाएंगे कि हमारे पास आउटलायर है या नहीं है जैसे कि यदि मैं मुझे देखना है को एप्लीकेशन इनकम के अंदर आउटलायर यहां पे तो मैं को एप्लीकेशन इन कम दूंगा यहां पे और मैं डटा इक्वल्स टू क्या दूंगा यहां पे गाइ यहां पे डाटा सेट देने वाला हूं इस ग्राफ को देखने के लिए मैं पीएटी डॉट यहां पर शो फंक्शन को कॉल करूंगा और रन करूंगा तो मुझे देखने को मिलेगा कि इसके अंदर बहुत सारे आउटलाइंस हमारे पास प्रेजेंट है यहां पे अब यहां पे मैं आई मेथड इस्तेमाल करूंगा इस आउटलायर को रिमूव करने के लिए तो फिलहाल ये आई क्यूआर मेथड होता क्या है पहले से समझते हैं यहां पे तो आई क्यूआर का पूरा नाम है इंटर क्वांटल रेंज यस इसका पूरा नाम क्या है यहां पे इंटर क्वांटल रेंज होती है यहां पे और ये इंटर क्वांटल रेंज जो होती है बेसिकली गाइज यहां पे ये आपके बॉक्स प्लॉट से ही आती है यहां पे जैसे कि आप इस डायग्राम के थ्रू समझ पा रहे होंगे अब ये जो आईक्यू आर है ये आईक्यू आर है क्या यहां पे बेसिकली तो ये एक रेंज है यहां पे और ये रेंज कौन सी है यहां पे आपके पास जो फर्स्ट क्वां टाइल है और जो थर्ड क्वां टाइल है इसके बीच का डिफरेंस है है अब ये कंटालू एक मैथमेटिक्स का पार्ट है जिसके अंदर आप समझते हैं कि परसेंटेज और परसेंटाइल्स क्या होता है यहां पे उसी के अंदर आपका कंटा इल भी आपके पास आता है इसको एक छोटे से समरी के तौर पे मैं आपको समझाऊं यहां पे कंटा इल के बारे में तो कुछ ऐसा है कि जैसे 100 लोग एक एग्जाम को दे रहे हैं और उस 100 लोग के एग्जाम के अंदर आपकी जो रैंक है वो फोर्थ आती है तो इसके अंदर जो आपका जो परसेंटाइल्स होगा या फिर मैं बात करूं जो क्वांटा इल होगा यहां पे वो क्या होगा यहां पे 96 आपके पास क्या होने वाला है परसेंटाइल होने वाला है जो कि आपके पास क्या कर रहा है जो आपको डिफाइन कर रहा है कि उस एग्जाम के अंदर आपकी रैंकिंग क्या रही है यहां पे इसी तरह से आपके पास एक पूरा रेंज होता है उस रेंज को यदि हम छोटे-छोटे छोटे-छोटे पीसेज के अंदर तोड़ दें यहां पे तो वो हमारे पास क्या होता है क्वां टाइल होता है इसके अंदर जो फर्स्ट कंटल होता है मतलब फर्स्ट कंटल की बात करूं जो q1 होता है यहां पे वो आपके पास आपके डाटा का 25 परसेंटाइल्स होता है मतलब यदि आपके ओवरऑल आपका डाटा सेट लिया जाए यहां पे तो उसके अंदर जो 20 25 परसेंटाइल्स के ऊपर जो पर्सन बैठा होगा या जो डाटा होगा यहां पे वो आपका फर्स्ट कंटा इल होता है यहां पे और थर्ड क्वां टाइल के अंदर बात करें यहां पे बेसिकली बात करें तो वो होता है आपका 75 परसेंटाइल्स होता है यहां पे मतलब ओवरऑल डाटा के अंदर जो आपका 75 परज जो डाटा मैं अलग कर दूंगा यहां पे फिर जो पर्सन आपके सामने देखने को मिलेगा वो आपके पास क्या होगा आपका थर्ड कंटेल होगा अब यहां पे आपके पास क्या होता है आई क्यूआर आता है यहां पे आई क्यूआर क्या होता है इंटर क्वांटा रेंज इंटर क्वांटल रेंज का मतलब क्या है दो क्वांटल के बीच की रेंज है यहां पे और ये कैसे निकाला जाता है ये निकाला जाता है q3 - q1 करने से मतलब थर्ड क्वांटल को फर्स्ट क्वांटल से यदि मैं सबट करूं तो मुझे आई क आर मिलेगा अब इसके अंदर देखिए जब भी आप बॉक्स प्लॉट बनाते हैं तो बॉक्स प्लॉट के अंदर आपने देखा होगा कि आपका जो बॉक्स प्लॉट होता है वो आपका यहां पे इस तरह से दिखाई देता है इसके अंदर ये जो दो लाइंस आपके पास देखने को मिलती है इनको हम विक्सर प्लॉट बोलते हैं और ये आपके पास एक विक्सर प्लॉट की कैप होती है ये विक्सर प्लॉट की कैप जो आपके पास होती है ये आपके मिनिमम डाटा को रिप्रेजेंट करती है और यहीं पे आपके पास ये मैक्सिमम डे डटा को भी रिप्रेजेंट करती है मतलब इस रेंज के जो डाटा आगे आया यहां पे या इस रेंज से जो पीछे डटा आपके पास आया यहां पे वो सारे के सारे आपके लिए क्या होंगे आपके आउटलायर के पार्ट होने वाले हैं अब ये जो आपके मिनिमम और मैक्सिमम रेंज है ये कैसे निकाली जाती है तो यदि आपको मिनिमम रेंज आपको निकालनी मतलब मिनिमम में कैप आपको निकालनी है तो ये कैसे निकलेगी कि जो आपका फर्स्ट क्वांटल है इसमें से आप सबस्टैक करेंगे किसे 1.5 * आक आर को मतलब आप आई कू आ से मल्टीप्लाई करेंगे 1.5 से और फिर उसके बाद उसको सबस्टैक कर देंगे q1 से मतलब फर्स्ट कंटल से सबट करेंगे तो आपको फर्स्ट मिनिमम रेंज देखने को मिलेगी और उससे नीचे का जितना भी डाटा होगा वो सारा आपके लिए क्या बनेगा एक आउटलायर की तरह काम करेगा क्या मिनिमम में भी आउटलायर हो सकते हैं बिल्कुल हां मिनिमम में भी आउटलायर प्रेजेंट हो सकते हैं आपके पास यहां पे ये डिपेंड करेगा आपके डटा सेट के ऊपर फिर उसी तरह से यदि आपके पास यदि मैं मैक्सिमम आउटलाइन निकालना चाहूं यहां पेब मैक्सिमम एक रेंज निकालना चाहूं यहां पे तो वो कैसे निकालूं तो ये आपका निकलेगा q3 प्लस यहां पे आएगा 1.5 * आई क्यूआर से आपके पास यहां पे निकलने वाला है अब 1.5 आई क्यूआर को आप क्या करेंगे यहां पे q3 के साथ जैसे ही ऐड करेंगे आपको मैक्सिमम रेंज मिल जाएगा और इसके बाहर का जितना भी आपका डाटा होगा वो सारा का सारा आपके लिए क्या करेगा आउटलायर की तरह काम करने वाला है तो इस तरह से आप अपने आउटलायर को यहां पे डिटेक्ट कर सकते हैं और उन्हें रिमूव भी कर सकते हैं चलिए जरा देखते हैं यहां पे कि ये किस तरह से डिटेक्ट होता है और किस तरह से रिमूव होता है तो इसके लिए मैं ले चलता हूं आपको जुपिटर नोटबुक पा जहां पे ये सारा काम करने वाला हूं यहां पे अब सबसे पहले मैं क्या करूंगा हमारे डेटा सेट के पास जाऊंगा यहां पे और डॉट शेप निकालते हुए मैं क्या करूंगा यहां पे उसके रो एंड कॉलम को देखूंगा कितने रो एंड कितने कॉलम्स हमारे पास प्रजेंट है तो 6188 रोज है हमारे पास यहां पे 13 हमारे पास कॉलम है यहां पे अब बेसिकली जो हमारा को एप्लीकेशन इनकम है हमारा यहां पे इसके अंदर से आउटलायर मुझे रिमूव करना है यहां पे इसके अंदर मुझे आई क्यूआई निकालने के लिए मुझे क्या चाहिए थर्ड क्वांटल एंड फर्स्ट क्वांटल चाहिए मुझे यहां पे तो मैं काम करता हूं यहां पे q1 के नाम से एक वेरिएबल बनाता हूं यहां पे और उसके बाद मैं अपने डेटा सेट के पास चलता हूं देन स्क्वायर ब्रैकेट और मुझे को एप्लीकेशन इनकम चाहिए तो मैं इसके अंदर क्या करूंगा यहां पे को एप्लीकेशन इनकम दे दूंगा यहां पे जैसे मुझे को एप्लीकेशन इनकम का डाटा मिल जाए उसके बाद य हमारे पास क्या होता है कोंटल नाम का एक फंक्शन होता है यहां पे मतलब आप यहां पे बोल सकते हैं मेथड होता है यहां पे जिसकी हेल्प से आप क्या कर सकते हैं आप यहां पे q1 को निकाल सकते हैं इसके अंदर यदि मैं 0.25 दूं तो ये मुझे क्या देगा 25 परज का जो डाटा है यहां पे वो मुझे दे देगा मतलब उस क्वांटल का डाटा मिलेगा और वो क्वांटल का डाटा हमें क्या मिला है यहां पे जरो मिला है मतलब हमारा जो स्टार्टिंग एंगल है यहां पे वो जीरो से स्टार्ट है और ये बिल्कुल सही भी बोल रहा है यहां पे और मुझे अब क्या निकालना है थर्ड क्वांटल निकालना है तो थर्ड क्वांटल के लिए मैं क्या करूंगा यहां पे गाइस इसी को जस्ट कॉपी करूंगा और नेक्स्ट मैं यहां पे पेस्ट कर दूंगा अब इसके अंदर मुझे क्या करना है 25 को 75 में कन्वर्ट करना है तो इससे मुझे क्या मिलेगा थर्ड क्वांटल का डाटा मिल जाएगा थर्ड क्वांटल का जो डाटा मिला है मुझे यहां पे वो 2281 यहां पे मिला है और ये जो दो चीजें है ना ये चीजें आप ऑब्जर्व भी कर सकते हैं किसके थ्रू आप डिस्क्राइब फंक्शन के थ्रू भी कर सकते हैं देखिए डिस्क्राइब फंक्शन के अंदर जैसे ही आप यहां पे ओपन करेंगे इसे तो आपको यहां पे 25 परस का जो डाटा है वो आपको यहां पे 0 पर मिलेगा और 75 पर का डाटा है जो आपके पास यहां पे 2281 आपको मिल जाएगा यहां पे बेसिकली तो आप यहां पे डायरेक्टली भी इसका आंसर यहां से निकाल सकते हैं लेकिन हमें यहां पे आईक आर निकालना था तो इसलिए मैंने q1 और q2 निकालना आपको यहां पे सिखाया है अब q1 एंड q3 तो हमारे पास आ गया लेकिन इससे हमें आई क आ निकालना है तो मैं एक काम करूंगा आ क्यूआर के नाम से एक वेरिएबल बनाऊंगा और उसके अंदर क्या करूंगा हमारे पास यहां पे जो q3 है उसमें से सबस्टैक कर दूंगा किसे q1 को तो यहां से मुझे मेरा क्या मिल जाएगा आ क मिल जाएगा अब मुझे क्या निकालनी है हमारे डाटा की एक मिनिमम रेंज निकालनी है और हमारे डाटा की मैक्सिमम रेंज में निकालनी है यदि मैं बात करूं मिन अंडर रेंज की क्योंकि मुझे मिनिमम रेंज निकालनी है यहां पे तो मैं मिन रेंज निकालूं मिन रेंज निकालने के लिए मुझे क्या करना पड़ेगा मुझे मेरे q1 को लेना है यहां पे उसमें से सबस्टैक करना है और क्या सबै करना है 1.5 * आ क आ को सबट करना है तो मैं यहां पे i क आ दे देता हूं राइट और जैसे मैं आ क आ देखूंगा तो मुझे मेरी मिनिमम रेंज मिल जाएगी इसी तरह से मुझे मेरी मैक्सिम रेंज भी निकालनी है तो मैक्स अंड रेंज के नाम से एक वेरिएबल बना लेता हूं यहां पे मैक्स अंड रेंज के नाम से एक वेरिएबल बना लेता हूं यहां पे ये क्या करेगा यहां पे q3 आपके पास यहां पे प्लस करेगा और किसे प्लस करना है यहां पे गाइ मुझे तो मुझे 1.5 * आ क आ से मल्टीप्ला करना है तो मैं 1.5 * i कर दूंगा तो यहां से मुझे मेरी मिनिमम और मैक्सिमम रेंज भी मुझे मिल जाएगी अब मुझे मुझे यहां पे से देखना है तो मैं एक काम करूंगा मिन रेंज को कॉल करूंगा और इसी के साथ-साथ मैं अपनी मैक्स रेंज को भी कॉल करने वाला हूं जैसे रन करूंगा तो मुझे मेरी मिनिमम और मैक्सिमम रेंज मिल जाएगी अब देखिए मिनिमम रेंज जो मिली है वो मुझे नेगेटिव मिली है और वैसे कि मेरे पास डाटा नेगेटिव में है नहीं ऑलरेडी तो मैं अपनी मिनिमम रेंज को तो एज अ डिस्कार्ड कर दूंगा मतलब मुझे इसकी जरूरत नहीं पड़ेगी लेकिन मुझे मेरी मैक्सिमम रेंज की जरूरत पड़ेगी जो यहां पे मुझे रेंज मिली है वो 5000 के अराउंड यहां पे मुझे मिली है तो बेसिकली आप देख भी पा रहे हैं इस डायग्राम के अकॉर्डिंग कि 5000 के अराउंड आपके पास क्या है आपके आउटलायर प्रेजेंट है यदि आपको इसको और ज्यादा थोड़ा जूम करेंगे तो आपको आउटलायर के अंदर और भी अच्छे से क्लेरिफाई हो जाएगा कि क्या नंबर है यहां पे उसका तो मैं एक काम करता हूं उसके लिए मैं पीएटी डॉट यहां पर फिगर का इस्तेमाल करूंगा जिसके थ्रू मैं करूंगा हमारे पास इस ग्राफ को थोड़ा और स्ट्रेच करूंगा और और अच्छे से देखूंगा कि आउटलायर की एक्चुअल में रेंज क्या है यहां पे तो मैं फिगर लूंगा और फिगर के अंदर मैं जाऊंगा यहां पे और फिस साइज का इस्तेमाल करने वाला हूं इसको मैं कर देता हूं 105 के अराउंड ताकि ये लंबा थोड़ा ग्राफ बन जाए और मुझे आराम से कुछ डाटा देखने को मिले तो आराम से देखिए यहां पे ये रो है और ये 10000 है तो इसके अराउंड मुझे 5000 तो मिलेगा ही मिलेगा एप्रोक्सीमेट यहां पे मैं इसको और थोड़ा स्ट्रेच करता हूं यहां पे 15 करता हूं ताकि मुझे और डाटा देखने को मिले या तो अब आप देख पा रहे हैं यहां पे कि ये जो रेंज है इस रेंज के बाहर का बहुत सारा डाटा है और ये अराउंड 5000 के आसपास का तो डाटा अप्रॉक्सिमेट्स ट्रिक है उसे चेंज कर सकते हैं और चेंज करके यहां पे 5000 के अराउंड इसे लेके आ सकते हैं लेकिन मैं ऐसा कुछ करूंगा नहीं यहां पे क्योंकि मेरा जो यहां पे मैक्सिमम रेंज है वो मुझे मिल चुकी है वो 5700 के आसपास यहां पे मिली है और वो मुझे डाटा मिल चुका है अब मुझे क्या करना है मुझे मेरे ओरिजिनल डाटा से मुझे ये जो आउट लायर्स है उन्हें रिमूव करने है अब ये रिजनल ड से आउटलायर कैसे रिमूव होंगे तो उसको जरा देखते हैं यहां पे तो उस लिए सबसे पहले क्या करूंगा मैं अपना डटा सेट को कॉल करूंगा डेटा सेट को कॉल करूंगा तो मुझे मेरे सारे डाटा यहां पे मिल जाएंगे इसके अंदर जाऊंगा मैं यहां पे और हमारा जो डेटा सेट है उसके अंदर जो हमारे पास यहां पे को एप्लीकेशन इनकम है उसमें से जो मैक्सिमम रेंज है उससे नीचे का जो डाटा है वो मैं एक्सेप्ट करूंगा अब उसको कैसे एक्सेप्ट करेंगे यहां पे तो आप अपने डेट साइट के पास जाएंगे और मैं यहां पे थोड़ा फिल्टर लगाऊंगा यहां पे और फिल्टर के अंदर क्या करूंगा मैं अपनी जो को एप्लीकेशन इनकम है उसको मैं डालूंगा और को एप्लीकेशन इनकम के अंदर जो आपकी जो रेंज है उसको मिनिमाइज करूंगा मतलब यहां पे लेस दन लूंगा और लेस दन किससे लेनी है यहां पे गाइस मुझे तो मुझे मेरी मैक्सिमम रेंज से लेनी है और जैसे ही मैं क्लिक करूंगा तो मुझे मेरा वह डाटा मिल जाएगा जिसके अंदर जो हमारी जो मैक्सिमम रेंज है उससे कम का डेटा हमारे पास को एप्लीकेशन इनकम के अंदर मिल चुका है अब इसको हम क्या करते हैं किसी और वेरिएबल के अंदर सेव कर लेते हैं इसको मैं डाल देता हूं न्यू अंड आपके पास डटा सेट के अंदर इसे सेव कर लेता हूं राइट अब यह न्यू अ डटा सेट के अंदर हमारा डटा जो है व सेव हो चुका है अब देखिए मेरा जो पुराना डाटा है उसके अंदर क्या है 618 रोज़ है यहां पे अब मैं देखता हूं मेरे न्यू डटा सेट के अंदर कितने रोज़ हैं यहां पे तो न्यू डटा सेट के अंदर चलूंगा यहां पे और डॉट यहां पर शेप को कॉल करूं और रन करता हूं तो इसके अंदर देखिए मेरे पास 600 रो है इसका मतलब मेरे पास जो 18 रोज है वो यहां से हट चुकी है जिसके अंदर आउटलायर थे अब इसको देखने के लिए मैं करूंगा यहां पे वापस से बॉक्स प्लॉट बनाऊंगा और बॉक्स प्लॉट बनाने के लिए मैं यहां पे वापस बॉक्स प्लॉट का जो कोड है उसे लेके आऊंगा यहां पे ये जो मेरा ग्राफ बनेगा यहां पे वो मेरे पास न्यू अंडरस्कोर डटा सेट के ऊपर बनने वाला है और फिलहाल इसे रन करते हैं तो देखिए इसके अंदर मेरे पास कोई भी आउटलायर प्रेसर नहीं है फिलहाल आप देख पा रहे हैं एक दो आउट लायर्स आपको दिख रहे हैं यहां पे जो कि डॉट्स के थ्रू दिख रहे हैं यहां पे इतने मिनिमम आउटलेट्स आपके पास यहां पे रह सकते हैं यहां पे काफी बार रह भी सकता है और काफी बार प्रॉपर्ली आउटलायर हट भी सकता है तो देखिए जब आपके पास मिनिमम आउटलायर दो चार रह भी जाए यहां पे तो आप उसे इग्नोर कीजिए क्योंकि आपके पास क्या होता है कि जब आप आउटलायर को हटाते हैं तो उससे आपका डाटा का लॉसेस होता है यहां पे मतलब आपका जो इंपॉर्टेंट फीचर है क्या पता वो भी चले जा सकते हैं तो इसलिए आउटलायर को हम जितना कम हो सके उतना कम ही हटाने की कोशिश करें अ यह डिपेंड करेगा आपके पास यहां पे कि आप कौन सी एल्गोरिथम का इस्तेमाल कर रहे हैं यदि आपकी एल्गोरिथम आउटलायर के ऊपर डिपेंड नहीं करती है जैसे कि मैं बात करूं डिसीजन ट्री जो एल्गोरिथम्स है वो आउटलायर के ऊपर नहीं इफेक्ट करती है यहां पे तो आप उसके अंदर आउटलायर ना हटाए यहां पे और जब आप लीनियर रिग्रेशन का इस्तेमाल कर रहे हैं वहां पे आउटलायर का बहुत ज्यादा इंपैक्ट पड़ता है तो बेसिकली उस वाले केसेस के अंदर आप आउटलायर रए लेकिन वहां पे भी थोड़ा ध्यान रखें कि आपका डाटा का लॉस ज्यादा नहीं होना चाहिए अब यहां पे कुछ एक आउटलायर हमारे पास बच चुके हैं अकॉर्डिंग टू 1.5 आईआर के होते हुए भी लेकिन उसके बावजूद भी हम इन आउटलायर को नहीं हटाएंगे और ये आउटलायर को हम यहां पर रहने देंगे तो इस तरह से आप क्या कर सकते हैं आउटलायर को आप अपने यहां पे डेटा सेट से हटा सकते हैं और एक आपके पास यहां पे क्लीन डाटा जो है है वो आपको देखने को मिल जाएगा अब आउटलायर को हटाने का सिंपल तरीका है और वो सिंपल तरीका क्या है यहां पे गाइ यहां पे कि आप अपने डटा सेट को लें और उसके बाद डाटा सेट को लेके को एप्लीकेशन इनकम को लगाए यहां पे और उसके बाद यहां पे उसके अंदर मैक्स रेंज को यहां पे लगा दें बस आपको इतना सा करना है जिससे आपके आउटलायर हट जाएंगे एक मैक्सिमम रेंज की जरूरत पड़ेगी जो कि आपके पास आउटलायर की एक रेंज आपको देगी जिसके थ्रू आप आउटलायर को हटा सकते हैं तो चलिए जरा इसको समझते हैं अच्छे तरीके से तो देखिए आउटलायर के अंदर हम बात करें तो आउटलायर हम किस तरह से देख सक हैं उसको जरा पहले समझते हैं और उसके बाद हम जड स्कोर की हेल्प से किस तरह से आउटलायर को हटा सकते हैं उसको भी हम देखेंगे यहां पे तो चलिए जरा इसको समझते हैं यहां पे तो देखिए सबसे पहले मैं बात करूंगा आउटलायर हम कैसे डिटेक्ट करते थे तो देखिए सबसे पहले हम आउटलायर डिटेक्ट करने के लिए हम बॉक्स प्लॉट का इस्तेमाल कर सकते हैं या फिर हम नॉर्मल डिस्ट्रीब्यूशन क का भी इस्तेमाल कर सकते हैं दोनों के दोनों आपके पास क्या करते हैं आउटलायर को आपको बताते हैं यहां पे अब देखिए बॉक्स प्लॉट के अंदर हम किस तरह से आउटलायर डिटेक्ट करते हैं तो बॉक्स प्लॉट के अंदर आपके पास क्या होती है एक मिनिमम वैल्यू और एक मैक्सिमम वैल्यू आपको मिल जाती है यस आपको एक मिलती है मिनिमम वैल्यू और एक आपके पास मैक्सिमम वैल्यू मिलती है ये मिनिमम वैल्यू जो होती है वो आपके पास क्या होती है q1 - 1.5 * आ क आ होती है और इसी तरह से हम यहां पे मैक्सिमम वैल्यू के अंदर देखें तो 3+ 1.5 q आ आपके पास यहां पर मैक्सिमम वैल्यू होती है इसके बाहर का जो भी डाटा होता है वो सारा का सारा क्या कहलाता है आपके पास यहां पे आउटलायर कहलाता है अब इसको हम थोड़ा नॉर्मल डिस्ट्रीब्यूशन कर्व की तरह थ्रू समझते हैं यहां पे तो देखिए नॉर्मल डिस्ट्रीब्यूशन कर्व के अंदर यदि हम देखें इस कर्व को तो इसके अंदर आपका जो डाटा होता है वो आपके पास क्या होता है कुछ स्टैंडर्ड डिवीजन के अंदर डिवाइड होता है अब देखिए यहां पे आप देख े तो आपके पास जो मिडल में आपके पास मिलता है वो आपके पास क्या मिलता है आपका पास म मिलता है मतलब आपके पास यहां पे मीन आपको मिलता है अब उसके बाद में आपके पास म माइनस वन स्टैंडर्ड डिविजन और म प्सव स्टैंडर्ड डिविजन को यदि आप उस डाटा को लेते हैं तो इसके अंदर आपके पास 68 पर जो आपका डाटा होता है वो आपके पास यहां पे आ जाता है उसके बाद यदि आप यहां पे सेकंड स्टैंडर्ड डिविजन वाला जो डाटा है वो आप यहां पर कंसीडर करते हैं तो उसके अंदर आपके पास ऑलमोस्ट 95 पर जो डाटा है आपके पास यहां पे वो आपके पास आ आ जाता है उसके बाद यदि आप थर्ड स्टैंडर्ड डिवीजन को लेते हैं तो थर्ड स्टैंडर्ड डिवीजन के अंदर 99.7 पर जो डेटा क्स होता है यहां पे वो आपके पास यहां पे आ जाता है अब हालांकि इसके अंदर हम आउटलायर को ज्यादा अच्छे तरीके से डिटेक्ट तो नहीं कर पाएंगे लेकिन ऐसा एक कांसेप्ट है कि थर्ड स्टैंडर्ड डिवीजन के बाद वाला जितना भी आपके डाटा होता है वो सारा का सारा आउटलायर कहलाता है अब मान लीजिए कि आपका कर्व कुछ इस तरीके से होता है यहां जिसके अंदर आपके आउटलाइन है तो ये डाटा आपके पास नॉर्मल डिस्ट्रीब्यूशन की तरह तो नहीं दिख रहा है यहां पे लेकिन हम इसमें से आउटलायर को फाइंड आउट कर सकते हैं कैसे हम इस कर्व को हम कंपैरिजन करेंगे हमारे नॉर्मल डिस्ट्रीब्यूशन क के हेल्प से तो इसके अंदर क्या होगा कि आपका जो कर्वेचर होगा वो यहां कहीं जाके कट होगा अब जैसे ही यहां जाके कट होगा तो इसके आगे वाला जितना भी डाटा होगा वो सारा का सारा क्या हो जाएगा आपके लिए आउटलायर हो जाएगा अब ये आउटलायर हम कैसे डरेक्ट कर सकते हैं तो फिलहाल हमने क्या देखा था यहां पे बॉक्स प्लॉट के अंदर जिसके अंदर हम आई क्यूआर मेथड भी कहते हैं यहां पे तो बॉक्स प्लॉट के अंदर तो हमें मिनिमम और मैक्सिमम वैल्यू हमें मिल जाती है लेकिन यदि जब हम नॉर्मल डिस्ट्रीब्यूशन कर्व के अंदर चले तो यहां पे हमें इस्तेमाल करना पड़ता है जड स्कोर अब ये जड स्कोर की हेल्प से ही आप क्या करते हैं अपना आउटलायर डिटेक्ट करते हैं और उसे रिमूव भी करते हैं अब ये कैसे करते हैं जरा इसको देखिए यहां पे तो सबसे पहले हमें ये समझना पड़ेगा z स्क का फॉर्मूला क्या है तो z स्क का जो फार्मूला होता है वो क्या होता है z = टा है जस्ट लाइक आपके पास x आपका कोई पुराना डटा है उस x के बाद में आप क्या करेंगे आप यहां पे पहले मीन को लेंगे और डिवाइड बाय स्टैंडर्ड डिवीजन को करेंगे तो आपको जड की न्यू वैल्यू मिलेगी मतलब मान लीजिए आपके पास कोई x1 एक कॉलम है यहां पे और इसके अंदर कुछ डाटा है आपके पास जैसे 70 30 40 50 60 एंड देन आपके पास यहां पे 100 अब इस तरह का डाटा यदि आपके पास प्रेजेंट है आप क्या करेंगे वन बाय वन अपने डाटा को लेंगे और उसके बाद में आप इस पूरे डाटा का क्या करेंगे मी मीन को लेंगे मीन को आप क्या करेंगे माइनस करेंगे सबस्टैक करेंगे और उसके बाद डिवाइड करेंगे इस पूरे डाटा का स्टैंडर्ड डिवीजन से तो आपके पास क्या मिलेगी z की न्यू वैल्यू मिलेगी अब जब आपके पास z की न्यू वैल्यू आपको देखने को मिलेगी सभी की तो आप क्या करेंगे z का आप वैल्यू डिसाइड करेंगे और ये z की वैल्यू क्या है आपके पास यहां पे थर्ड स्टैंडर्ड डिवीजन और ये हमें कहां से देखने को मिला तो ये चीज आप यहां पे नॉर्मल डिस्ट्रीब्यूशन कर्व के अंदर भी देख सकते हैं कि आपके पास थर्ड स्टैंडर्ड डिवीजन के बाद वाला जो टा क्स होता है वो सारा का सारा क्या करता है आउटलायर की तरह ट्रीट करता है तो इसका मतलब क्या हुआ यहां पे कि आप एक जड की रेंज डिसाइड करेंगे और वो रेंज आपके पास क्या होगी -3 टू आपके पास थ के ऊपर अब यदि आपका डाटा आपके पास इस डाटा से बाहर चला जाता है डटा आपके पास यहां पे तो वो आउटलायर की टा तरह ही ट्रीट होगा इवन दैट आप यहां पे क्या कर सकते हैं कि आपको पता है कि आपका जो डेटा है वो नॉर्मल डिस्ट्रीब्यूशन कर्व के अंदर है तो इसके अंदर जो आपका पास थर्ड पार्टीशन होता है जहां पे आप आपका 99.7 2 डेटा आपका ग्राप हो जाता है यहां पे उसके बाहर का जितना भी डाटा होता है वो सारा का सारा क्या है आउटलायर है तो आप क्या कर सकते हैं आप यहां पे एक रेंज डिसाइड कर सकते हैं और वो रेंज कैसे डिसाइड करेंगे आप अपने डाटा का क्या करेंगे मीन निकालेंगे उसमें से थर्ड स्टैंडर्ड डिविज को क्या करेंगे सबस्टैक कर देंगे तो आपके पास यहां पे एक मिनिमम और मैक्सिमम रेंज मिल जाएगी और उससे आप आउटलायर को रिमूव कर सकते हैं फिलहाल देखा जाए तो ये वही चीज लिखी है जो कि z स्कोर के अंदर लिखी है कैसे पता चला यहां पे z स्कोर के अंदर लिखी है तो देखिए यहां पे जो आपका पास मिनिमम और मैक्सिमम पॉइंट है वो क्या है - थर्ड स्टैंडर्ड डेविएशन और + थर्ड स्टैंडर्ड डेविएशन तो देखिए आपके पास म माइनस थर्ड स्टैंडर्ड डिवीजन एंड आपके पास म प् थर्ड स्टैंडर्ड डिवीजन आपके पास क्या है मिनिमम और मैक्सिमम की रेंज है और z स्कोर के अंदर भी आप देखेंगे तो आपने क्या लिखा है यहां पे कि थर्ड पॉइंट और थर्ड पॉइंट इसका होना चाहिए और थर्ड पॉइंट थर्ड पॉइंट होना चाहिए इवन दैट आप z स्कोर के फॉर्मूले में देखेंगे तो यहां पे भी म और आपका यहां पे स्टैंडर्ड डिविजन सिग्मा जो है वह आपको देखने को मिल रहा है इसका मतलब चाहे आप z स्कोर की मेथड की हेल्प से निकाल लीजिए या फिर आपके नॉर्मल डिस्ट्रीब्यूशन के अंदर थर्ड आपके पास जो पोजीशंस होती है उसके बाहर का डाटा यदि आप ले लीजिए तो वह सारा डाटा एक आउटलायर की तरह ट्रीट आपके पास होने वाला है अब हम क्या करते हैं इसको थोड़ा प्रैक्टिकली समझते हैं कि z स्कोर की हेल्प से कैसे निकाला जाएगा और यदि हम डायरेक्टली करना चाहे तो वह किस तरह से कर सकते हैं इसके लिए ले चलता हूं जुपिटर नोटबुक के अंदर अब हम आ चुके जुपिटर नोटबुक के अंदर सबसे पहले हम हमारा डाटा यहां पे लेंगे और उसके बाद हम क्या करेंगे उसमें से आउटलाइन निकालेंगे तो मैं करना वाला हूं इंपोर्ट करने वाला हूं और इंपोर्ट क्या करूंगा यहां पे पांडा एलियाज ऑफ पीडी को इंपोर्ट करूंगा यहां पे उसके बाद हमारा जो डाटा सेट है उसे हम लोड करेंगे पीडी डट यहां पर रीड सीएवी की हेल्प से मैंने क्या किया है डाटा को लोड किया है और डेटा सेट का नाम है लोन ड सीएवी इसको मैंने ले लिया है उसके बाद हम क्या करेंगे हमारा डाटा सेट लेंगे डॉट यहां पर मैं हैड लेने वाला हूं और हैड के अंदर मैं तीन डाटा लूंगा अब इसमें से आउटलायर कहां निकाला जाएगा तो आउटलायर आप एप्लीकेशन इनकम को एप्लीकेशन इनकम इनमें आउटलाइन निकाल सकते हैं तो मैं क्या कर रहा हूं एप्लीकेशन और को एप्लीकेशन इनकम में से कोई कोई भी एक ले लेता हूं लेकिन पहले मैं ध्यान रखूंगा कि हमारे डाटा के अंदर नल वैल्यू तो नहीं है यदि नल वैल्यू है तो हम क्या करेंगे पहले उसे फिल करेंगे देन उसे कंसीडर करेंगे तो मैं क्या करूंगा यहां पे डटा सेट लूंगा एंड डॉट यहां पे मैं क्या करने वाला हूं इस नल को मैं यहां पे लूंगा और उसके बाद डॉट यहां पर सम को कॉल करने वाला हूं तो इसके अंदर हमें देखिए यहां पे लोन अमाउंट के अंदर नल वैल्यू मिल रही है यहां पे को एप्लीकेशन इनकम के अंदर नहीं है एप्लीकेशन इनकम के अंदर नहीं है तो देखिए को एप्लीकेशन इनकम के अंदर नल वैल्यू प्रेजेंट नहीं है तो हम इसमें से आउटलायर को देख भी सकते हैं और इससे एनालिसिस भी कर सकते हैं इवन दैट पहले हम यहां पे डाटा की एनालिसिस कर लेते हैं कि क्या इसके अंदर आउटलायर है या नहीं है तो उसको पता लगाने के लिए हम हमारे डेटा सेट के पास जाएंगे डॉट यहां पे क्या करूंगा डिस्क्राइब करूंगा डिस्क्राइब क्या करता है जितने भी न्यूमेरिकल डाटा होता है उसकी एक एनालिसिस लेके आता है जिसके अंदर आपको डाटा के बारे में काउंट बताता है मीन बताता है स्टैंडर्ड डिवीजन बताता है मिनिमम वैल्यू और आपके पास 25 पर पे कितनी वैल्यू है 50 पर टाइल्स पे कितनी वैल्यू है 75 पर टाइल्स पे कितनी वैल्यू है और मैक्सिमम वैल्यू कितनी है ये सारी चीजें आपको यहां पे इंफॉर्मेशन देता है अब हमें जरूरत थी को एप्लीकेशन इनकम के अंदर तो को एप्लीकेशन इनकम के अंदर तो फिलहाल कोई नल वैल्यू प्रेजेंट नहीं है इसके अंदर मीन आप देख लीजिए मीन जो है आपके पास यहां पे 1600 पे आपके पास आया है जबकि आपके पास मैक्सिमम वैल्यू को देखेंगे तो ये क्या है 41000 है इसका मतलब डेफिनेटली इसके अंदर आउटलाइन होने वाला है और मिनिमम वैल्यू को देखेंगे तो मिनिमम वैल्यू क्या है जीरो भी है यहां पे और यहां देखिए 50 पर लाज का जो डाटा है यहां पे 2000 तक का ही आपका यहां पर डाटा आपको देखने को मिल रहा है यहां तो इसका मतलब डेफिनेटली इसके अंदर आउटलाइन मिलने वाला है तो चलिए इन लायर को हम आइडेंटिफिकेशन से दिखाई दे रहे हैं और यहां पे ग्राफ बनाने के लिए हमें मैट पल लिप का भी इस्तेमाल करना पड़ेगा क्योंकि इसकी हेल्प से हम यहां पे ग्राफ को थोड़ा और जूम करके आराम से देख पाएंगे तो मैट पल लिप के थ्रू हम यहां पे क्या करेंगे मैट पल लिप को इस्तेमाल करेंगे मेट पल लिप डॉट यहां पे क्या करेंगे पवाई प्लॉट को इस्तेमाल करने वाला है एलियाज ऑफ यहां पे मैं पीएटी का इस्तेमाल करूंगा चलिए हमारा जो सी बन है वो यहां पे लोड हो रहा है और मैट पली भी लोड हो चुका है चलिए अब हम क्या करते हैं यहां पे एसएनएस डॉट यहां पे क्या करूंगा आपका बॉक्स प्लॉट बनाऊंगा इवन दैट यहां पे मैं यहां पे डिस्ट्रीब्यूशन प्लॉट भी बनाने वाला हूं मतलब एक नॉर्मल डिस्ट्रीब्यूशन का भी बनाने वारहा हूं जिसकी हेल्प से ये देखूंगा कि इसके अंदर आउटलायर प्रेजेंट है या नहीं है तो इसके लिए हम क्या करेंगे बॉक्स प्लॉट का इस्तेमाल करेंगे तो मैंने यहां पे बॉक्स प्लॉट लिया है बॉक्स प्लॉट के अंदर जाके हम क्या करेंगे हमारा जो डाटा सेट है उसको लेंगे और स्क्वायर ब्रैकेट के साथ अब हमें किसका बॉक्स प्लॉट बनाना है तो मुझे बनाना है हमारी को एप्लीकेशन इनकम का तो मेरी जो को एप्लीकेशन इनकम है इसको मैं यहां पे प्लेस करने वाला हूं यहां पे यस तो पहले मैं क्या करता हूं को एप्लीकेशन इनकम को कॉपी कर लेता हूं और यहां जाके को एप्लीकेशन इनकम को पेस्ट कर देता हूं तो देखिए हमारा बॉक्स प्लॉट बन चुका है जिसके अंदर आउटलाइन भी प्रेजेंट है एक काम करते हैं इसका आउटलायर को अच्छे तरीके से आइडेंटिफिकेशन तो अब हमें यहां पे आराम से दिखाई दे रहा है कि इसके अंदर आउटलायर प्रेजेंट है अब हम क्या करेंगे नॉर्मल डिस्ट्रीब्यूशन कर्व भी बनाते हैं ताकि हमें पता चल सके कि थर्ड स्टैंडर्ड डिविजन के बाद में हमारे आउटलेट प्रेजेंट है या नहीं है इसके लिए हम क्या करेंगे सी बन के पास जाएंगे देन डॉट उसके अंदर हम क्या करेंगे डिस्क प्लॉट को इस्तेमाल करेंगे डिस्क प्लॉट क्या करता है डिस्ट्रीब्यूशन प्लॉट्स बनाता है आपके डाटा का तो आप जिसका भी डिस्ट्रीब्यूशन प्लॉट बनाना चाहते हैं मतलब आप यहां पे नॉर्मल डिस्ट्रीब्यूशन को बनाना चाहते हैं तो वो आपको बना के आपकी हेल्प करता है तो ये किस पर बनाना है हमें ये हमें बनाना है को एप्लीकेशन इनकम के ऊपर और रन करते हैं तो देखिए हमारा डिस्ट्रीब्यूशन प्लॉट बन चुका है और इस डिस्ट्रीब्यूशन प्लॉट के अंदर देखेंगे तो इसकी जो टेल है वो काफी लंबी है जबकि आपका जो ऑलमोस्ट जो डाटा है वो आपका क्या चल रहा है 10000 से अंदर-अंदर ही चल रहा है जबकि आप इसके टेल को देखेंगे तो वो बहुत ज्यादा लंबी है इसका मतलब इसके अंदर आउटलाइन प्रेजेंट है और जो कि हमने यहां पे भी देख रखा है अब हम क्या करेंगे इस आउटलायर को रिमूव करेंगे किसकी हेल्प से जड स्कोर की हेल्प से और इवन द डायरेक्टली तरीके से तो मैं दोनों तरीके को वन बाय वन यहां पे एक्सप्लेन करने वाला हूं तो अब हमें क्या करना है पहले तो हम करेंगे डायरेक्टली मेथड से डायरेक्टली मेथड के लिए लिए हमें क्या चाहिए मिनिमम रेंज चाहिए एक तो तो मैंने एक मिनिमम रेंज ली है यहां पे दूसरा हमें यहां पे क्या चाहिए मैक्सिमम रेंज भी चाहिए तो मैंने यहां पे क्या किया है मैक्सिमम रेंज भी लिया है मैक्सिमम रेंज भी मैंने यहां पे डिसाइड कर लिया अब कैसे लिखेंगे यहां पे जो भी आप अपना डेटा सेट ले रहे हैं उस डेटा सेट के अंदर आपको क्या करना है सबसे पहले आपको क्या करना है उस डाटा का मीन लेना है और उसके बाद स्टैंडर्ड डिवीजन लेना है अब ये कौन सा है थर्ड स्टैंडर्ड डिवीजन और आपके पास कौन सा है थ स्टैंडर्ड डिवीजन है तो मिनिमम और मैक्सिमम रेंज इस तरह से डिसाइड होगी तो सबसे पहले मुझे मेरे डाटा का क्या करना है मीन लेना है मीन लेने के लिए मैं क्या करूंगा यहां पे गाइस यहां पे अपना डेटा सेट लूंगा सबसे पहले देन स्क्वायर ब्रैकेट और मुझे लगाना है को एप्लीकेशन इनकम को को एप्लीकेशन इनकम का मुझे क्या करना है मीन को डिसाइड करना है तो मैंने क्या करना है यहां पे मीन को कॉल कर दिया है तो ये लेके आ जाएगा मेरे लिए मीन मीन लेने के बाद में मुझे क्या करना है माइनस करना है और माइनस करके क्या करना है थर्ड स्टैंडर्ड डिविजन को अब थर्ड स्टैंडर्ड डेविएशन कहां से आएगा तो डेटा सेट के अंदर चलेंगे फिर से और यहां पे हम क्या निकालेंगे को एप्लीकेशन इनकम को निकालेंगे उसके बाद में हम क्या निकालेंगे इसका स्टैंडर्ड डिवीजन इसके लिए मैं क्या करूंगा एसटीडी जो मेथड है उसे मैं कॉल करने वाला हूं तो ये मेरा थर्ड स्टैंडर्ड डिवीजन आपके पास आ चुका है एक काम करते हैं इसको हम क्या करते हैं ब्रैकेट में क्या करते हैं क्लोज कर देते हैं चलिए तो ये हमारे पास क्या आ गया मिनिमम रेंज आ चुकी है अब इसी तरीके से हमें क्या करनी है मैक्सिमम रेंज भी डिसाइड करनी है तो डटा सेट लिया हमने यहां पे उसके साथ हमने प्लस कर दिया तो मिनिमम और मैक्सिमम रेंज हमारे पास आ चुकी है चलिए मैं एक काम करता हूं मिनिमम रेंज को कॉल करता हूं यहां पे और इसके साथ-साथ मैं अपनी जो मैक्सिमम रेंज है उसे भी यहां पर शो करता हूं तो मिनिमम रेंज तो मेरे पास नेगेटिव आई है इसका मतलब हमारे पास नेगेटिव में तो कोई आउटलायर प्रेजेंट होगा ही नहीं क्योंकि नेगेटिव वैल्यू आपके पास आई है पॉजिटिव के अंदर क्या आई है यहां पे 10000 के आसपास हमारा डाटा यहां पे आया तो अब हमें क्या करना है इस रेंज के बाहर का जो भी डाटा है उसे हमें रिमूव करना है डेटा को रिमूव करने के लिए हम क्या करेंगे हमारे सबसे पहले हम डेटा सेट को कॉल करेंगे देन स्क्वायर ब्रैकेट फिर हम फिर से डेटा सेट को कॉल करेंगे देन स्क्वायर ब्रैकेट और उसके बाद में हमारी जो को एप्लीकेशन इनकम है उसको हम कॉल करने वाले हैं अब को एप्लीकेशन इनकम के अंदर हम क्या बोलेंगे कि हमारा डाटा लेस देन और इक्वल्स टू हमारे पास इस गिवन रेंज के अंदर कौन सी रेंज है हमारे पास यहां पे जो हमारी मैक्सिमम रेंज है उसके अंदर रहे यहां पे तो हमारे पास जो डाटा होगा वो हमारे पास क्या होगा आउटलायर रिमूवल डेटा आपके पास होगा मतलब आउटलायर हट चुका होगा वहां से तो रन करें तो ये हमारे पास डाटा आ चुका है जिसके अंदर आउटलायर नहीं है एक काम करते हैं इस डेटा सेट को हम किसी न्यू वेरिएबल के अंदर सेव कर लेते हैं तो मैं न्यू अंडरस्कोर डटा के अंदर क्या करता हूं इसे सेव कर लेता हूं अब न्यू अंडरस्कोर जो डेटा आया है ना यहां पे अब हम यहां पे क्या करते हैं इसका बॉक्स प्लॉट बनाते हैं ताकि हम यहां पर देख पाए कि हमारे पास आउटलाइन रिमूव हुआ है या नहीं हुआ है मतलब कितने आउट लायर्स हमारे पास प्रेजेंट है अभी भी तो मैं क्या करता हूं यहां पे डटा के अंदर जाता हूं और न्यू डाटा को यहां पे प्रेट कर देता हूं रन करते हैं तो देखिए अब हमारे जो आउटलायर है वो काफी हद तक रिमूव हो चुके हैं अब ये कुछ-कुछ आउटलायर रह चुके हैं तो इन्हें हम यहां पर रहने देते हैं क्योंकि आउटलायर जितने ज्यादा आप यहां पे रिमूव करेंगे तो आप डाटा के जो लॉसेस हैं वो आपके पास बहुत ज्यादा हो जाएंगे और आपको ये नहीं पता है कि जो डाटा आपके पास लॉस हो रहा है उसके अंदर आपके पास कोई इंपॉर्टेंट फीचर है या नहीं है तो आप जितने ज्यादा आउटलायर रिमूव करेंगे तो उतने ज्यादा आपके जो डाटा के फीचर्स जो हैं वो चले जा सकते हैं यहां पे तो इसलिए हमें जितना कम हो सके उतने कम डाटा को रिमूव करना चाहिए तो यहां पे हमने क्या देखा कि आप अपने डाटा को किस तरह से रिमूव कर सकते हैं बाय यूजिंग डायरेक्ट मेथड की हेल्प से जिसके अंदर हमने क्या किया कि जो हमारा डाटा है उसका मीन लिया उसमें से सबस्टैक किया किसे थर्ड स्टैंडर्ड डिवीजन को अब हम क्या करते हैं z स्कोर निकालते हैं और z स्कोर की हेल्प से हम क्या करते हैं यहां पे आउटलायर को रिमूव करते हैं अब जड स्कोर की हेल्प से आप कैसे रिमूव करेंगे तो इसके लिए आपको क्या करना पड़ेगा z स्कोर की वैल्यू निकालनी पड़ेगी तो मैं एक काम करता हूं z अर आपके पास यहां पे स्कोर के नाम से एक वेरिएबल बना देता हूं यहां पे अब इसके अंदर क्या करते हैं हमारा जो डेटा सेट है उसको लेते हैं तो हमारा जो डेटा सेट है उसको लिया यहां पर और इसके अंदर मैंने किसको लिया हमारे पास को एप्लीकेशन इनकम को लिया को एप्लीकेशन इनकम को लेने के बाद में हमारा जो फर्मूला है वो क्या बोलता है यहां पे कि हमारे डाटा में से सबट क्ट करना है किसे मीन को सबट करना है और उसके बाद डिवाइड करना है किसे स्टैंडर्ड डिवीजन को तो बस यही हम यहां पे काम करेंगे तो सबसे पहले क्या करूंगा यहां पे सबट करूंगा सबट किसे करूंगा जो हमारा डेटा सेट है उसको लूंगा देन सबट क्शन करूंगा यहां पे किसे को एप्लीकेशन इनकम को देन अब हम क्या करेंगे ये जो सबक्स हुआ है इसके बाद हम क्या करेंगे इसको डिवाइड भी करेंगे तो मैं इसे डिवाइड करने वाला हूं किससे स्टैंडर्ड डिवीजन से तो मैं अपना डाटा सेट लूंगा यहां पे ओके देन स्क्वायर ब्रैकेट और यहां पे को एप्लीकेशन इनकम को दोबारा कॉल करूंगा तो मैं यहां पे क्या करता हूं मीन ले लेता हूं तो मैं यहां पे क्या करता हूं मीन को कंसीडर कर लेता हूं उसके बाद में मुझे क्या करना है स्टैंडर्ड डिवीजन से डिवाइड करना है तो डॉट यहां पर मैं क्या लगाऊंगा एसटीडी लगाऊंगा तो मुझे मेरा र डिवीजन भी मिल जाएगा अब एक काम करते हैं इसको भी हम क्या करते हैं एक ब्रैकेट्स के अंदर डाल देते हैं तो ये हमारा जड स्कोर तैयार हो चुका है अब देखिए जड स्कोर को एक बार देख लेते हैं कि जड स्कोर किस तरह से दिखा दे रहे हैं तो देखिए सबके जड स् कोड्स हमारे पास यहां पे आ चुके हैं अब इस जड स्कोर्स के अंदर हमें क्या करना है चेक करना है कि कौन सा जड स्कोर हमारे पास ग्रेटर दन थ है और लेस दन -3 है तो मैं ग्रेटर दन थ वाले जो ज स्कोर है उसको देखूंगा तो बिल्कुल इसके अंदर कुछ-कुछ फाल्स है कुछ-कुछ क्या है हमारे पास यहां पे ट्रू देखने को मिल रहे हैं यहां पे तो तो अब यहां पे जो भी जड स्कोर आया है यहां पे इससे हमें क्या करना पड़ेगा कंपैरिजन कराना पड़ेगा एंड देन उसके बाद में हमें देखना पड़ेगा कि हमारे पास किस तरह का डाटा हमारे पास आया तो एक काम करते हैं इस डेटा सेट को हमारे ओरिजिनल डेटा सेट के अंदर प्लेस कर देते हैं देन उसके बाद में हम देखेंगे कि किस तरह से हमारे पास जसको देखने को मिल रहा है ओके तो मैं एक काम करता हूं हमारे डटा सेट को लेता हूं और इसके अंदर क्या करता हूं यहां पे z अंडर यहां पे स्कोर के नाम से स्कोर के नाम से क्या करता हूं यहां पे एक आपके पास यहां पे तैयार कर लेता हूं आपके पास कॉलम को और उसके अंदर ये जो जड स्कोर का जो भी डाटा यहां पे आया है इसे मैं प्लेस कर दूंगा हमारा जो डेटा सेट है उसके अंदर क्या करता हूं जड स्कोर के नाम से इसे प्लेस कर लेता हूं तो अब हम यहां पे हमारे डेटा सेट को देखेंगे तो इसके अंदर एक नया कॉलम और ऐड हो चुका है और वो ऐड हो चुका है किसके नाम से जड स्कोर के नाम से अब हम क्या करेंगे इसमें से आउटलायर को रिमूव करेंगे अब इसमें से आउटलायर कैसे रिमूव होगा तो हम हमारा डेटा सेट लेंगे उसके बाद हम हमारे फिर से डेटा सेट को लेंगे देन स्क्वायर ब्रैकेट और इसके अंदर जाके क्या करूंगा कि जो z स्कोर वाला कॉलम है यहां पे इसके अंदर क्या करूंगा हमारा जो डाटा है वो क्या चाहिए हमें लेस देन चाहिए यस क्या चाहिए लेस देन चाहिए लेस देन किससे थर्ड जड स्कोर वाले डटा से साथ तो ऐसे ही ऐसे रन करेंगे तो इसके अंदर वो डाटा आ चुका है हमारे पास जो कि थर्ड जड स्कोर से लेस देन है अब यहां पे देखिए हमारे डेटा सेट के अंदर कितना डटा बचा है तो इसके अंदर बताया है 612 रो बची है यहां पे अच्छा ओरिजिनल डेटा सेट के अंदर देखें यहां पे कि कितनी रो थी और कितने कॉलम थे तो इसके अंदर यदि आप देखेंगे तो इसके अंदर आपके पास यहां पे 618 रोज थी आई थिंक तो मैं चेक कर लेता हूं यहां पे डेटा सेट के अंदर चलता हूं डॉट यहां पे क्या करता हूं यहां पे शेप को कॉल करता हूं रन करता हूं तो 618 रोज थी और अब हमने क्या किया जड स्कोर को लगाया तो जड स्कोर के अंदर थर्ड जड स्कोर को हटाया तो 612 रोज यहां पे आई है इसका मतलब आपके पास क्या हुआ काफी रो यहां पे डिलीट हो चुकी है अच्छा जो हमारा न्यू डेटा सेट था उसके अंदर भी जाके चेक कर लेते हैं एक बार कि उसके अंदर कितना डेटा सेट बचा है यस तो हमने न्यू डटा सेट बनाया था यहीं कहीं तो ये रहा हमारा न्यू डेटा सेट तो इसके अंदर भी चेक कर लेते हैं कि इसके अंदर हमारे पास कितना डाटा बचा है मतलब जब हमने इसमें से आउटलाइन हटा दिया तो उसमें से पीछे कितना बचा बचा है वो हम देख लेते हैं तो न्यू डाटा को यदि मैं जाके चेक करूं यहां पे और डॉट यहां पर शेप लगाऊ तो इसके अंदर भी देखिए 612 रो ही बची है और हमारे पास जो नीचे वाला डटा है इसके अंदर भी 612 रो ही बची है यहां पे तो आप एक चीज ऑब्जर्व कर पाएंगे कि आप चाहे जड स्कोर मेथड से अप्लाई करें या फिर आप डायरेक्ट मेथड का अप्लाई करें दोनों की वर्किंग फंक्शनल सेम टू सेम वर्क करती है और सेम टू सेम डाटा रिमूवल करती है ओके तो देखिए यहां पर बात करें तो सबसे पहले हमारे पास 618 रोज थी यहां पे इसके अंदर हमने क्या किया जो हमारा नॉर्मल थड था वो हमने लगाया कैसे मैंने क्या किया मीन लिया माइनस किया थर्ड स्टैंडर्ड डेविएशन को सबस्टैक किया और यहां से हमारे पास क्या हुआ मिनिमम और मैक्सिमम रेंज आई फिर हमने हमारा क्या किया कि जो हमारा डेटा सेट है यहां पे जो हमारा मैक्सिमम रेंज आई है उससे नीचे वाला जो डेटा है वो लिया तो हमारे पास एक नए डटा सेट का यहां पे डटा आ चुका है जिसके अंदर आउटलायर हट चुके हैं और वो कितने है यहां पे 612 आपके पास आया अब यहां पे मैंने क्या किया z को निकाला ओके ये तो मेरा पहला मेथड था अब मैंने सेकंड मेथड के अंदर क्या किया z स्कोर निकाला जड स्कोर कैसे निकाला हमारे पास यहां पे कि हमारा डेटा सेट लिया उस सबकट किया किसे मीन को और डिवाइड स्टैंडर्ड डिविजन से तो मेरा जड स्कोर आ चुका है अब इस जड स्कोर के अंदर थर्ड जड स्कोर से जो नीचे आपका डेटा यहां पे उसको हमने कंसीडर किया यहां पे तो ये मैंने लिया और डॉट शेप निकाली मैंने यहां पे भी इसके अंदर भी देखिए आपके पास यहां पे 612 रोज यहां प भी है इसका मतलब आप चाहे जड स्को से निकालिए चाहे डायरेक्ट निकालिए दोनों का जो वर्किंग फंटी है वो सेम टू सेम वर्क करती है हम बात करेंगे यहां पे कि फीचर स्केलिंग टेक्निक क्या होती है और इसे कहां पे इस्तेमाल करना होता है तो बेसिकली मशीन लर्निंग की एल्गोरिथम को जब आप ट्रेड करते हैं तो उस वक्त आप जो भी आप अपना डाटा दे रहे हैं उस डाटा के अंदर एक बहुत बड़ी प्रॉब्लम आपको देखने को मिलती है और वो प्रॉब्लम क्या है कि आपके पास काफी ऐसे नंबर्स होंगे जो काफी लार्ज होंगे यहां पे जस्ट लाइक 10000 20000 और यहां पे 50000 ओके और काफी ऐसे नंबर्स होंगे जो लो होंगे जस्ट लाइक 0.5 हो गया 0 हो गया टू हो गया थ्री हो गया इस तरह के कंपैरेटिव देखना पड़ेगा तो एक डाटा होगा जो सबसे लार्ज होगा और एक फीचर होगा जो सबसे लो होगा अब इस तरह के डेटा सेट को यदि हम मशीन लर्निंग मॉडल को देते हैं तो मशीन लर्निंग मॉडल क्या करता है कि जिस फीचर के अंदर आपके पास लार्ज डाटा होता है मतलब लार्ज अमाउंट में डटा आपके पास होता है यहां पे ये उसे डोमिनेटिंग कर देता है और उसी के ऊपर ट्रेंड हो जाता है जबकि जो लो अमाउंट वाला डाटा होता है यहां पे उसे क्या करता है नेगलिजिबल कर देता है और काफी बार केसेस के अंदर उस फीचर को ही एलिमिनेट कर देता है एलिमिनेट करने का मतलब है कि वो फीचर आप यहां पे देंगे लेकिन उसकी जो इंपॉर्टेंस है वो बिल्कुल जीरो हो जाती है तो इस वजह से इस प्रॉब्लम को दूर करने के लिए हम फीचर स्केलिंग करते हैं फीचर स्केलिंग की टेक्निक के अंदर हम क्या करते हैं कि जो दोनों डाटा हमारे पास है एक लार्ज और एक आपका स्मॉल जो डेटा है यहां पे दोनों को हम बराबर लेवल पे लेके आते हैं मतलब बेसिकली दोनों को हम क्या करते हैं स्केलिंग करते हैं ताकि जो डेटा है वो सेम पिच प आ जाए अब यहां पे एक बहुत इंपॉर्टेंट क्वेश्चंस आप लोगों के दिमाग में आ रहा होगा कि यदि हम फीचर स्केलिंग कर रहे हैं तो इससे हमारा डाटा क्या लूज हो सकता है या हमारा डाटा का जो पैटर्न है वो चेंज हो सकता है क्या प्रॉपर्टी होने वाली है तो देखिए मैं आपको यहां पे ये बताने वाला हूं कि फीचर स्केलिंग जब आप यहां पे करते हैं तो उस समय डाटा का जो नेचर होता है वो वही का वही रहता है मान लीजिए आपका जो डाटा है वो नॉर्मल डिस्ट्रीब्यूशन कव को फॉलो करता है तो उस केसेस के अंदर जब आप फीचर स्केलिंग करते हैं तो आपके डाटा का नेचर फीचर स्केलिंग के बाद भी सेम का सेम ही रहता है कोई चेंज वहां पे नहीं देखने को मिलता है अब यहां पे आता है कि डाटा का मैग्नी ूड्स लाइक नंबर्स की बात करूं यहां पे तो उसके अंदर जब आप स्केलिंग करते हैं तो वो डाटा रिड्यूस हो जाता है अब ये रिड्यूस होने का जो कांसेप्ट होता है ये आपके डिपेंड करता है कि आप कौन सी फीचर स्केलिंग प्रेफर कर रहे हैं फीचर स्केलिंग के बहुत सारे तरीके होते हैं उसके हिसाब से आपका जो डटा का पैटर्न है वो यहां पे चेंज होता है इसको जस्ट एग्जांपल के तौर पे मैं बात करना चाहूं यहां पे मान लीजिए एक बहुत बहुत बड़ा सेव है और उसी के कंपैट आप एक छोटा सा सेम लेके आते हैं तो अब यहां पे बड़े सेव और छोटे सेम के अंदर दोनों में कंपेयर करें तो दोनों तो है ही सेव दोनों तो एल ही है यहां पे अब जब आप बड़े सेव के ऊपर बात करेंगे तो उसकी क्या साइज बड़ी है छोटा सेव है उसकी क्या है साइज छोटी है बट इंटरनली प्रॉपर्टी की बात करें यहां पे तो दोनों की दोनों क्या है सेम टू सेम है यहां पे इसी को हम फीचर स्केलिंग कहते हैं मतलब मैं बड़े सेम को कंप्रेस करके छोटे सेम के अंदर लेके आ रहा हूं यहां पे इसी को हम बोलते हैं फीचर स्केलिंग अब ये फीचर स्केलिंग कहां जरूरी होती है तो ऐसे बहुत से एग्जांपल है जहां पर फीचर स्केलिंग जरूरी है लेकिन मैं आपको सजेस्ट करूंगा आप डाटा को जब भी ट्रेन करने जा रहे हैं उससे पहले फीचर स्केलिंग जरूर कर दीजिए जिससे आपके डाटा के अंदर आपकी जो इंप्रूवमेंट है वो और अच्छी हो सके अब बात करते हैं फीचर स्केलिंग के कितने टाइप्स की होती है तो बेसिकली बात करूं फीचर स्केलिंग आपके पास दो तरीके की होती है पहली होती है आपके पास स्टैंडर्डाइजेशन दूसरी होती है नॉर्मलाइजेशन अब नॉर्मलाइजेशन में भी आपके पास बहुत सारे तरीके के टाइप्स होते हैं जिसके अंदर हम कवर अप करेंगे मेन मैक्स स्केलिंग को यहां पे दोनों के पैटर्न दोनों के काम करने के जो तरीके होते हैं वो डिफरेंट डिफरेंट होते हैं यहां पे स्टैंडर्डाइजेशन अलग तरीके से काम करता है और नॉर्मलाइजेशन अलग तरीके से काम करता है आज के इस पर्टिकुलर वीडियो के अंदर हम बात करेंगे यहां पे स्टैंडर्डाइजेशन के बारे में कि ये कैसे काम करती है और ये किस मैथमेटिकल फॉर्मूले के ऊपर वर्क करती है इसको जरा यहां पे समझते हैं तो देखिए स्टैंडर्डाइजेशन जो फार्मूला इस्तेमाल करती है व यह वाला फार्मूला इस्तेमाल करती है जिसके अंदर आपके पास जो भी नया डाटा बनता है वह क्या किया जाता है पुराने वाले डाटा को लेते हैं उसमें से मीन को सबस्टैक करते हैं और उसी डाटा का स्टैंडर्ड डेविएशन से डिवाइड कर देते हैं मतलब एक सिंपल सा एग्जांपल के तौर पे बात करूं यहां पे तो मान लीजिए आपका x1 एक फीचर है अब x1 एक फीचर है जो कुछ नंब सकता है जैसे कि टू रखा थ्र 4 5 और सक्स अब इस डाटा का आप क्या करेंगे मीन निकालेंगे मतलब इस पूरे डाटा का आपको क्या करना है यहां पे मीन निकालना है यहां पे और इसके साथ-साथ आपको क्या करना है स्टैंडर्ड डेविएशन भी आपको निकालना है दोनों आप यहां पे क्या करेंगे इसको फाइंड आउट करेंगे अब दोनों जब आपके फाइंड आउट हो गए जसे मान लीजिए आपके पास यहां पे ये p हुआ और ये q हुआ तो अब जब आप यहां पे फीचर स्केलिंग करेंगे तो फीचर स्केलिंग करने पर x1 न्यू आपको देखने को मिलेगा अब ये x1 न्यू आपके पास किस तरह से बन के आएगा तो ये इस तरह से आएगा 2 - p / बा ऑफ q फिर इसके नीचे आपके पास यहां पर सेकंड पॉइंट पे आएगा 3 - p / बा q फिर आपके पास आएगा 4 - p और डिवा बा q इस तरह का आपका डाटा आपको मिलने वाला है और जब आप ये जो नया डाटा आप लेंगे इस नए डाटा के अंदर एक बहुत इंपॉर्टेंट चीज आपको देखने को मिलेगी कि इस डाटा का जब भी आप मीन निकालेंगे तो वो जो मीन होगा वो जीरो हो जाएगा एंड आपका जो इसका वेरियंस होगा यहां पे वो वेरियंस क्या हो जाएगा इक्वल टू 1 हो जाएगा मतलब आपका वेरियंस आपको क्या मिलने वाला है वन दिखने को मिला है इसको एक ज्योमेट्री इंटूट से समझते हैं कि यदि मेरे पास डेटा सेट जिस तरह से दिखाई देता है उसके अंदर यदि फीचर स्केलिंग करें तो फर वो किस तरह से दिखाई देगा इसको समझने के लिए मैं ले चलता हूं वाइट बोर्ड के अंदर और वाइट बोर्ड के अंदर हम थोड़ा समझते हैं यहां पे किस तरह होने वाला है मान लीजिए कि आपका जो डटा पॉइंट है वो कुछ इस तरह से यहां पे लाई कर रहा है राइट तो ये आपके डेटा पॉइंट का क्या है कुछ आपका डाटा यहां पे पड़ा हुआ है यहां पे अब मैं बात करूं यहां पे तो इस डेटा पॉइंट का जो मीन होगा वो मीन आपके पास क्या होगा यहां पे इस क हीं बीच में आपके पास लाइव हो रहा था और इसको मैं कलर कर देता हूं ब्लू कलर से कि मान लीजिए ये आपका मीन हो रहा होगा ठीक है इस पॉइंट को कर देते हैं मीन अब इस मीन के वैल्यू कुछ ना कुछ रही होगी और इस डाटा का वेरियंस की बात करें तो इस डाटा का वेरियंस जो है वो कुछ ना कुछ यहां से यहां तक रहा होगा अब जब मैं यहां पे इसे स्केलिंग करता हूं तो स्केलिंग करने के बाद में आप एक चीज को नोट कर पाएंगे कि आपका जो डाटा है वो कुछ इस तरह से आपके सामने देखने को मिलेगा मतलब मैं इस पूरे डाटा को क्या करने वाला हूं चेंज करने वाला हूं और पूरे डाटा जो होगा वो आपके पास कुछ इस तरह से आपके पास यहां पे आ जाएगा यह जो मैं बता रहा हूं यहां पे इस तरह के आपके पास यहां पे आ जाएगा अब नेक्स्ट चीज आएगा कि आपका जो मीन है मतलब इसके बीच में भी आपका डाटा है यहां पे अब ये जो मीन है आपके पास यहां पे वो मीन कहां आ जाएगा ये आपके पास जीरो पॉइंट पे आपके पास आ जाएगा जो कि कहीं इस जगह प पॉइंट पे था वो मीन आपके पास जाके क्या हो जाएगा इस पॉइंट पे आपको देखने को मिल जाएगा एंड वेरियंस की बात करें तो ये वेरियंस जो है वो -1 से वन के बीच में आपको यहां पे देखने को मिलेगा मतलब आपके जो फैलाव है यहां पे डाटा का जो एक्सपेड बस है यहां पे वो इस तरह देखेगा तो आपका डाटा स्केलिंग होके क्या हो जाएगा इस जगह पे आपके पास आ जाएगा अब यहां पे एक बहुत इंपॉर्टेंट क्वेश्चन आता है कि इन केस यदि हमारे पास आउटल हुए तो क्या होगा क्या आउटलायर इससे रिमूव हो जाएंगे नहीं स्केलिंग से आपके आउटलायर जो है वो रिमूव नहीं होते हैं आउटलायर आउटलायर की तरह ही काम करते हैं हां उनका मैग्निटिया के ऊपर इतना इफेक्ट नहीं पड़ता है अब जरा इसे प्रैक्टिकली समझते हैं कि आपके पास स्टैंडर्ड स्केलिंग लगाई कैसे जाती है यहां पे ये फॉर्मूला जो हमने समझा ये लगाया कैसे जाता है इसको जरा समझते हैं तो इसके लिए मैं ले चलता हूं आपको जुपिटर नोटबुक के ऊपर एंड जुपिटर नोटबुक के अंदर मैं क्या कर रहा हूं यहां पे एक न्यू नोटबुक क्रिएट कर देता हूं यहां पे अब नए नोटबुक के अंदर क्या करूंगा गाइज यहां पे कि पहले अपना डेटा सेट लूंगा और आप सब लोगों को पता है कि हम क्या कर रहे हैं लोन डटा सेट के ऊपर काम कर रहे हैं और यह डेटा सेट कुछ इस तरह से दिखाई देता है राइट तो ये जो हमारा लोन . सीएवी है इसके ऊपर हम पहले से काम करते आ रहे हैं आप लोगों को पता है तो मैं इस डटा सेट के ऊपर ही क्या करने वाला हूं स्केलिंग करने वाला हूं अब यहां पे स्केलिंग करना इसलिए जरूरी है क्योंकि देखिए आप एप्लीकेशन इनकम को देखेंगे और अपने को एप्लीकेशन इनकम को देखेंगे लोन अमाउंट्स को देखेंगे और फिर उसके बाद क्रेडिट लोन अमाउंट टर्म्स को देखेंगे यहां पे तो इनके बीच में बहुत डिफरेंस है एक आपके पास 5000 के ऊपर चल रहा है दूसरा आपके पास यहां पे 1000 के अंदर चल रहा है और तीसरा आप देखेंगे तो 100 के आसपास ही चल रहा है और यहां पे 300 के आसपास चल रहा है मतलब डाटा में इन बैलेंसिंग आपको देखने को मिल रही है यहां पे तो अब हम क्या करेंगे इसकी स्केलिंग करना स्टार्ट करेंगे तो इसके लिए मैं कर रहा हूं यहां पे इंपोर्ट कर रहा हूं यहां पे किसे मैं पहले सबसे पहले इंपोर्ट पांडा करता हूं यहां पे एलियाज ऑफ पीडी लगा के नेक्स्ट जो यहां पे मुझे जरूरत है चीजों की वो है मुझे सी बन की ताकि मैं आप लोगों को ग्राफ बना के दिखा सकूं सी बन एलियाज ऑफ एसएनएस लेंगे यहां पे और ग्राफ बनाने के लिए मुझे मैट पल लिप की भी जरूरत पड़ेगी तो मैट पल लिप की जरूरत पड़ेगी तो मैट पल लिप को भी ले रहा हूं यहां पे एंड इसके अंदर मैं पीवा प्लॉट ले रहा हूं यहां पे एलियाज ऑफ पीएटी का इस्तेमाल किया है यहां पे ओके चलिए अब हम क्या करते हैं हमारे ड सेट को लोड करते हैं तो मैंने डटा सेट के नाम से एक वेरिएबल बनाया है पीडी डॉट यहां पर _ सीएसवी के थ्रू मैं अपना डेटा सेट को लोड कर रहा हूं जो कि नाम है यहां पे लोन सए एंड इसके साथ-साथ मैं अपना डाटा सेट जो है यहां पे इसका हेड के थ्रू तीन डाटा मैं यहां पे देखूंगा और रन करूंगा तो देखिए मेरे पास यहां पे आ चुका है एप्लीकेशन इनकम को एप्लीकेशन इनकम अब हमें जैसा कि पता है कि इसके अंदर क्या है नल वैल्यू प्रेजेंट है एप्लीकेशन और को एप्लीकेशन के अंदर तो पहले मैं नल वैल्यू को हटा देता हूं या फिर एक काम करते हैं को एप्लीकेशन इनकम के अंदर ही हम क्या करते हैं डायरेक्ट स्केलिंग लगाते हैं और इसको समझते हैं क्योंकि इसके अंदर मुझे नल वैल्यू नहीं मिलेगी क्योंकि हमें ये पता है क्योंकि हम यहां पे पहले से इसके ऊपर काम करते आ रहे हैं चलिए अब एक काम करते हैं यहां पे डेटा सेट के अंदर नल वैल्यू को देख लेते हैं यहां पे तो मैं डेटा सेट के पास जाऊंगा डॉट मैं यहां पे क्या करूंगा यहां पे इस नल को कॉल करने वा वाला हूं यहां पे और इस नल के बाद में मैं डॉट यहां पर सम को कॉल करूंगा और जैसे ही मैं रन करूंगा यहां पे तो देखेंगे आप यहां पे कि इसके अंदर नल वैल्यू बहुत सारी प्रेजेंट है और मेरा काम केवल एप्लीकेशन और को एप्लीकेशन से है तो एप्लीकेशन के अंदर आपके पास दो नल वैल्यू है हम इसे क्या करेंगे फिल कर देंगे अब फिल करने के लिए मैं डेटा सेट के पास जाऊंगा एंड उसके बाद मैं क्या करूंगा गाइ यहां पे एप्लीकेशन इनकम को कॉल करूंगा और डॉट यहां पर मैं क्या कर रहा हूं फिल एन ए फंक्शन को कॉल कर रहा हूं यहां पे और इसके अंदर मैं क्या कर रहा हूं हमारा जो डटा सेट जो है यहां पे उसके अंदर एप्लीकेशन इनकम का क्या करने वाला हूं मैं मीन को फिल कर ने वाला हूं तो मैंने यहां पे मीन लिया यहां पे इसको फिल करने के लिए एंड इवन दैट मैंने यहां पे इन प्लेस इक्वल्स टू क्या कर दिया है ट्रू कर दिया है ताकि ये फिल हो सके चलिए अब मैं यहां पे चेक करूं मेरे डेटा सेट के अंदर तो अब मेरे पास कोई नल वैल्यू प्रेजेंट नहीं है एप्लीकेशन और को एप्लीकेशन दोनों में नेक्स्ट टारगेट क्या है गाइ यहां पे नेक्स्ट टारगेट है मुझे स्केलिंग करना लेकिन स्केलिंग करने से पहले मेरे डाटा का नेचर किस तरह से है वो मैं यहां पर देखना चाहूंगा मतलब क्या इसके अंदर आउटलायर प्रेजेंट है या नहीं है किस तरह का इसका नेचर है वो मुझे देखना बहुत ज्यादा जरूरी है तो उसको जरा देख लेते हैं यहां पे तो इसके लिए मैं क्या करूंगा गाइज यहां पे कि मैं यहां पे सीब के अंदर आपके पास क्या होता है डिस्क प्लॉट होता है जिसके थ्रू आप क्या कर सकते हैं डिस्ट्रीब्यूशन प्लॉट्स यहां पे डिजाइन कर सकते हैं तो वो मैं प्लॉट करने जा रहा हूं यहां पे और अब मैं क्या करूंगा डेटा सेट को लूंगा यहां पे एंड देन स्क्वायर ब्रैकेट और एप्लीकेशन इनकम के अंदर जाके मैं क्या करूंगा उसका डिस्ट्रीब्यूशन प्लॉट प्लॉट करूंगा इसको देखने के लिए पीएटी डॉट मैं यहां पे शो फंक्शन को कॉल करूंगा और रन करूंगा अब मैं देखूंगा हमारे डाटा का नेचर किस तरह से है तो आप जब डाटा का नेचर को देखेंगे तो डाटा का नेचर आपके पास कुछ इस तरह से आपको देखने को मिलेगा जहां पे आपके पास क्या है इसकी टेल है मतलब इस के अंदर बहुत सारे आउटलायर प्रेजेंट है इवन दैट आप यहां पर देखेंगे तो आपके पास यहां पे जो मैग्निटिया यहां पर देखने को मिली है अब एक काम करते हैं डाटा का डिस्क्राइब देख लेते हैं कि आपका डाटा का नेचर किस तरह से चल रहा है यहां पे तो डटा सेट डॉट यहां पर मैं डिस्क्राइब करूंगा जिससे हमें यहां पे काफी चीजें को नॉलेज हो जाएगी इवन दैट मैं मीन और मीडियन और स्टैंडर्ड डेविएशन भी मिल जाएगा मुझे यहां पे और मिनिमम और मैक्सिमम वैल्यू मिल जाएगी तो एप्लीकेशन इनकम के अंदर हम बात करें तो देखिए मिनिमम वैल्यू कितनी है 150 है मैक्सिमम वैल्यू कितनी है 81000 है मतलब आपके पास बास डाटा के अंदर आप देखेंगे तो डाटा आपका लार्ज अमाउंट में आपको देखने को मिल जाएगा अब मुझे यहां पे क्या करना है मेरे डाटा की स्केलिंग करनी है और स्केलिंग करके डाटा को क्या करना है रिड्यूस करना है अब स्केलिंग करने के लिए आप यहां पे डायरेक्टली मैनुअली भी कर सकते हैं लेकिन साइकेड लर्न आपको यहां पे एक फंक्शनैलिटी प्रोवाइड करता है जिसके थ्रू आप स्केलिंग जो है वो ऑटोमेटिक भी कर सकते हैं तो मैं यहां पे साक लन के थ्रू क्या करने वाला हूं इसकी स्केलिंग करने वाला हूं तो देखिए साइकल लन के थ्रू स्केलिंग करते हैं साइकल लन की स्केलिंग करने के लिए आप क्या करेंगे पहले फ्रॉम साइक लन के अंदर चलेंगे यहां पे साइकल लन के अंदर जाने के बाद में आपको जाना है प्री प्रोसेस सिंग के अंदर उसके बाद में आपको क्या करना है इंपोर्ट करना है और इंपोर्ट किसे करना है यहां पे आपको स्टैंडर्ड स्केलर को करना है तो मैंने यहां पे किसको इंपोर्ट किया स्टैंडर्ड स्केलर को इंपोर्ट कर दिया है ये मेरे पास क्या करेगा स्टैंडर्ड स्केलिंग यहां पर करने वाला है चलिए अब मैं स्टैंडर्ड स्केलिंग करने के लिए पहले मैं इसका ऑब्जेक्ट बना लेता हूं तो मैंने एसएस के नाम से इसका ऑब्जेक्ट बना लिया है और उसके बाद मैं अपने क्या कर रहा हूं स्टैंडर्ड स्केलर को कॉल कर रहा हूं यस तो मैंने स्टैंडर्ड स्केलर को कॉल कर दिया उसके बाद में मैं क्या करूंगा एसएस डॉट यहां पे मॉडल को क्या करूंगा यहां पे फिट ट्रांसफॉर्म करूंगा अब आप देखिए यहां पे चाहे तो फिट कर सकते हैं और उस उसके बाद ट्रांसफॉर्म कर सकते हैं या फिर ट्रांसफॉर्म एक साथ भी कर सकते हैं लेकिन जब आप मॉडल को ट्रेन करने जा रहे हैं तो उस वक्त पहले आप फिट कीजिए और उसके बाद उसको क्या कीजिए ट्रांसफॉर्म कीजिए तो मैं यहां पे क्या करूंगा पहले फिट करूंगा फिट करने के बाद में मुझे मेरा डेटा सेट चाहिए तो मैं डेटा सेट के पास गया देन स्क्वायर ब्रैकेट यहां पे मैंने क्या किया है अपना एप्लीकेशन इनकम का डाटा दे दिया है वो भी टू डायमेंशन के अंदर चलिए इसे रन करते हैं तो ये मेरा मॉडल जो है वो फिट हो चुका है अब उसके बाद एसएस डॉट यहां पे मैं करूंगा ट्रांसफॉर्म को कॉल करूंगा जिससे जो मेरा डाटा है जो मतलब स्केलिंग हुआ हुआ डेटा है वो मुझे मिल पाए तो मैंने यहां पे क्या किया इसको जस्ट दोबारा वापस कॉपी कर लिया है और इस जगह पर ले जाके मैंने पेस्ट कर दिया देन रन करूंगा तो देखिए मेरा जो स्केलिंग हुआ हुआ जो डाटा है वो मुझे यहां पर देखने को मिल गया एज ए एरे फॉर्मेट के अंदर अब एक काम करते हैं इसको हम क्या कर देते हैं स्टोर कर देते हैं कहां पे हमारी डेटा सेट के अंदर तो चलिए डेटा शीट के अंदर स्टोर करता है ताकि हमें पता चल सके कि स्केलिंग होने के बाद में हमारे डटा का नेचर किस तरह से है और ग्राफिकल तौर पे किस तरह से दिखाई दे रहा है तो इसको देखने के लिए मैं क्या करूंगा गाइ यहां पे सबसे पहले क्या करूंगा कि इसको एक पांडा डटा फ्रेम में डाल देते हैं और उसके बाद जो डेटा फ्रेम मेरा तैयार होगा यहां पे उसको हम क्या करेंगे हमारी शीट में डाल देंगे तो शीट में डालने के लिए मैं डेटा सेट दैट स्क्वायर ब्रैकेट एंड उसके बाद में मेरे पास क्या है एप्लीकेशन इनकम है तो मैं एप्लीकेशन इनकम के तौर पे डालूंगा लेकिन ये स्टैंडर्ड स्केलर है तो मैं एसएस के नाम से डालूंगा अब उसके बाद मैं क्या कर रहा हूं गाइज यहां पे पडी डॉट यहां पे इसी के अंदर डेटा फ्रेम को कॉल करूंगा डटा फ्रेम में ये जो मेरा एरे वाला डाटा है वो चला जाएगा यहां पे देन उसके बाद में इसका नाम जाएगा नाम जानने के लिए मुझे यहां पे कॉलम डालना पड़ेगा देन मैं कॉलम का इस्तेमाल करूंगा और कॉलम के अंदर कुछ भी अभी आज प्रेजेंट x के तौर पे मैं डाल दूंगा तो यह मेरा एक डाटा फ्रेम तैयार हो जाएगा जिसके थ्रू हम यहां पे इसके अंदर डाटा ट्रांसफर कर पाएंगे देन मैं इसको क्लोज करता हूं और फिर मैं रन करता हूं तो मेरा डेटा सेट जा चुका है यहां पे एसएस के नाम से अब क्या करते हैं हमारा जो डेटा सेट है डॉट उसके बाद में हैड लगा के उसके अंदर तीन डाटा हम यहां पे लिखते हैं तो देखिए हमारे पास यहां पे लोन अमाउंट्स अभी भी वैसा का वैसा दिखाई दे रहा है लेकिन लोन अमाउंट एसएस के नाम से हमने क्या किया है यहां पे इसको स्टोर कर दिया डाटा को क्योंकि हमें यहां पे दिखाई देगा जो कि स्केलिंग हुआ हुआ डाटा है यहां पे और स्केलिंग का नेचर आप देखेंगे तो वह बहुत ब ज्यादा रिड्यूस हो चुका है अब मैं काम करता हूं यहां पे मेरे जो डेटा सेट है यहां पे उसका डिस्क्राइब चेक करता हूं कि इसका डिस्क्राइब क्या है यहां पे मतलब मीन क्या है स्टैंडर्ड डिविजन क्या है वो हमें चेक करना है तो देखिए एप्लीकेशन इनकम और एप्लीकेशन एसेस के अंदर देखेंगे यहां पे तो सबसे पहले हम मीन का कंपेयर करते हैं तो मीन आपका यहां पे फोर के आसपास यहां पे इन्होंने दिया है ठीक है लगभग लगभग ये रो है क्योंकि a टू द पावर -1 है यहां पे a टू द पावर -17 का मतलब है 10 टू द पावर -17 के आसपास यहां पे डटा है और जब 10 टू द पावर -7 के 17 केप डाटा है तो जब इसको डिवाइड करेंगे तो 0 0 लगभग लगभग मिलेगा मतलब आपका जो मीन है वो रो के सेंट्र आइड आ चुका है यहां पे उसके बाद आप स्टैंडर्ड डेविएशन को देखेंगे तो स्टैंडर्ड डेविएशन के अंदर भी आपका जो आंसर है वो वन मिलेगा अब आप बोलेंगे वेरियंस और स्टैंडर्ड डेविएशन में क्या डिफरेंस है तो जो वेरियंस होता है वो स्टैंडर्ड डेविएशन का स्क्वायर होता है आपके पास यहां पे यदि आपके डाटा का यहां पे स्टैंडर्ड डेविएशन निकालते हैं और उसका स्क्वायर करते हैं तो आपको वेरियंस देखने को मिल जाता है अब यदि आप वन का स्क्वायर करेंगे तो आपको वन ही देखने को मिलेगा तो स्टैंडर्ड डेविएशन को यदि आप चेक करते हैं यहां पे तो स्टैंडर्ड डेविएशन आपको यहां पे क्या देखने को मिल रहा है वन के आसपास मिल रहा है अब यहां पे देखिए e टू द पावर क्या है 0 प् 00 है मतलब वन के आसपास यहां पे डाटा मिल रहा है यहां पे आपके देख पाएंगे ऑब्जर्व कर पाएंगे कि वन के आसपास है अब मैं चेक करता हूं कि क्या मेरा डाटा का नेचर चेंज हुआ है क्या यहां पे मतलब डाटा का पैटर्न जो था पहले नॉर्मल डिस्ट्रीब्यूशन था लेकिन उसमें एक बहुत बड़ी टेल थी मतलब उसके अंदर आउटलायर प्रेजेंट थे अब मैं चेक करूंगा कि क्या मेरे डाटा का नेचर चेंज हुआ है इसके बाद में तो इसको भी जरा देख लेते हैं यहां पे इसको देखने के लिए मैं क्या करूंगा गाइज यहां पे कि मैं एनए डॉट यहां पे डिस प्लॉट बनाने वाला हूं फिर से तो मैंने यहां पे एए ड डिस प्लॉट बनाया और डिस प्लॉट के अंदर मैंने क्या किया मेरा जो डेटा सेट है उसको लिया और इस बार मैंने एप्लीकेशन इनकम के अंदर जो एसएस वाला डाटा है उसको मैंने लिया और इसको ग्राफ को देखने के लिए मैंने पीएटी डॉट यहां पर शो फंक्शन को कॉल कर दिया अच्छा एक काम करते हैं दोनों ग्राफ पासपास बना लेते हैं बिफोर और आफ्टर मतलब पहले क्या था और अब क्या है यहां पे उन चेंजेज को हम देख लेते हैं तो उसके लिए पीएटी डॉट मैं यहां पे क्या करूंगा सब प्लॉट का इस्तेमाल करूंगा तो पीएटी डॉट मैंने क्या किया यहां पे सब प्लॉट का इस्तेमाल किया है सब प्लॉट के अंदर मैं क्या करने वाला हूं कि दोनों को पासपास रखना है मतलब नंबर ऑफ रो क्या करूंगा वन रखूंगा और कॉलम को टू कर दूंगा मतलब 0 कॉमा यहां पे मैं इस्तेमाल करूंगा आपके पास यहां पे तो मुझे यहां पे क्या करना है कॉलम रो को वन करना है और कॉलम को क्या करना है टू करना है तो रो को वन करना है कॉलम को टू करना है तो रो रखूंगा वन कॉलम करूंगा टू और ये मिलेगा मुझे नंबर वन पोजीशन के ऊपर इसके साथ-साथ एक काम करेंगे पीएटी डॉट यहां पर मैं क्या कर रहा हूं फिर से सब प्लॉट का इस्तेमाल करूंगा यहां पे और सब प्लॉट्स के अंदर इसके बाद अब हम क्या करेंगे पीएटी ड सब प्लॉट का इस्तेमाल करेंगे और इस सब प्लॉट के अंदर मैं क्या करूंगा यहां पे गाइज कि मेरा जो ग्राफ है उसको सेकंड नंबर पे डिजाइन करूंगा तो सेकंड नंबर पे डिजाइन करने के लिए मैं यहां पे टू करूंगा और जो मेरा ऊपर वाला ग्राफ है उसका जो डाटा है उसको कॉपी करके ले आते हैं मतलब ये जो एप्लीकेशन इनकम के साथ हम बना रहे हैं इसको हम कॉपी करके लाते हैं और इसके बाद यहां पर पेस्ट कर देते हैं चलिए इसको यहां पर मैंने क्या कर दिया पेस्ट कर दिया तो मेरे पास जो मेरा डाटा है वो आ चुका है और उसका ग्राफ अब हमारे पास आने वाला है लेकिन इससे पहले मैं एक काम करता हूं थोड़ा सा टाइटल लगा देता हूं तो टाइटल लगाने के लिए मैं पीएटी डॉट यहां पे क्या इस्तेमाल करूंगा टाइटल का इस्तेमाल करूंगा और टाइटल के हेल्प से मैं टाइटल लगाने वाला हूं यहां पे और टाइटल क्या है यहां पे बिफोर तो मैं यहां पे लिखूंगा बिफोर एंड उसके बाद मैं लिखूंगा मैं यहां पे आफ्टर सेकंड प्लॉट में मुझे क्या लिखना है आफ्टर लिखना है तो मैं पीएटी डॉट यहां पे फिर से क्या करना हूं यहां पे टाइटल का इस्तेमाल करूंगा और टाइटल के अंदर मैं लिखा दूंगा आफ्टर तो आफ्टर ये मैंने लगा दिया है अब इस ग्राफ को क्या करते हैं रन करके शो करके देखते हैं तो ये हमारे पास कुछ इस तरह से ग्राफ दिखाई दे रहा है यदि आप भी मशीन लर्निंग डेटा साइंस एंड डेटा एनालिटिक्स जैसी फील्ड में अपने आपको को ग्रो करना चाहते हैं तो इसके लिए डब्ल्यू एस क्यूब टेक के ऑनलाइन एंड ऑफलाइन बने बैच के अंदर जॉइन करके आप अपनी स्किल को इंप्रूव कर सकते हैं इसके लिए दिए गए कांटेक्ट नंबर पे कॉल करके आप हमारी फ्री डेमो क्लासेस ले सकते हैं तो फिर स्टार्ट करते हैं इस प्लेलिस्ट को और सीखते हैं कि किस तरीके से डाटा को क्लीन किया जाता है अब एक काम करते हैं ये ग्राफ काफी कंज ेड हो चुका है तो इस ग्राफ को थोड़ा सा बड़ा करते हैं और उसके बाद इस ग्राफ को समझते हैं कि ये ग्राफ हमें क्या डिसीजन बता रहा है यहां पे मैं अपने यहां पे कोड पे जाऊंगा यहां पे और कोड पे जाने के बाद में मैं क्या करूंगा यहां पे फिगर को कॉल करूंगा और फिगर को कॉल करने के बाद में मैं इसके अंदर करूंगा फिक्स साइज को कॉल फिक्स साइज के अंदर मैं क्या करूंगा इसकी विड्थ बढ़ानी है तो मैं 10 कर देता हूं और हाइट को एज इट इज रखना है तो मैं इसको सेवन कर देता हूं तो चलिए इसे रन करते हैं फिगर के बाद में चेंज करने के बाद में हम इसे रन करते हैं और अब जरा ग्राफ को यहां पर समझते हैं तो देखिए हमारे ग्राफ को यदि हम ऑब्जर्व करें तो देखिए डेंसिटी के अंदर देखेंगे तो ग्राफ के नेचर के अंदर कोई फर्क आपको पास नहीं देखने को मिलाहा है बिफोर फर और आफ्टर के अंदर देखें यहां पे तो दोनों का दोनों सेम टू सेम है यहां पे ग्राफ देखिए जिस तरह पहले नेचर में था उसी तरह अभी भी नेचर के अंदर है यहां पे इवन दैट आप एप्लीकेशन इनकम को देखेंगे तो एप्लीकेशन इनकम के अंदर देखिए आपका जीरो से लगाकर 80000 का डाटा पहले था लेकिन यदि आप आफ्टर वाला डे डेटा देखेंगे तो ये -2 से लगाकर 14 तक की रेंज में अब हमारा डाटा आ चुका है यहां पे तो डाटा जो है वो आपका क्या हो गया श्रिंक हो चुका है लेकिन आप नेचर को देखेंगे तो नेचर अभी भी वैसा का वैसा है यहां पे आपके पास पास पहले हेड था तो यहां पे भी देखेंगे आपके पास हेड है यहां पे और उसके बाद एक बहुत लंबी टेल है तो इसके अंदर भी आपको बहुत लंबी टेल देखने को मिलेगी अब आप यहां पे समझ चुके होंगे कि स्केलिंग करने से क्या फर्क पड़ता है स्केलिंग चलने से आपका डेटा का जो मैग्नी ूडल हो जाता है बट बात करें यहां पे कि आपके पास डाटा का जो नेचर होता है वो आपके पास जैसा था पहले वैसा का वैसा आपके पास रहता है उसके अंदर कोई चेंजेज नहीं आपको देखने को मिलते हैं तो आपके सेम आपके पास पहले जैसा ही यहां पे रहता है और यदि आप ऑब्जर्व करेंगे यहां पे तो देखिए आपका जो डाटा है वो श्रंक हो चुका है काफी हद तक और इसका स्टैंडर्ड डिविजन वन आ चुका है और मीन की बात करें तो लगभग जीरो के करीब आपके पास देखने को मिलेगा हम बात करेंगे यहां पे मेन मैक्स स्केलिंग के बारे में जिसे नॉर्मलाइजेशन टेक्निक भी बोला जाता है ये कैसे वर्क करती है तो बेसिकली बात करें यहां पे स्टैंडर्ड स्केलिंग टेक्निक के अंदर हमने क्या देखा था कि आपके पास जो डाटा होता है उसका जो टोटल मीन होता है और जो आपकी स्टैंडर्ड वैल्यू होती है है उससे आप डिवाइड करते हैं तो आपका एक नया डाटा निकल के आता है जो पुराने वाले डाटा से क्या मिलता है आपको रिड्यूस होके मिलता है अब यहां पे एक बहुत ही इंपॉर्टेंट चीज है यहां पे कि आपके डाटा का जो भी नेचर होता है वो नेचर चेंज नहीं होता है नेचर जैसा पहले था वैसा का वैसा आपको बाद में भी देखने को मिलता है ये आपको मिलता है स्टैंडर्डाइजेशन टेक्निक के अंदर लेकिन जब आप यहां पे मिन मैक्स स्केलिंग का इस्तेमाल करेंगे तो इसके अंदर भी आपके पास जो डाटा का नेचर है वो जैसा था वैसा का वैसा ही दोबारा देखने को मिलता है यहां पे भी और इसके साथ-साथ एक और इंपॉर्टेंट चीज यहां पे है कि आपका जो डाटा यहां पे रिड्यूस होता है मिन मैक्स स्केलिंग के अंदर वो आपके डाटा की मिनिमम और मैक्सिमम वैल्यू के अकॉर्डिंग रिड्यूस होता है तो मतलब इसके अंदर जो आपका डाटा का रेंज मिलता है वो आपको मिलता है यहां पे रो और वन के बीच में आपको देखने को मिलता है तो इसका फार्मूला क्या रहने वाला है और ये कैसे वर्क करता है इसका ज्योमेट्री इंशन क्या है इसको जरा अब यहां पर समझते हैं तो देखिए नॉर्मलाइजेशन टेक्निक के अंदर मैं बात करूं यहां पे तो नॉर्मलाइजेशन टेक्निक के अंदर वैसे तो बहुत सारी टेक्निक्स आती है जिसके अंदर हम यहां पे फोकस कर रहे हैं मिन मैक्स स्केलिंग के बारे में कि मिन मैक्स स्केलिंग क्या होती है तो मिन मैक्स स्केलिंग के अंदर आपके पास क्या होता है कि आपका जो भी डेटा पॉइंट है यहां पे उसके अंदर से आप क्या करते हो मिनिमम को माइनस कर देते हो और डिवाइड में क्या करते हो मैक्सिमम माइनस मिनिमम से आप फिर से डिवाइड करते हो अब ये मिनिमम माइनस मैक्सिमम है किस चीज का तो इसको समझने के लिए मैं एक काम करता हूं एक डेटा सेट का एग्जांपल लेता हूं तो मैंने क्या किया x1 एक डेटा सेट लिया इस x1 डेटा सेट के अंदर मैंने कुछ नंबर लिए हैं जैसे कि 2 3 4 5 6 और 7 अब इस डेटा सेट का जो मिनिमम वैल्यू है वो मिनिमम वैल्यू क्या है यहां पे टू है और इस डेटा सेट की मैक्सिमम वैल्यू क्या है यहां पे मैक्सिमम वैल्यू सेवन है तो बस इसी के साथ हमारा वर्क होने वाला है अब इसके साथ यहां पे x1 ' का जो न्यू आपको मिलेगा वो किस तरह से मिलेगा कि आप टू में से क्या करेंगे टू को लस कर देंगे और डिवाइड में क्या करेंगे यहां पे आपको मैक्सिमम माइनस मिनिमम करना है मैक्सिमम माइनस मिनिमम का मतलब है 7 -2 आपको करना है तो आपका आंसर यहां पर रो मिलेगा इसी तरह से आपके पास क्या मिलेगा हर डेटा पॉइंट का स्केलिंग फॉर्मेट आपको देखने को मिलेगा अब यहां पे सबसे बड़ी चीज है कि आपका ये जो डाटा आपको देखने को मिलेगा इसके अंदर हर एक डटा पॉइंट का जो रेंज होगा वो रो से वन के बीच में ही आपको देखने को मिलेगा इससे ज्यादा आपको डाटा नहीं देखने को मिलेगा तो अब इसका क्या है यहां पे ज्योमेट्री इंटू इसको भी जरा देख लेते हैं कि ज्योमेट्री इंटू हमारे पास किस तरह से देखने को मिलेगा तो मैं ले चलता हूं आपको ग्राफिकल तौर के ऊपर तो देखिए सबसे पहले मैं अपना ओरिजिनल डेटा सेट बनाता हूं तो देखिए ओरिजिनल जो डेटा सेट है आपके पास यहां पे वो कुछ इस तरह से आपके पास है है जैसा कि यह आपके पास कुछ डाटा यहां पे पड़ा है अब यहां पे बात करें आपके पास यहां पे कि इस डाटा का आपके पास यहां पे स्केलिंग होने के बाद डेटा किस तरह से दिखाई देगा तो यदि मैं स्केलिंग होने के बाद यदि मैं डेटा की बात करूं तो डटा जो है गाइज यहां पे वो आपके पास इस तरह से आ जाता है मतलब आपके पास ये जो रो है यहां पे ये रो पॉइंट हो गया और उसके बाद ये वन पॉइंट हो गया तो आपका डाटा पॉइंट जो है वो सारा का सारा इसके अंदर ही आपके पास आ जाता है इवन दैट यहां पे भी यह ज़ीरो और वन के बीच में आपका पास आता है मैं इसको भी फिलहाल यहां से रफ करूंगा और यहां पे ही आपका जो डाटा पॉइंट है वो यहां पे लाके रख दूंगा तो आपका सारा का सारा डेटा पॉइंट जो है वो इस जगह पर आपके पास आके रुक जाएगा तो इस तरह से आपके पास क्या होती है मिन मैक्स स्केलिंग होती है चलिए अब इसे थोड़ा प्रैक्टिकली समझते हैं कि मिन मैक्स स्केलिंग कैसे परफॉर्म की जाती है मैं ले चलता हूं यहां पे आपको जुपिटर नोटबुक के ऊपर जहां पे मैं क्या करूंगा सबसे पहले हमारे पास जो भी हमारे पास रिक्वायर्ड लाइब्रेरी है उसको मैं यहां पे क्या करूंगा आपके पास इंपोर्ट करूंगा देन नेक्स्ट चीज क्या करूंगा मैं अपने डेटा सेट को लोड करूंगा अब डेटा सेट के अंदर मेरे को पता है कि यहां पे बहुत सारी नल वैल्यू है तो पहले मैं नल वैल्यू को हटा देता हूं या फिर एक काम करते हैं को एप्लीकेशन इनकम को लेके काम करते हैं क्योंकि को एप्लीकेशन इनकम के अंदर नल वैल्यू प्रेजेंट नहीं है अ ये मुझे कैसे पता चला क्योंकि हम रेगुलरली इसी डाटा के ऊपर काम कर रहे हैं जैसा कि आपने प्रीवियस वीडियो के अंदर भी देखा होगा तो वहां पे इस चीज को ऑब्जर्व कर चुके होंगे चलिए कोई बात नहीं इसे चेक कर लेते हैं यहां पे तो मैं डाटा सेट के पास जाऊंगा डॉट यहां पे क्या करूंगा इस नल को क्या करने वाला हूं मैं इस्तेमाल करने वाला हूं और डॉट सम को कॉल करूं यहां पे तो मुझे यहां पर देखने को मिलेगा यस मेरे पास जो लोन अमाउंट्स है अ उसके अंदर आपके पास नल वलू है लेकिन को एप्लीकेशन इनकम के अंदर नहीं है और एप्लीकेशन इनकम के अंदर भी नल वैल्यू है तो मैं को एप्लीकेशन इनकम को लेके वर्क करने वाला हूं लेकिन को एप्लीकेशन इनकम को वर्क करने से पहले मैं इसका ग्राफिकल रिप्रेजेंटेशन देखना चाहूंगा कि ये डाटा किस तरह से दिखता है इवन दैट इस डाटा का डिस्क्राइब भी पता करूंगा कि आपके पास इसके अंदर डेटा के अंदर मीन वैल्यू क्या है मिनिमम वैल्यू क्या है मैक्सिमम वैल्यू क्या है और इसकी काउंटिंग क्या है ये सब चीजें देखेंगे तो इसको देखने के लिए मैं करूंगा डेटा सेट के पास जाऊंगा डॉट यहां पर मैं डिस्क्राइब को कॉल करने वाला हूं और जैसे ही मैं डिस्क्राइब को कॉल करूंगा तो मुझे वैल्यू की काउंटिंग आप आपको देखने को मिल जाएगी मीन वैल्यू मिल जाएगी स्टैंडर्ड वैल्यू मिल जाएगी मिनिमम वैल्यू जीरो है यहां पे और मैक्सिमम वैल्यू क्या है वन है यहां पे अब हम क्या करेंगे मीन मैक्स स्केलिंग का इस्तेमाल करते हुए इस डाटा को कंप्रेस करेंगे चलिए सबसे पहले हम यहां पे इसका ग्राफिकल नेचर देख लेते हैं कि ग्राफिकल नेचर किस तरह से है तो मैं काम करता हूं इसका ग्राफिकल नेचर बनाने के लिए मैं डिस्ट प्लॉट का यूज़ करूंगा यहां पे और डिस्ट प्लॉट के अंदर मैं क्या करूंगा डेटा सेट को कॉल करूंगा और इसके अंदर मैं करने वाला हूं यहां पे को एप्लीकेशन इनकम जो है हमारी इसको मैं लेने वाला हूं और इस ग्राफ को देखने के लिए मैं पीएटी डॉ यहां पे करूंगा सो फंक्शन को कॉल करूंगा जैसे ही मैं रन करूंगा मेरा ग्राफ मिल जाएगा और मेरे डाटा का मुझे नेचर देखने को मिल जाएगा ये नॉर्मल डिस्ट्रीब्यूशन का तो नहीं है लेकिन लुक लाइक नॉर्मल डिस्ट्रीब्यूशन हो सकता है यदि मैं इसमें से आउटलायर को रिमूव कर दूं और हमने जैसा पहले भी बता रखा है कि जब आप स्केलिंग करते हैं तो आउटलायर के ऊपर कोई इफेक्ट नहीं पड़ता आउटलायर आउटलायर की तरह ही होता है हां उसका जो मैग्निटिया पे मिन मैक्स स्केलिंग कर रहा हूं मिन मैक्स स्केलिंग कैसे होगी यहां पे तो इसके लिए आप कहां जाएंगे फ्रॉम सेकंड लन के अंदर जाएंगे यहां पे सेकंड लन के अंदर जाने के बाद आप जाएंगे प्री प्रोसेसिंग के अंदर प्री प्रोसेसिंग के अंदर जाने के बाद मैं इसको थोड़ा सा इसको ऊपर ले लेता हूं ताकि आप लोगों को थोड़ा ग्राफ वगैरह सब आराम से सब चीजें दिखने को मिले यहां पे राइट तो मुझे ये नहीं लेना चाहिए था एंड मैं इसको क्या करूंगा डिलीट कर दूंगा यस मुझे ये सब डिलीट करना पड़ेगा ओके तो देखिए अब मैं करूंगा यहां पे कि मुझे क्या करना है मिन मैक्स स्केलिंग लगानी है यहां पे तो मैं साइकिल एन के अंदर जाऊंगा डॉट यहां पे क्या करना वाला हूं मुझे यहां पे मुझे जाना है प्री प्रोसेसिंग के अंदर प्री प्रोसेसिंग के अंदर जाने के बाद दैट मैं यहां पे इंपोर्ट करने वाला हूं यहां पे मैं यहां पे क्या करने वाला हूं मिन मैक्स स्केलर को कॉल करने वाला हूं तो ये मेरा मिन मैक्स स्केलर कॉल हो चुका है उसके बाद में मैं यहां पे करूंगा एमए के नाम से एक वेरिएबल बना लूंगा जो कि होगा मेरा ऑब्जेक्ट उसके बाद मैं करूंगा मिन मैक्स स्केलर को दोबारा यहां पे कॉल करूंगा और उसके बाद एमएस के अंदर डॉट करके मैं मॉडल को क्या करने वाला हूं फिट करने वाला हूं फिट के अंदर जाके क्या करूंगा मेरा जो डेटा सेट है उसको मैं लूंगा एंड उसके बाद में मैं क्या करूंगा यहां पे को एप्लीकेशन इनकम को यहां पे लगा दूंगा अब एक चीज का ध्यान रखिएगा यहां पे जो आपका डाटा देना होता है है वो टू डायमेंशन डेटा सेट के ऊपर वर्क करता है तो मैं टू डायमेंशन डेटा सेट दूंगा और यह मेरा मॉडल जो है वो फिट हो चुका है अब फिट होने के बाद में मुझे क्या करना है इस मॉडल को ट्रांसफॉर्म करना है तो एमए डॉट यहां पे मैं करने वाला हूं ट्रांसफॉर्म करने वाला हूं और ट्रांसफॉर्म के अंदर मेरा जो ये डाटा है मैं इसको जस्ट कॉपी करके वापस ले आता हूं क्योंकि मुझे इसी डाटा को ट्रांसफॉर्म करना है तो मैं इसको ले जाके क्या करूंगा ट्रांसफॉर्म के ऊपर ले जाके रन कर दूंगा जैसे रन करूंगा मेरा जो डाटा है वो यहां पे स्केल हो चुका है यहां पे अब स्केल होने के बाद में क्या करते हैं इस डेटा सेट को हमारे ओरिजिनल डेटा सेट के अंदर रिप्लेस कर देते हैं देखिए ओरिजिनल डेटा सेट में रिप्लेस करने के लिए मैं क्या करूंगा यहां पे डेटा सेट के अंदर जाऊंगा देन स्क्वायर ब्रैकेट और मैं क्या कर रहा हूं को एप्लीकेशन इनकम का यहां पे स्केलिंग कर रहा हूं और वो कौन सी यहां पर है स्केलिंग मिन मैक्स स्केलिंग है तो रन करेंगे तो ये वहां पे जाके डाटा लोड हो जाएगा अब एक काम करते हैं डेटा सेट के पर चलते हैं डॉट यहां पर हैड लगा के आपके पास यहां पे तीन डाटा को देखते हैं तो जैसे ही मैं इसके तीन डाटा को देखूंगा तो देखिए सबसे पीछे पीछे मुझे को एप्लीकेशन इनकम के अंदर मुझे मीन मैक्स स्केलिंग के अंदर जो डाटा है वो मुझे देखने को मिल जाएगा अब यहां पे मेरा जो डाटा है वो स्केलिंग हो चुका है देखिए कंपैटिबल बात करें यहां पे तो पहले जीरो था अभी भी रो है पहले आपका पास यहां पे 1500 था अब यहां पे देखेंगे तो 0.36 है मतलब आपकी वैल्यू काफी हद तक रिड्यूस हो चुकी है अब मुझे क्या करना है इसको ग्राफिकल तौर पे देखना है कि क्या मिन मैक्स स्केलिंग अब यहां पे आपके डाटा के नेचर को चेंज कर पाई है या नहीं कर पाई है तो हमें पता है कि डेटा के नेचर को चेंज नहीं करती है तो इसको हम देख भी लेते हैं इसके लिए मैं पीएटी डॉट सबसे पहले फिगर का इस्तेमाल करूंगा यस फिगर का इस्तेमाल करके मैं जो फिक्स साइज है उसको बढ़ाऊ ताकि मेरा जो ग्राफ है वो अच्छे से दिखाई दे यहां पे पे और फिगर जो साइज है यहां पे वो मैं करने वाला हूं यहां पे 10 अराउंड फाइव करने वाला हूं यहां पे उसके बाद में नेक्स्ट चीज जो है मेरे पास यहां पे वो क्या है मैं यहां पे सब प्लॉट का इस्तेमाल करूंगा ताकि मैं एक साथ दो-तीन प्लॉट को कंपेयर कर सकूं ताकि मैं यहां पे दोनों प्लॉट में कंपेयर कर सकूं तो मैं सब प्लॉट का इस्तेमाल करूंगा नंबर ऑफ रो एक कर दूंगा कॉलम दो कर दूंगा और वन पोजीशन पे है यहां पे उसके बाद मुझे क्या करना है टाइटल लगाना है पीएटी डॉट मैं क्या कर रहा हूं यहां पे टाइटल का इस्तेमाल कर रहा हूं और टाइटल के अंदर मैं लिख देता हूं बिफोर कि ये मेरे पहले का डायग्राम है यहां पे बिफोर लेने के बाद में मैं करूंगा यहां पे एनए डॉट यहां पे डिश प्लॉट इस्तेमाल करूंगा डिश प्लॉट से मैं अपने ग्राफ को आसानी से देख पाऊंगा तो उसके लिए मैं करूंगा यहां पे डटा सेट के अंदर जाऊंगा देन स्क्वायर ब्रैकेट और मुझे क्या करना है को एप्लीकेशन इनकम को यहां पे लेना है यहां पे देन नेक्स्ट अब मैं वापस आता हूं पीएटी डॉट यहां पे फिर से सब प्लॉट को कॉल करता हूं यहां पे और सब प्लॉट के अंदर मैं क्या करता हूं आफ्टर लिख देता हूं तो ए एफ टी आर आफ्टर लिख दिया मैंने यहां पे आफ्टर लिखने के बाद मैं मैं लिख रहा हूं यहां पे पीडी ड सब प्लॉट लिखना है और सब प्लॉट में मुझे प्लॉटिंग नंबर देना है यहां पे तो मैं प्लॉटिंग नंबर यहां पे दे दे चुका हूं टू नंबर पीएटी डॉट मैं चलता हूं टाइटल के अंदर टाइटल के अंदर मैं लिख देता हूं यह क्या है आपका आफ्टर है तो मैंने यहां पे ले लिया आफ्टर आफ्टर लेने के बाद में मैं यहां पे कर रहा हूं एनएस डॉट यहां पे डि प्लॉट फिर से दोबारा यूज और डिस्ट प्लॉट के अंदर जाके मेरे पास जो डेटा सेट है यहां पे इस डेटा सेट का को एप्लीकेशन इनकम जो है यहां पे उसकी मिन मैक्स स्केलिंग का जो डाटा है वो मैं यहां पे लेने वाला हूं उसके बाद मैं क्या कर रहा हूं गाइस यहां पे इस ग्राफ को शो करते हैं तो पीएटी डॉट मैं यहां पे क्या कर रहा हूं शो फंक्शन का कॉल करके इसको रन करूंगा तो यहां पे छोटी सी मिस्टेक बता रहा है कहीं पे अ फिगर साइज के अंदर अच्छा ये मेरा जो डाटा है यहां पे मुझे एज ए टपल के तौर पे मुझे देना चाहिए था एंड उसके बाद मैं इसे रन करते हैं तो मेरा जो ग्राफ है वो मुझे दिखाई देगा ओके तो देखिए अब आप यहां पे अपने डेटा को ऑब्जर्व करेंगे तो आपके डाटा का जो नेचर पहले था वो का वो नेचर अभी भी आपको सेम टू सेम देखने को मिल रहा है पहले जो डेटा था वो आपका जीरो से लगा के 40000 तक का डाटा आपको पास देखने को मिल रहा था लेकिन अब जो डाटा की रेंज है वो जीरो से लगा के क्या हो गई है है वन के बीच में आपके पास आ चुके है मतलब आपका सारा का सारा जो डाटा है वो रो और वन के अंदर क्या हो चुका है रिड्यूस हो चुका है जैसा कि आप इस ग्राफ के जरिए देख पा रहे हैं तो आई थिंक आई होप सो समझ में आ चुका होगा कि मिन मैक्स स्केलिंग कैसे इस्तेमाल की जाती है हम डुप्लीकेट डाटा को हैंडल करना सीखेंगे अब देखिए डाटा क्लीनिंग के प्रोसेसर के अंदर डुप्लीकेट डाटा को हटाना हमारे लिए बहुत ज्यादा जरूरी हो जाता है यदि आप डेटा सेट के अंदर डुप्लीकेट डाटा को नहीं हटाएंगे तो ये आपके लिए आगे चलते हुए कहीं ना कहीं प्रॉब्लम क्रिएट कर सकता है मशीन लर्निंग की एल्गोरिथम्स के अंदर या फिर आपके पास डेटा सेट्स के अंदर यदि आपके डुप्लीकेट्स कंटेंट है तो आपके डेटा सेट्स को बल्की डाटा में कन्वर्ट कर देता है और उसे मशीन लर्निंग एल्गोरिथम को प्रोसेस होने में टाइम लगता है और वो डाटा हमारे लिए इतना काम का भी डाटा नहीं होता है क्योंकि वो डाटा एकदम रिपीटेड डाटा है अब रिपीटेड डेटा का मतलब ये नहीं है कि किसी भी पर्टिकुलर कॉलम के अंदर कोई डटा मेरा रिपीट हो रहा है तो वो रिपीटेड डाटा कहलाएगा नहीं हमारे पास पूरी की पूरी एंटायस है मतलब जितने भी कॉलम है उसके अंदर जितनी भी रोज आ रखी है यहां पे उस रो के अंदर कोई भी डाटा वापस दोबारा रिपीट कर रहा है दैट इज कॉल्ड ऑफ डुप्लीकेट डेटा अदर वाइज यहां पे हम इसे डुप्लीकेट डाटा नहीं बोलने वाले हैं तो बेसिकली इस डुप्लीकेट डाटा को हमें रिमूव करना होता है तो अब इस वीडियो के जरिए हम ये पहले जानेंगे कि डुप्लीकेट डाटा को किस तरीके से हैंडल करना है देन सेकंड चीज हम ये जानेंगे कि इस डुप्लीकेट डाटा को किस तरीके से रिमूव करना है चलिए तो हम चलते हैं जुपिटर नोटबुक के अंदर और डुप्लीकेट डाटा को समझते हैं अभी देखिए मैं डायरेक्टली डुप्लीकेट डटा के ऊपर काम नहीं करूंगा मतलब किसी भी बड़े डेटा सेट के ऊपर काम नहीं करने वाला हूं मैं पहले क्या करता हूं एक छोटा सा डेटा सेट लेता हूं या मैं खुद डेटा सेट यहां पर क्रिएट करने जा रहा हूं ठीक है उसके अंदर पहले मैं आपको डुप्लीकेट डाटा के बारे में समझाऊं और डुप्लीकेट डाटा को रिमूव करूंगा फिर हम बड़े डेटा सेट के साथ यहां पर डुप्लीकेट डाटा को रिमूव करने का प्रोसेसर समझने वाले हैं तो चलिए उसके लिए हम क्या करते हैं हैं इंपोर्ट कैसे करते हैं यहां पे पांडा एलियाज ऑफ पीडी को हम इंपोर्ट करते हैं अब एक काम करते हैं एक डेटा सेट क्रिएट करते हैं डेटा सेट क्रिएट करने के लिए मैं करता हूं डेटा नाम से एक वेरिएबल बनाता हूं और एक डिक्शनरी क्रिएट करता हूं जिसके अंदर हम क्या लेंगे हमारे नेम्स लेंगे कुछ यहां पर और उसके बाद में हम क्या करने वाले हैं उसी के कुछ इंग्लिश हिंदी और मैथ्स के कुछ मार्क्स लेने वाले हैं तो मैं काम करता हूं इंग्लिश के मार्क्स ले लेता हूं यहां पे यस अ इंग्लिश के मार्क्स ले लेता हूं यहां पे एंड इंग्लिश के मार्क्स लेने के बाद में यहां पर ही हम क्या करते हैं हिंदी के भी मार्क्स ले लेते हैं हिंदी के भी कुछ मार्क्स मैंने यहां पे ऐड कर दिए बस इसके अंदर हम क्या करेंगे हमारा डाटा सेट तो तैयार करेंगे अब देखिए नेम के अंदर हम क्या करते हैं कुछ नेम लेते हैं जस्ट लाइक ए एक नेम ले लिया मैंने यहां पे यस एक काम करते हैं यहां पे तो मैंने क्या किया यहां पे ए एक नेम ले लिया उसी के बाद में हमने क्या किया यहां पे बी के नाम से एक नेम ले लिया उसके बाद मैंने स नाम से एक नेम ले लिया एंड उसके बाद मैंने डी नाम से एक नेम ले लिया अब मैंने क्या किया डुप्लीकेट डाटा बनाने के लिए मैंने a वापस डाल दिया है यहां पे और मैंने c को भी वापस डाल दिया है अब चलिए नंबर्स की बारी यहां पे तो तो नंबर्स में से आउट ऑफ 10 नंबर ले रहा हूं जस्ट लाइक देखिए एट लिया मैंने यहां पे और उसके बाद में मैंने यहां पे सेवन लिया फिर फाइव लिया फिर एट लिया फिर नाइन ले लिया अब अच्छा एक काम करते हैं नंबर ऑफ डेटा काउंट करते हैं तो 1 2 3 और थ सि है और यहां पे भी मेरे पास सिक्स डाटा होना चाहिए इवन दैट मेरा डुप्लीकेट डटा भी होना चाहिए तो a के अंदर मैंने डुप्लीकेट कर दिया है सी के अंदर मैंने डुप्लीकेट नहीं करना चाहूंगा ठीक है तो सी के अंदर मैं क्या करूंगा डुप्लीकेट नहीं करना चाहूंगा ताकि मैं आप लोगों को बता सकूं कि किस कंडीशन के अंदर आप डुप्लीकेट डाटा बोलेंगे और किस कंडीशन के अंदर आप डुप्लीकेट डाटा नहीं बोलने वाले हैं तो चलिए मैं अब फिर से कुछ डाटा ले लेता हूं जस्ट लाइक देखिए यहां पे 2 3 4 5 यस ये मैंने ले लिया यहां पे उसके बाद मैंने दोबारा फिर से टू ले लिया फिर सिक्स और सेवन ले लिया अब ये हमारे पास क्या हो गया हमारा डटा तैयार हो गया अब एक काम करते हैं डटा फ्रेम तैयार करते हैं डेटा फ्रेम तैयार करने के लिए पीडी डॉट में डटा फ्रेम का इस्तेमाल करने वाला हूं और यहां पर मेरा जो डाटा है इसको मैं पास करूंगा चलिए अब हम इसे रन करते हैं रन करने के बाद में हम क्या करते हैं डीएफ को प्रिंट करते हैं और डीएफ को जैसे प्रिंट करेंगे हमारा डेटा सेट आ चुका है अब देखिए जरा हम यहां पे डाटा को नोट नोटस करते हैं तो देखिए हमारे पास जो a वाला कॉलम है यस जो हमारा जीरो नंबर कॉलम है जिसके अंदर a है एट है और टू है और इवन दैट हम फोर नंबर कॉलम को भी देखेंगे तो इसमें भी क्या है a है एट है और टू है तो इसका मतलब क्या हो गया कि हमारे पास जीरो नंबर जो रो है और जो फोर्थ नंबर रो है इसके अंदर हमारा डुप्लीकेट डाटा प्रेजेंट है इवन दैट अब आप देखेंगे यहां पे सेकंड नंबर रो के अंदर तो सेकंड नंबर रो के अंदर देखिए आपका जो नेम है वो सी है और यहां पे भी आपका नेम सी दे रखा है तो इसका मतलब ये डुप्लीकेट कंटेंट नहीं है अब एक काम करते हैं यहां पे फाइव है तो मैं इसको भी क्या करता हूं एक बार के लिए फाइव कर देता हूं और फिर मैं आपको बताता हूं कि इसे हम डुप्लीकेट बोलेंगे या नहीं बोलेंगे तो मैंने इसे फाइव किया और फिर से रन किया तो अब देखिए आपका जो सेकंड कंटेंट है और जो फिफ्थ नंबर कंटेंट है इसके अंदर हमारे पास दो कॉलम आपके पास क्या है सेम टू सेम है लेकिन यदि आप लास्ट वाले कंटेंट को देखेंगे तो वो आपके पास जो डाटा है वो सेम नहीं है इसका मतलब ये डुप्लीकेट कंटेंट्स हमारे पास नहीं है तो डुप्लीकेट कंटेंट की बात करें तो हमारे पास कौन सा है केवल जीरो नंबर रो है और उसी के करेस्पॉन्डिंग्ली केट है अब हम इसे कैसे पहचानेंगे तो आप क्या करेंगे डीएफ डॉप आप क्या करेंगे यहां पे पे डुप्लीकेट्स को कॉल करेंगे जैसे ही आप डीएड डुप्लीकेट्स करेंगे तो ये आपको ट्रू एंड फाल्स के तौर पे दिखा देगा कि कौन-कौन से डुप्लीकेट्स हैं और कौन-कौन से डुप्लीकेट्स नहीं है तो इसने अभी हमें जस्ट बता दिया है कि फोर्थ नंबर जो आपका कॉलम है वो डुप्लीकेट है एक काम करते हैं इसको डीएफ के अंदर सेव कर लेते हैं ताकि हमें पता चल सके कि आपका कौन-कौन सा डुप्लीकेट है और कौन-कौन सा नहीं है तो मैं यहां पे क्या कर रहा हूं आपके पास यहां पे डुप्लीकेट्स के नाम से ही इसमें क्या कर रहा हूं कॉलम्स डिजाइन कर रहा हूं चलिए अब डुप्लीकेट्स के नाम से कॉलम डिजाइन करने से क्या होगा कि मुझे इमीडिएट पता चल जाएगा कि कौन-कौन सा डुप्लीकेट्स है और कौन-कौन सा नहीं है तो जैसे ही रन करूंगा तो देखिए जहां-जहां आपका फॉल्स लगा रहा है इसका मतलब वहां डुप्लीकेट्स नहीं है और जहां हमारे पास ट्रू आ चुका है इसका मतलब ये जो डाटा है वो कहीं ना कहीं रिपीट हुआ है अब ये डाटा हमें पता है कि ये जीरो नंबर पे रिपीट हो रहा है जैसा कि हमें यहां पर पता भी चल रहा है कि जीरो नंबर पे ये डटा रिपीट हो रहा है इसलिए हमारे पास क्या आ चुका है ट्रू आ चुका है मैं यहां पे देखिए फाइव नंबर को कह रहा था कि ये डुप्लीकेट नहीं है ज कि फाइव नंबर जो है वो सेकंड नंबर से मैच कर रहा था लेकिन एक लास्ट कॉलम के मैच नहीं होने से ये डुप्लीकेट नहीं आया तो आप ये चीज यहां पे नोटिस भी कर पाएंगे कि देखिए आपके पास जो सेकंड नंबर जो कंटेंट है इसके अंदर देखिए आपका जो दो कॉलम है उनका डेटा तो एज इट इज सेम है बट जो लास्ट वाला जो डेटा है उसका जो कॉलम है उसके अंदर जो डाटा है वो आपके पास अलग है यहां पे डेटा जो है वो अलग है तो इस वजह से हम यहां पे क्या बोलेंगे ये डेटा जो हमारे पास है वो डुप्लीकेट कंटेंट्स नहीं रखता है य अब हम क्या करते हैं हम इस डाटा को चेंज कर देते हैं जस्ट लाइक मैं एक काम करता हूं इस डाटा को कर देता हूं फोर अब रन करता हूं और अब रन करता हूं तो देखिए आपका जो सेकंड नंबर है और फिफ्थ नंबर है वो दोनों सेम हो चुके हैं अब मैं डुप्लीकेट कंटेंट को रेडी करता हूं और फिर से रेडी करता हूं तो देखिए लास्ट वाली जो दो लाइंस है वो डुप्लीकेट्स हैं और वो मुझे यहां पे आइडेंटिफिकेशन है इस वजह से हमें ये क्या कर रहा है ट्रू कर रहा है अच्छा एक काम करते हैं फिर से इसे चेंज कर देते हैं चलिए रन करते हैं फिर रन करते हैं फिर रन करते हैं और फिर रन करते हैं अब डुप्लीकेट कंटेंट होने से हमारे पास यहां पे हमें कोई ज्यादा बेनिफिट नहीं मिलने वाला है क्यों नहीं मिलने वाला क देखिए ये जो रो हमको इंफॉर्मेशन देगी वही रो हमें यहां पे ऊपर वाली जो रो है वो भी इंफॉर्मेशन दे चुकी है तो पहली तो आपके पास है कि यह कोई ज्यादा अच्छी इंफॉर्मेशन नहीं देने वाला है कभी-कभी आपके पास मशीन लर्निंग में ऐसे भी मॉडल्स आपको मिलेंगे जहां पे डुप्लीकेट कंटेंट होने की वजह से आपके पास जो मॉडल है उसी के ऊपर प्रॉपर्ली ट्रेंड हो जाएंगे ऐसा मिलता है आपको क्लासिफिकेशन के अंदर क्लासिफिकेशन जब एनालिसिस करते हैं तो उस वक्त क्या होता है कि जब आपके पास डुप्लीकेट कंटेंट होता है तो वो क्या करता है डुप्लीकेट कंटेंट के ऊपर ही आपका मॉडल ट्रेन हो जाता है वो डाटा के जो नेचर्स है उसे यहां पे अडॉप्ट कर लेता है और मशीन लर्निंग मॉडल को उसी के ऊपर बना लेता है तो इस वजह से डुप्लीकट कंटेंट हमें हटाना जरूरी हो जाता है कि हमें हमारे जो फीचर्स है वो हमें डिफरेंट डिफरेंट देना है ताकि अच्छे से मशीन लर्निंग मॉडल जो है वो डिफरेंट डिफरेंट पैटर्स के ऊपर आपका ट्रेंड हो सके और हमें एक अच्छा मॉडल यहां पर दे सके तो इसीलिए हम क्या करते हैं डुप्लीकेट जो डाटा होता है उमें हटाते हैं अब डुप्लीकेट डाटा हटेगा कैसे तो इसके लिए बहुत सिंपल है आप यहां पे डीएफ के अंदर ड्रॉप डुप्लीकेट्स लगाएंगे और यहां पे क्या करेंगे कीप यहां पे क्या करेंगे फर्स्ट कर देंगे तो एफआईआर एसटी फर्स्ट लिख देता हूं यहां पे और रन करता हूं ओके तो यहां पे हमें हमारे जो डुप्लीकेट्स हैं वो हमें मिल चुके हैं तो अब हम क्या करते हैं इसमें से डुप्लीकेट हटाते हैं डुप्लीकेट हटाने से पहले आप क्या करें कि ये जो डुप्लीकेट्स नाम का जो आपने कॉलम बनाया है इसे पहले आप यहां से डिलीट कर दें मतलब मैं इसे क्या कर रहा हूं यहां से कट कर रहा हूं और ये जो डीएफ है इसको भी हम कट कर रहे हैं और वापस जाके हम क्या कर रहे हैं इसे रिसेट कर रहे हैं तो हमारा जो डीएफ है वो हमें आ चुका है और हमें दिखाई दे रहा है अब इसमें से हम डुप्लीकेट्स को हटाना चाहेंगे तो मैं यहां पे क्या करूंगा डीए डॉट क्या करूंगा यहां पे ड्रॉप डुप्लीकेट्स को मैं कॉल करने वाला हूं जैसे ही मैं ड्रॉप डुप्लीकेट्स को करूंगा तो ये क्या करेगा डुप्लीकेट्स को रिमूव कर चुका है जैसे देखिए आपका रो आ चुका है फिर वन आ चुका है फिर टू आ चुका है थ्री आ गया थ्री के बाद सीधा फाइव लेके आया है जो फोर्थ नंबर वाली जो रो है वो आपका डुप्लीकेट्स हटा चुकी है अब हम क्या करना चाहते हैं इसको हमारे ओरिजिनल डेटा सेट के साथ रखना चाहते हैं इसके साथ-साथ देखिए यहां पे क्या है आपको कीप भी मिलेगा कीप आपके पास इसलिए आता है जैसे मान लीजिए एक से ज्यादा डुप्लीकेट्स हुआ और उसमें से जो पहला डुप्लीकेट्स है वो आपको यहां पे रखना है तो आप यहां पे क्या करते हैं की फर्स्ट का इस्तेमाल कर सकते हैं तो ये हमारा डुप्लीकेट जो है वो हट चुका है यहां पे अब डुप्लीकेट हटने के बाद में हम क्या करने वाले हैं गाइस यहां पे इसको इंप्लेस कर देते हैं इन पलेस इसलिए करते हैं क्योंकि हमारे जो ओरिजिनल डाटा है उसके अंदर जाके ये क्या होना चाहिए रिप्लेस हो जाना चाहिए तो तो इसके लिए हम क्या करते हैं इंप्लेस करते हैं जैसे ही हम इंप्लेस करेंगे तो ये हमारे पास जो ओरिजिनल डेटा सेट है उसमें से डुप्लीकेट्स हटा चुका है और वहीं पे उस डटा सेट के अंदर जाके रिप्लेस भी हो चुका है तो इस तरह से आप अपने डाटा में से डुप्लीकेट्स वैल्यू को हटा सकते हैं चलिए अब हम काम करते हैं यहां पे कि हम ओरिजिनल जो डेटा सेट होता है कट अब हम यहां पे काम करते हैं कि अब हमारे पास जो डेटा सेट्स हमें कंपनी के थ्रू मिलता है उसके अंदर से डुप्लीकेट निकालते हैं और फिर इसमें से ड्रॉप करते हैं तो देखिए मैं चलता हूं आपको डाटा सेट के ऊपर लेके और देखिए हमें यहां पे लोन . सए के ऊपर हम बहुत पहले से काम कर रहे हैं तो अब हम क्या करेंगे इसी में से हम क्या करेंगे डुप्लीकेट्स को हटाएंगे और इसी के अंदर से हम क्या करेंगे डुप्लीकेट्स को देखेंगे भी तो मैं एक काम करता हूं इस डेटा सेट को लेके चलता हूं जुपिटर नोटबुक के अंदर और वहां पे मैं डुप्लीकेट्स को हटाता हूं तो देखिए अब हम क्या करेंगे सबसे पहले हम हमारा डेटा सेट के नाम से एक वेरिएबल बना लेते हैं उसके बाद पडी ड यहां पर _ सीएसवी के थ्रू हमारी जो सीएसवी फाइल है उसे लोड कर लेते हैं और हमारी सीएसवी फाइल का नाम है यहां पे लोन . सीएवी उसको मैं लगा लेता हूं यहां पे और मैं अपना जो डेटा सेट है इसे मैं देख लेता हूं इसके अंदर क्या करता हूं डॉट हैड लगा के तीन डाटा मैं यहां यहां पे देखता हूं तो मुझे मेरा डाटा मिल चुका है अब हम क्या करना चाहते हैं इसमें से डुप्लीकेट्स को फाइंड आउट करना चाहते हैं तो अब हम क्या करेंगे डुप्लीकेट्स को देखने के लिए क्या करेंगे यहां पे आपके पास डेटा सेट को कॉल करेंगे और डॉट यहां पे क्या करना है डुप्लीकेट्स को कॉल करना है और डुप्लीकेट्स को जैसे ही कॉल करेंगे तो ये हमें बता देगा कि इसके अंदर डुप्लीकेट्स है या नहीं है फिलहाल सभी के अंदर फॉल्स निकल कर आ रहा है इसका मतलब डुप्लीकेट्स नहीं है और आप यहां पे यदि बड़े डाटा सेट को नहीं देख पा रहे हैं तो आप इस तरह से भी पता लगा सकते हैं कि आपके डाटा के अंदर डुप्लीकेट्स है या नहीं है किस तरह से आप अपने डटा सेट को लीजिए यहां पे डॉट यहां पे क्या कीजिए शेप को कॉल कर दीजिए जैसे ही आप यहां पे शेप को कॉल करेंगे तो आपके पास नंबर ऑफ रो एंड नंबर ऑफ कॉलम आपको मिल जाएगा अब क्या करें यहां पे आप अपने डेटा सेट को फिर से दोबारा लीजिए एंड उसके बाद आप क्या करें ड्रॉप डुप्लीकेट्स को कॉल कर दीजिए जैसे ही आप ड्रॉप डुप्लीकेट को करेंगे और उसके बाद आप यहां पे इन प्लेस इक्वल टू ट्रू करेंगे तो यदि आपके पास जो नया वाला डेटा सेट जो आने वाला है उसके शेप के अंदर यदि आपको चेंजेज देखने को मिले इसका मतलब डेफिनेटली उसके अंदर कोई डुप्लीकेट वैल्यू थी और वो अब हट चुकी है तो उसको कैसे देखेंगे डॉट यहां पे सेव दोबारा लगाएंगे रन करेंगे तो देखिए डुप्लीकेट हटाने के पहले और डुप्लीकेट हटाने के बाद में यदि आप डाटा को देखेंगे तो इसके अंदर कोई चेंजेज नहीं आया है पहले भी आपके 618 रोज थी और 13 कॉलम थे अभी भी 618 रोज और 13 कॉलम हमें दिखाई देने को दिखाई दे रहे हैं इसका मतलब क्या हो गया गाइज यहां पे कि हमारे डटा सेट के अंदर कोई भी डुप्लीकेट कंटेंट नहीं था तो अब हमने क्या किया डुप्लीकेट वैल्यू को किस तरह से हटा सकते हैं ये हमने यहां पे समझा अब हटाना क्यों जरूरी है तो वो मैं आपको बता चुका हूं कि काफी मशीन लर्निंग ऐसे मॉडल्स होते हैं जहां पे यदि आप डुप्लीकेट कंटेंट देंगे तो वह मशीन लर्निंग मॉडल उसी के ऊपर प्रॉपर ट्रेड हो जाता है तो इससे आपके पास कोई दूसरे फीचर के ऊपर वो परफेक्टली ट्रेन नहीं हो पाता है और जब आप यहां पे कोई दूसरे फीचर का कोई डाटा उसे देते हैं तो वो उसे सही तरीके से आइडेंटिफिकेशन वैल्यू को हटाते हैं हम दो टॉपिक को कवर करने वाले हैं पहला हम यहां सीखेंगे कि डाटा को रिप्लेस कैसे किया जाता है क्योंकि डेटा क् ट्रनिंग के अंदर डेटा रिप्लेस करना हमारे लिए बहुत ज्यादा जरूरी होता है जब हमारे पास मिक्स डेटा आता है सेकंड चीज हम यहां पे ये देखेंगे कि यदि हमने डटा रिप्लेस कर दिया है तो यदि हमें उस डाटा की डेटा टाइप को चेंज करना पड़े तो हम उस डेटा टाइप को किस तरह से चेंज कर सकते हैं ये देखने वाले हैं इससे पहले हम देखते हैं कि मिक्स डाटा किस तरह से आप पास दिखाई देता है ले चलता हूं मैं आपको अपने सिस्टम के अंदर और सिस्टम के अंदर हम आने के बाद देखिए हमारे पास लोन ड सीएसवी है ये फाइल एक्सल की इसी के ऊपर हम प्रॉपर्ली वर्क कर रहे हैं और इसी के अंदर हम देखते हैं मिक्स डाटा हमारे पास कहां मिल रहा है तो देखिए जो आपका डिपेंडेंस है इस डिपेंडेंस को यदि आप गौर से देखेंगे तो इसके अंदर आपके पास क्या आ रहा है 01 01 01 आ रहा है इसका मतलब प्रॉपर्ली सभी तरीके से नंबर्स यहां पे चल रहे हैं लेकिन अचानक से आप यहां पे देखेंगे + थ आ चुका है जो कि ये नंबर्स को बिलोंग नहीं करता है ये कैटेगरी कल डाटा है यहां पर डाटा हमारे पास दो तरी का होता है एक नंबर डाटा होता है और दूसरा कैटेगरी कल डाटा होता है जिसे हम ऑब्जेक्ट टाइप का डाटा यहां पर बोलते हैं तो बेसिकली यहां पे अचानक से एक कैटेगरी कल डाटा आ गया जो कि प्लस ी है तो इस तरह से आपके भी डेटा सेट के अंदर कोई ऐसे अनवांटेड डटा आ सकता है जो कि उस डेटा टेबल को मिसमैच कर रहा हो यहां पे इसको हम बोलते हैं मिक्स्ड डेटा टाइप जहां पे आपका दोनों डाटा जो है वो मिक्स्ड फॉर्मेट के अंदर आपको देखने को मिलेगा अब जब आपके पास डाटा मिक्स्ड फॉर्मेट में मिलता है तो आप क्या करते हैं सबसे पहले हम क्या करेंगे कि ये जो + 3 जो लिखा हुआ है डाटा इसे हम कन्वर्ट करेंगे देन सेकंड चीज इसका जो डेटा टाइप है वो आपको मिलेगा ऑब्जेक्ट टाइप का उसे हम कन्वर्ट करके इंटी जर फॉर्मेट के अंदर कन्वर्ट करेंगे तो ये प्रोसेसर हमारा यहां पे इस सिचुएशन में रहने वाला है अब आपके डाटा सेट के ऊपर डिपेंड करेगा कि आप किस तरह से उसे हैंडल करते हैं तो चलिए जरा इसको समझते हैं यहां पे कि ये किस तरह से वर्क करता है तो मैं आ चुका हूं जुपिटर नोटबुक के अंदर जुपिटर नोटबुक के अंदर आने के बाद सबसे पहले मैं इंपोर्ट करूंगा किसे पांडा एलियाज ऑफ पीडी को क्योंकि हम अपने डटा सेट को लोड करा सके फिर उसके बाद क्या कर रहा हूं यहां पे डटा सेट्स के नाम से एक वेरिएबल बना रहा हूं जहां पे पीडी डॉट यहां पर रीड अंड की सीएसवी की हेल्प से मैं लोन ड सीएसवी जो हमारी है यहां पे उसे मैं लोड कर रहा हूं उसके बाद मैं यहां पे फिर से डेटा सेट को कॉल कर रहा हूं और हैड करते हुए यहां पे इसके तीन डाटा को देखूंगा इसके अंदर डिपेंडेंस के अंदर हमारे पास क्या है मिक्स टाइप का डाटा दिख रहा है अब एक काम करते हैं इसके अंदर हम क्या करते हैं इसकी डटा टाइप को चेक करते हैं कि पहले इसकी डेटा टाइप क्या है डटा टाइप को चेक करने के लिए आप क्या करेंगे डाटा सेट को कॉल करेंगे डॉट यहां पे इंफो को लगा देंगे इंफो क्या करेगा हमें सारी इंफॉर्मेशन दे देगा कि इसके अंदर किस तरह की डेटा टाइप्स है इवन दैट इसके अंदर नल वैल्यू प्रेजेंट है या नहीं है तो देखिए यहां पर हम आ चुके हैं इसके अंदर हम डिपेंडेंस के अंदर जाएंगे डिपेंडेंस के अंदर आपके पास देखिए पहले तो नल वैल्यू है क्योंकि हमारे पास टोटल जो डटा है वो 618 के अराउंड डेटा यहां पर है और जबकि डिपेंडेंस के अंदर आप देखेंगे तो 603 डाटा ही यहां पर है सेकंड चीज देखिए ये ऑब्जेक्ट टाइप का डाटा है जबकि हमारे पास यहां पे क्या चल रहा है नंबर्स चल रहे हैं तो इसको इंटी जर फॉर्मेट में या फ्लोटिंग फॉर्मेट में होना चाहिए था जबकि आप यहां पे देख पाएंगे कि ये फ्लोटिंग फॉर्मेट में नहीं है ये ऑब्जेक्ट टाइप का डटा है मतलब एक कैटेगरी कल डाटा यहां पे दिख रहा है तो अब हम क्या करेंगे इसे कन्वर्ट करेंगे सबसे पहले इसकी मिसिंग वैल्यू को फिल करते हैं देन उसके बाद कन्वर्जन करते हैं अच्छा इसके साथ-साथ देखते हैं इसमें किसकिस तरह का डाटा यहां पर प्रेजेंट है और इसकी नल वैल्यू भी देखते हैं कि कितने परसेंट नल वैल्यू यहां पर है तो वन बाय वन सभी चीजों को देखते हैं तो सबसे पहले मैं क्या करता हूं यहां पे डेटा सेट पास जाता हूं यहां पे एंड देन डॉट में यहां पे करूंगा इस नल को कॉल करूंगा ताकि मैं नल वैल्यू को चेक कर सकूं और उसके बाद डॉट सम लगाते हुए मैं इसकी नल वैल्यू को टोटल काउंटिंग करूंगा तो देखिए डिपेंडेंस के अंदर 15 कॉलम्स ऐसे हैं डिपेंडेंस के अंदर 15 रोज ऐसी है इसके अंदर नल वैल्यू प्रेजेंट है मतलब 15 सेल्स भी इसे बोल सकते हैं चलिए अब हम काम करते हैं इसके अंदर डिफरेंट डिफरेंट डाटा है उनको देखते हैं कि ये कितने-कितने तरीके डाटा है मतलब यूनिक डाटा क्या है यहां पर वो भी देख लेते हैं तो पहले तो मुझे यहां पे देखिए डिपेंडेंस के अंदर जाना पड़ेगा और उसके बाद में मैं यहां पे लगाऊंगा वैल्यू काउंट्स जैसे ही मैं वैल्यू काउट्स लगाऊंगा यहां पे तो मुझे देखने को मिल जाएगा कि किस तरह का डाटा यहां पे प्रेजेंट है तो देखिए जीरो जो है वो काफी बार रिपीट हो रहा है वन रिपीट हो रहा है टू रिपीट हो रहा है और थ प्लस रिपीट हो रहा है तो अब इस सिनेरियो के अंदर हम क्या करेंगे कि पहले तो मिसिंग वैल्यू को फिल करेंगे किससे जीरो से अच्छा एक और चीज यहां पे कि मैं मिसिंग वैल्यू को किस तरीके से फिल करूंगा तो बेसिकली मैं यहां पे मड की हेल्प से फिल करने वाला हूं और इसके पीछे रीजन क्या है यहां पे कि देखिए ये डाटा हमारे पास न्यूमेरिकल डाटा है यदि मैं इसको कंसीडर करूं आपके पास यहां पे कैटेगरी कल डाटा के अंदर या ऑब्जेक्ट टाइप के डाटा के अंदर तब भी मैं यहां पे मॉड फिल करूंगा यदि मैं न्यूमेरिकल टाइप के डटा मैं कंसीडर करूं यहां पे तो न्यूमेरिकल टाइप में ये डिस्क्रीट टाइप का डाटा है तो इसलिए हम यहां पे मॉड फिलिंग करेंगे तो फटाफट से मड फिलिंग कर लेते हैं इसके अंदर तो मैं क्या करूंगा डेटा सेट के पास जाऊंगा और यहां पे जाके मैं डिपेंडेंस को कॉल करूंगा उसके बाद मैं यहां पे फिने को कॉल करूंगा ताकि मैं डेटा सेट डाटा जो है वो फिल हो जाए फिल होने के अंदर जाने के बाद मैं फिर से डेटा सेट केऊ पास जाऊंगा देन स्क्वायर ब्रैकेट और कहां जाने वाला हूं डिपेंडेंस के अंदर जाने वाला हूं देन डॉट यहां पे मैं मोड को कॉल करने वाला हूं और मड के अंदर स्क्वायर ब्रैकेट ऑफ ़ से इसे फिल करूंगा देन उसके बाद में मैं इन प्लेस इक्वल्स टू ट्रू करूंगा अब ये फिल करने का क्या तरीका है क्या प्रोसेसर है जिके लिए हमने डेडिकेटेड वीडियो बना रखी है आप उस वीडियो वीडियो को चेक आउट कर सकते हैं और आप फील कैसे कर सकते हैं उसके डिफरेंट डिफरेंट तरीके को भी समझ सकते हैं चलिए अब आते हैं वापस अपने पॉइंट पे तो मैं यहां पे चलता हूं और देखता हूं इसके अंदर कोई नल वैल्यू प्रेजेंट नहीं है अब मुझे क्या करना है मुझे इस + 3 को रिप्लेस करना है अच्छा + 3 को यदि आप देखेंगे गौर से तो आप एक चीज नोटिस करेंगे कि जो + 3 है उससे पहले कोई थ्री ऑप्शन नहीं आ रखा है तो हम यहां पे + 3 को थ्र कर सकते हैं या फिर ये जो + 3 है इसे फोर भी बना सकते हैं लेकिन देखिए येय आपकी जो काउंटिंग चल रही है वो जी 1 2 चल रही है लेकिन थ्री नहीं है बीच में और डायरेक्टली प् 3 आ चुका है तो इस + 3 को थ कर देते हैं ताकि हमें अच्छे से रिजल्ट देखने को मिले तो पहले मैं क्या करूंगा इसे रिप्लेस करूंगा तो रिप्लेस कर देते हैं यहां पे रिप्लेस करने के लिए क्या करेंगे डेटा सेट के पास जाएंगे और यहां पे मैं डिपेंडेंस को वापस कॉल करूंगा उसके बाद मैं यहां पे करूंगा रिप्लेस ओके तो मैं यहां पे यूज कर रहा हूं रिप्लेस फंक्शन का ताकि मैं इसे रिप्लेस कर सकूं तो मैंने रिप्लेस फंक्शन को कॉल कर दिया आप यहां पे रिप्लेस फंक्शन के अंदर आपको सबसे पहले ये बताना पड़ता है कि आप किसको रिप्लेस कर रहे हैं सेकंड चीज आप किससे रिप्लेस कर रहे हैं तो चलिए मैं यहां पे क्या करने वाला हूं कि जो थ प्लस लिखा है इसे रिप्लेस कर रहा हूं और इसे किससे रिप्लेस कर रहा हूं थ्री से अब आप लोगों को एक कंफ्यूजन होगा कि मैं डाटा दे रहा हूं यहां पे स्ट्रिंग फॉर्मेट में जबकि ऊपर चला नंबर फॉर्मेट में तो अभी तक हमने डेटा टाइप को कन्वर्जन नहीं किया है डेटा टाइप अभी भी हमारी कैसी है ऑब्जेक्ट टाइप की डेटा टाइप है इसका मतलब स्ट्रिंग टाइप का डाटा ही इसके अंदर जाने वाला है चलिए तो मैं इसको थ्री से वापस रिप्लेस करने वाला हूं अब मैं क्या करूंगा यहां पे इन प्लेस इक्वल्स टू ट्रू कर दूंगा इन प्लेस इक्वल टू ट्रू इसलिए करते हैं ताकि हमारे पास ओरिजिनल डाटा के अंदर रिप्लेसिंग हो जाए ना कि एक्सल सीट के अंदर की बात कर रहा हूं यहां पे जो डाटा लोड हो रहा है उसके अंदर रिप्लेस हो जाए चलिए इसे रन करते हैं तो हमारा डाटा रिप्लेस हो चुका है वापस वैल्यू काउंट्स के ऊपर जाके एक बार फिर से रन करेंगे तो देखिए + 3 हमारा कन्वर्जन हो चुका है थ्री के अंदर अच्छा डेटा टाइप को यदि हम फिर से देखें यहां पे तो डेटा टाइप अभी भी हमारे पास डिपेंडेंस वाली किस तरह की है ऑब्जेक्ट टाइप की डेटा टाइप यहां पे शो कर रहा है अब इस ऑब्जेक्ट टाइप की डेटा टाइप को हमें कन्वर्ट करना पड़ेगा किसके अंदर इंटी जर डेटा टाइप के अंदर या फिर फ्लोटिंग टा के डाटा के अंदर तो मैं इसे इंटी जर डाटा टाइप के अंदर कन्वर्ट करूंगा किस तरह से करते हैं इंटी जर डेटा टाइप के अंदर तो आप चलिए डेटा डेटा सेट के अंदर चलिए देन उसके बाद में आप डिपेंडेंस को कॉल कर दीजिए उसके बाद में यहां पे एएस डेटा टाइप आपके पास फंक्शन होता है जिसके थ्रू आप डेटा टाइप को कन्वर्जन कर सकते हैं इसके अंदर आपको बताना होता है कि आप किससे डटा टाइप का इसे कन्वर्जन कर रहे है तो फिलहाल मैं इंटी जर 64 बिट से इसे कन्वर्जन करने वाला हूं देन रन करूंगा तो ये मेरा सारा डाटा जो है वो इंटी जर फॉर्मेट में कन्वर्ट हो चुका है मैं इसे वापस अपनी ओरिजिनल पोजीशन से रिप्लेस कर देता हूं चलिए रन करते हैं तो हमारा डेटा टाइप जो है वो रिप्लेस हो चुका है अब एक बार फिर से देख लेते हैं कि हमारा डेटा किस तरह से दिखाई दे रहा है और उसकी डेटा टाइप क्या है डॉट इंफो लगाते हैं यहां पे और इंफो लगा के मैं यहां पे रन करता हूं तो देखिए आपके पास जो डिपेंडेंस है वो अब बन चुका है इंटी जर 64 बिट्स का डाटा हमारे पास यहां पे इवन दैट यहां पे आप नंबर्स को भी देखेंगे तो नंबर्स आपके पास 0 1 2 3 आ चुका है तो जब भी आपके पास मिक्स डाटा यदि आपको देखने को मिले तो उनको हैंडल करने के लिए आप रिप्लेस का इस्तेमाल कर सकते हैं और फिर आपके जो डेटा टाइप है उसको नंबर्स में कन्वर्ट करने के लिए या किसी और फॉर्मेट में कन्वर्ट करने के लिए आप एएस टाइप का इस्तेमाल कर सकते हैं अच्छा नंबर फॉर्मेट में हम क्यों इस्तेमाल कर रहे हैं क्योंकि मशीन लर्निंग एल्गोरिथम हम आगे जाके इस्तेमाल करने वाले हैं इसी डेटा सेट के ऊपर तो मशीन लर्निंग एल्गोरिथम होती है एक मैथमेटिकल फार्मूला उस मैथमेटिकल फॉर्मूला के अंदर हमें नंबर्स की जरूरत होती है ना कि हमें कैटेगरी कल डाटा की जरूरत होती है तो इसीलिए हम इसे नंबर्स में कन्वर्ट करते हैं और इसीलिए मैंने यहां पे इंटी जर 64 बिट्स में मैंने इसे कन्वर्ट किया चाहता तो मैं यहां पे फ्लोटिंग 64 बिट्स में भी कन्वर्ट कर लेता लेकिन हां मैं ऑब्जेक्ट टाइप के अंदर इसे नहीं रख सकता था हम बात करेंगे फंक्शन ट्रांसफॉर्मेशन के बारे में देखिए फंक्शन ट्रांसफॉर्मेशन क्या काम करता है कि आपके पास कोई भी आपका डेटा सेट है उस डेटा सेट में जो भी कॉलम्स आप इस्तेमाल करना चाहते हैं उसके अंदर यदि आपके पास नॉन नॉर्मल डिस्ट्रीब्यूशन डाटा है और उसे आप नॉर्मल डिस्ट्रीब्यूशन डटा में कन्वर्ट करना चाह रहे हैं तो उसके लिए आप फंक्शन ट्रांसफॉर्मेशन लगाते हैं अब इसके अंदर आप किसी भी तरह के फंक्शन को यूज करके आप फंक्शन ट्रांसफॉर्मेशन लगा सकते हैं या फिर काफी बार क्या होता है कि आपका जो डाटा का पैटर्न होता है वो काफी बड़ा होता है आप स्केलिंग करके भी देखते हैं त भी आपका डटा का पैटर्न चेंज नहीं हो पाता है तो आप यहां पे लोगरिथम में भी उसे कन्वर्ट कर सकते हैं काफी बार आपके पास क्या होता है कि आपके पास सेल्सियस का डाटा होता है या सेंटीमीटर में डाटा होता है आप उसे मीटर में या फिर आप केल्विन में कन्वर्ट करना चाहते हैं मतलब आप अपने डाटा का पैटर्न चेंज करना चाहते हैं तो उसके लिए भी आप फंक्शन ट्रांसफॉर्मेशन का इस्तेमाल करते हुए आप डाटा के पैटर्न को चेंज कर सकते हैं अब ये किस तरह से काम करता है किस तरह से वर्क फ्लो है इसका इसको जरा यहां पे अब डिटेल के साथ समझते हैं तो मैं आ चुका हूं अपने जुपिटर नोटबुक के ऊपर और इसके लिए मैं यहां पे इसे समझाने के लिए मैं एक डेटा सेट का इस्तेमाल कर रहा हूं और उस डेटा सेट का नाम है लोन सीएवी आप सबको पता है हम इसके ऊपर पहले से काम करते आए हैं और इसके अंदर हमारे पास काफी मैसी डाटा है यहां पर जिसको हम काफी तर अलग-अलग तरीके से फिल्टर करके इसको क्लीन करने की कोशिश कर रहे हैं अब इसके अंदर हमें पता है कि को एप्लीकेशन और एप्लीकेशन इनकम दो ऐसे डेटा सेट है जो कि आपके पास क्या है यहां पे कि नॉन नॉर्मल डिस्ट्रीब्यूशन डटा है अब हम इसे क्या करेंगे नॉर्मल डिस्ट्रीब्यूशन डेटा में कन्वर्ट करने की कोशिश करेंगे अब देखिए डायरेक्टली आप इसे नॉर्मल डिस्ट्रीब्यूशन डाटा के अंदर कन्वर्जन नहीं कर सकते हैं तो इसके लिए आप फंक्शन ट्रांसफॉर्मेशन का इस्तेमाल करते हुए आप इसे कन्वर्ट कर सकते हैं इसके लिए आप डिफरेंट डिफरेंट टाइप के फंक्शंस को इस्तेमाल करके इसके ऊपर वर्क कर सकते हैं चाहे आप पावर का फंक्शन इस्तेमाल कर सकते हैं चाहे लॉग का फंक्शन इस्तेमाल कर सकते हैं या फिर अपना कोई कस्टमाइज फंक्शन का भी इस्तेमाल करके काम में ले सकते हैं अब ये वर्किंग किस तरह से होने वाला है चलो इसको डिटेल के साथ समझते हैं तो मैं ले चलता हूं जुपिटर नोटबुक के अंदर यहां पे सबसे पहले क्या करूंगा मैं इंपोर्ट करूंगा किसे पांडा को मैं इंपोर्ट करने वाला हूं एस लगा के पीडी एंड देन उसके बाद में हम यहां पे डाटा सेट को लोड करेंगे डटा सेट को लोड करने के लिए मैं पीडी डॉट यहां पर _ सीएवी का इस्तेमाल करूंगा और यहां पे मैं लोन डॉट जो सीएसवी हमारी डटा सेट है यहां पे उसे मैं ले लूंगा उसके बाद में मैं अपने डटा सेट को यहां पे कॉल करूंगा और डॉट हैड लगाते हुए मैं इसका तीन डाटा यहां पे देखने वाला हूं अब एक काम करते हैं मुझे ग्राफ वगैरह बनाने की जरूरत भी पड़ेगी यहां पे तो इसके लिए मैं इंपोर्ट करूंगा कैसे सी बन को इंपोर्ट करूंगा एलियाज ऑफ मैं यहां पे एसएनएस लेने वाला हूं इसके साथ-साथ मैं यहां पे इंपोर्ट करने वाला हूं किसे मैट पल लिप को इंपोर्ट करने वाला हूं और मैट पल लिप के अंदर जाके डॉ पवा प्लॉट एंड एलियाज ऑफ यहां पे हम इस्तेमाल करेंगे पीएटी का तो यहां पे मेरे पास जो प्लॉटिंग लाइब्रेरी है वो भी सारी आ चुकी है अब एक काम करते हैं कि मेरे पास यहां पे जो को एप्लीकेशन इनकम है इसी के अंदर मेरे पास नन वैल्यू नहीं है मतलब मिसिंग वैल्यू नहीं है तो हम इसी का इस्तेमाल करेंगे आप चाहे तो मिसिंग वैल्यू को देख सकते हैं मिसिंग वैल्यू को देखने के लिए डटा सेट डॉट यहां पर आप इनल का इस्तेमाल कीजिए यहां पे एंड उसके बाद में आप डॉट सम लगाते हुए आप यहां पे अपना डाटा देख सकते हैं इसी के अंदर हमारे पास देखिए कि हमारे पास को एप्लीकेशन इनकम है जिसके अंदर मिसिंग वैल्यू नहीं है तो हम इसका इस्तेमाल करने वाला है क्योंकि ये न्यूमेरिकल डाटा भी है अब ये हमारे पास क्या है एक नॉन गाउस डिस्ट्रीब्यूशन डाटा है मतलब नॉन नॉर्मल डिस्ट्रीब्यूशन डाटा है यहां पे अब इसको देखने के लिए मैं इसका ग्राफ का इस्तेमाल करूंगा तो उसके लिए एए डॉट मैं क्या करने वाला हूं यहां पे डिस्ट प्लॉट का इस्तेमाल करूंगा डिस्ट प्लॉट के अंदर क्या करूंगा कि मेरा जो डेटा सेट है उसको लूंगा यहां पे एंड देन उसके बाद में मैं क्या करने वाला हूं को एप्लीकेशन इनकम जो हमारी है उसे मैं यहां पे चूज करने वाला हूं को एप्लीकेशन इनकम चूज करने के बाद में मैं पीएटी डॉट यहां पर शो फंक्शन को कॉल करूंगा एंड देन रन करूंगा तो देखिए मेरे पास एक नॉन नॉर्मल डिस्ट्रीब्यूशन डाटा है जिसको आप यहां पर आराम से देख पा रहे हैं कि इसके अंदर बहुत बड़ी एक हेड है एंड उसके बाद इसके टेल को देखेंगे तो टेल इसकी काफी लंबी यहां पर दिखाई दे रही है काफी बहुत ज्यादा हद तक लंबी है यहां पे इसका मतलब इसके अंदर आउटलायर प्रेजेंट है यहां पे तो मैं इसका क्या करूंगा डाटा की जो साइज है इसको कम करके देखूंगा कि क्या पता यहां पे ये नॉर्मल डिस्ट्रीब्यूशन में कन्वर्ट हो जाए या फिर हम डिफरेंट डिफरेंट टाइप के फंक्शंस को भी इस्तेमाल करके इसमें काम कर सकते हैं आप चाहें तो इसके अंदर पहले आउटलायर को रिमूव कर लें एंड देन उसके बाद आप यहां पे इसके ऊपर वर्क कर सकते हैं यदि आप भी मशीन लर्निंग डेटा साइंस एंड डेटा एनालिटिक्स जैसी फील्ड में अपने आप को ग्रो करना चाहते हैं तो इसके लिए डब्ल्यू एस क्यूब टेक के ऑनलाइन एंड ऑफलाइन बने बैच के अंदर जवाइन करके आप अपनी स्किल को इंप्रूव कर सकते हैं इसके लिए दिए गए कांटेक्ट नंबर पे कॉल करके आप हमारी फ्री डेमो क्लासेस ले सकते हैं तो फिर स्टार्ट करते हैं इस प्लेलिस्ट को और सीखते हैं कि किस तरीके से डाटा को क्लीन किया जाता है तो एक एक काम करते हैं हम यहां पे क्या करेंगे पहले आउटलायर को रिमूव करेंगे क्योंकि देखिए आउटलायर का जो डाटा है यहां पे वो नॉर्मल डिस्ट्रीब्यूशन कन्वर्ट करने में आपके पास यहां पे प्रॉब्लम कर सकता है तो मैं यहां पे पहले आउटलायर को रिमूव करूंगा एंड देन उसके बाद में जो हमारे पास बचा हुआ डाटा होगा उसके अंदर मैं फंक्शन ट्रांसफॉर्मेशन लगाते हुए इसे नॉर्मल डिस्ट्रीब्यूशन में कन्वर्ट करने वाला हूं तो मैं यहां पे क्या करूंगा सबसे पहले आउटलायर को रिमूव करूंगा आउटलायर को रिमूव करने के लिए मैं आई क्यूआर मेथड का इस्तेमाल करने वाला हूं अब ये आईक्यू आर मेथड होता क्या है ये कैसे काम करता है इसके लिए हमने डेडिकेटेड वीडियो बना रखी है आप वहां जाके इसे आराम से चेक आउट कर सकते हैं चलिए अब हम आई क्यूआर मेथड का इस्तेमाल करते हैं र मेथड को इस्तेमाल करने के लिए मुझे यहां पे क्या चाहिए एक q1 चाहिए का q1 चाहिए इसके लिए मैं क्या करूंगा डेटा सेट को कॉल करूंगा एंड देन मैं यहां पे को एप्लीकेशन इनकम को कॉल करने वाला हूं इसके अंदर मैं क्या करूंगा यहां पे क्वांटल को कॉल करूंगा इसके लिए मैं यहां पे क्या करने वाला हूं यहां पे इसकी क्वांटल को लगाने वाला हूं तो यहां पे मैं क्वांटल को क्वांटल लूंगा यहां पे और क्वांटल कौन से लूंगा 0.25 25 ऑफ क्वांटल लूंगा उसके बाद मैं यहां पे कह रहा हूं q3 लूंगा q3 के लिए मैं क्या करूंगा फिर से मैं डेटा सेट के पास जाऊंगा यहां पे एंड देन इसके अंदर मैं जाके को एप्लीकेशन इनकम को कॉल करने वाला हूं उसके बाद डॉट यहां पे फिर से मैं कंटल को काउंट करने वाला हूं यहां पे एंड कंटल कौन सी होगी 0 प आपकी 75 पर कंटल होगी यहां पे उसके बाद में मुझे क्या निकालना है आआ निकालना है तो मैंने i क नाम से एक वेरिएबल बना रखा है इसके लिए मैंने क्या किया है यहां पे q3 - यहां पे q1 का इस्तेमाल कर रखा है तो यहां से मेरा i क आ जाएगा अब मुझे मिनिमम एंड मैक्सिमम वैल्यू निकालनी पड़ेगी तो मैंने इसको रेंज का इस्तेमाल करेंगे इसके लिए हम क्या करेंगे q1 माइनस आपके पा क्या करेंगे 1.5 * i तो मैं यहां पे 1.5 * यहां पे आ क्य आ का इस्तेमाल करने वाला हूं इसके साथ-साथ यहां पे मैक्स रेंज का भी इस्तेमाल करूंगा मैक्स अंडरस्कोर रेंज का इस्तेमाल करूंगा इसके लिए मैं क्या करूंगा यहां पे q3 प्लस यहां पे ब्रैकेट क्लोज एंड 1.5 * मैं यहां पे इस्तेमाल करने वाला हूं आई क आर का तो य पर मिनिमम और मैक्सिमम रेंज भी आ चुकी है अब देखिए यहां पे देखिए मिनिमम रेंज को यदि मैं प्रिंट करता हूं मन अ r को प्रिंट करूं एंड इसके साथ-साथ मैक्स अ r को इस्तेमाल करूं यहां पे तो देखिए मिनिमम रेंज जो है वो नेगेटिव है मैक्सिमम रेंज आपके पॉजिटिव है तो मैं मैक्सिमम रेंज का इस्तेमाल करते हुए आउटलायर को फटाफट रिमूव कर लेता हूं तो इसके लिए मैं करूंगा डेटा सेट को फिर से कॉल करूंगा और यहां पे मैं फिर से अपने आपने डेटा सेट को कॉल करूंगा और मैं को एप्लीकेशन इनकम के जो डटा है उसको कॉल करूंगा एंड देन इक्व लेस दन कर लेते हैं यहां पे लेस दन और इक्वल्स टू ले लेते हैं यहां पे किसको लेंगे यहां पे मैस अ r को कॉल करेंगे तो मै अ r को कॉल करने के बाद में मेरे पास डटा मेरे पास इस तरह से दिखाई देगा अब इसको हम क्या करेंगे हमारे ऑर्डिनल डेटा सेट से रिप्लेस कर लेते हैं ताकि मुझे बार-बार यहां पे इसे बार-बार कॉल करने की जरूरत ना पड़े तो मैंने इसे ओरिजिनल डेटा सेट से रिप्लेस कर दिया है अब जाके इसके ग्राफ को च एक बार चेक करते हैं फिर से तो रन करें तो देखिए इसमें से आउटलाइन हट चुका है और एक नॉन नॉर्मल डिस्ट्रीब्यूशन डाटा हमें यहां पर दिखाई दे रहा है जो कि एक गाउन क की तरह तो नहीं बन पा रहा है अब यहां पर कि आपके पास बहुत सारे छोटे-मोटे कर्व बन रहे हैं और काफी हद तक हमारा जो डाटा है वो आ चुका है अच्छा देखिए ये जो रेंज है वो 57 तक रेंज होनी चाहिए थी लेकिन हां उससे आसपास की रेंज है देखी है हमारा काम चल जाएगा अब देखिए यहां पे हम इसे नॉर्मल डिस्ट्रीब्यूशन में कन्वर्ट करना चा रहे हैं इसके लिए हम यहां पे फंक्शन ट्रांसफॉर्मेशन का इस्तेमाल करेंगे तो फंक्शन ट्रांसफॉर्मेशन कैसे काम करता है तो उसके लिए हम हमें जरूरत पड़ेगी साइक लर्न की लाइब्रेरी की तो मैं क्या करूंगा फ्रॉम सबसे पहले जाऊंगा साइक लन के पास यहां पे डॉट यहां पे प्री प्रोसेसिंग के पास जाऊंगा प्री प्रोसेसिंग में जाने के बाद मैं इंपोर्ट करने वाला हूं यहां पे किसे फंक्शन ट्रांसफॉर्मेशन को तो देखिए मैंने फंक्शन ट्रांसफॉर्मेशन को यहां पे रन कर दिया फंक्शन ट्रांसफॉर्मेशन में मुझे यहां पे क्या करना पड़ेगा इसका एक ऑब्जेक्ट बनाना पड़ेगा तो मैंने एटी के नाम से एक ऑब्जेक्ट तैयार किया और मैं फंक्शन ट्रांसफॉर्मेशन क्लास है इसे कॉल कर रहा हूं देखिए फंक्शन ट्रांसफॉर्मेशन की जैसे ही आप क्लास को कॉल करते हैं तो सबसे पहले आपके पास मांगा जाता है आपका फंक्शन कि आप कौन से फंक्शन को यहां पे अप्लाई करना चाह रहे हैं आप यहां पे अपना कस्टमाइज फंक्शन भी बना सकते हैं जो भी इसके अंदर आप आराम से फंक्शन बनाना चाहे वो फंक्शन बना सकते हैं तो फिलहाल मैं यहां पे क्या कर रहा हूं लॉग का फंक्शन को यहां पे यूज करूंगा अब ये लॉग का फंक्शन कैसे बनता है यहां पे तो इसको जरा समझते हैं पे तो लॉग के फंक्शन को बनाने के लिए मुझे नपाई की जरूरत पड़ेगी तो मैं ऊपर जाके सबसे पहले इंपोर्ट करता हूं नपाई को तो यहां पे मैं क रहा हूं इंपोर्ट करूंगा यहां पे किसे नपाई को कॉल करूंगा और नपाई एलियास ऑफ मैं यहां पे एप रखने वाला हूं अब नेक्स्ट मुझे फंक्शंस तैयार करना है फंक्शंस तैयार करने के लिए मैं करूंगा यहां पे सबसे पहले मैं फंक्शन को कॉल करूंगा जो कि यहां पे मुझे लेलेना है यहां पे फंक्शन लगा दिया है फंक्शन लगाने के बाद में मैं एप डॉट यहां पे जाऊंगा लॉग के पास तो देखिए एप डॉट यहां पे आप लॉग को कॉल करेंगे तो देखिए लॉग 1 p को आप इस्तेमाल करना है अब देखिए लॉग 1 p का मतलब क्या हो रहा है देखिए लॉग बेस 10 का भी इस्तेमाल कर सकते हैं लॉग बेस e का भी इस्तेमाल कर सकते हैं देखिए लॉग बेस 10 का इस्तेमाल करेंगे और यदि मान लीजिए आपके पास यहां पे जीरो आ चुका है किसी कंडीशन के अंदर तो किसी कंडीशन के अंदर यदि आपका रो आ रखा है तो लॉग 0 की वैल्यू आपके पास यहां पे वर्क नहीं करती है यदि आप लॉग 0 लगाते हैं लॉग बेस 10 लगाइए लॉग ब e लगाइए रो वैल्यू देते हैं तो वहां पे आप प्रॉपर्ली वर्क नहीं कर पाता है यहां पे आप क्या करेंगे कि आपका जो डटा है यहां पे उस डाटा में से आप वन को लेस करेंगे तो आपके पास यहां पे एक नॉर्मल वैल्यू आपके पास आ जाएगी तो कभी केस आपके पास इन केस यदि आपके डटा के अंदर जीरो प्रजेंट हो रहा है तो उस वक्त भी आप चाहते हैं कि आपका डाटा जो है वो वर्किंग करता रहे एरर ना आपके शो तो इसके लिए आप 1p का इस्तेमाल करते हैं चलिए l 1p यहां पे क्यों दे रहे हैं लॉग बेस 10 क्यों नहीं दे रहे हैं इसको जरा समझते हैं देखिए आपके डेटा सेट के अंदर आपके पास डेटा के अंदर आपको पता नहीं है कि आपका डाटा क्या आने वाला है आपका डाटा जीरो से स्टार्ट होके आपका किसी भी डेटा पॉइंट पे जा सकता है मतलब किसी भी नंबर पे जा सकता है इंफिनिटी तक भी जा सकता है यहां पे डाटा तो बेसिकली बात करें तो आपका डाटा जीरो से स्टार्ट होता है अब जीरो से स्टार्ट होता है तो यदि आप लॉग बेस जीरो लेते हैं मल ये आप बेस के अंदर 10 लीजिए 10 बेस 0 आप इस्तेमाल कीजिए तब भी आपका डाटा इंफिनिटी पे चला जाएगा या ई बेस के साथ भी आप जीरो का इस्तेमाल करेंगे तब भी आपका डाटा इंफिनिटी बन जाएगा तो उस केसेस में आपके पास क्या होगा आपको इनफिनिटी मिलने वाला है अब इंफिनिटी आपके पास कोई अनडिफाइंड चीज है यहां पे और वो आपके डेटा सेट को खराब कर सकती हैं तो इसीलिए हम यहां पे p -1 का इस्तेमाल करते हुए हम मतलब हमारे पास जो भी डाटा है उसमें से -1 का इस्तेमाल करते हुए काम में ले र है अब ये इसको जरा प्रैक्टिकली समझते हैं तो देखिए मैं कैलकुलेटर ओपन कर रहा हूं और कैलकुलेटर के अंदर देखिए मैं यहां पे देखिए लॉग का इस्तेमाल कर रहा हूं अब ये जो लॉग है यहां पे ये लॉग बेस 10 है यहां पे तो मैं यहां पे रो लिखूंगा एंड लॉक करूंगा यहां पे तो देखिए इनवैलिड इनपुट आ रहा है मतलब आपके पास इंफिनिटी की तरफ जा रहा है इनवैलिड आपके पास यहां पे इसके साथ-साथ यदि आप यहां पे जीरो लेके आप इनफ का इस्तेमाल करेंगे तब भी आपके पास क्या है इनवैलिड इनपुट है मतलब ये भी आपका इंफिनिटी बना रहा है आपके पास यहां पे तो कुल मिला के बात करें यहां पे कि लॉग बेस 10 लीजिए या e लीजिए आपके पास जीरो आता है तो ये इनफिनिटी की तरफ चला जाता है और ये कोई डिजइन आउटपुट आपको नहीं देता है तो इसीलिए हम यहां पे वन पी का इस्तेमाल कर रहे हैं वन प क्या कर रहा है यहां पे p -1 का आपका आउटपुट दे रहा है मतलब आपका डेटा पॉइंट के अंदर से वन को लस किया जा रहा है ताकि आपके पास यहां पे रिजल्ट जो है आपका सही बन सके और ये हमें पता है हमारे जो ए को एप्लीकेशन इनकम है इस को एप्लीकेशन इनकम के अंदर डाटा जीरो है लेकिन आपको कभी-कभी नहीं पता होता कि को एप्लीकेशन इनकम के अंदर डाटा जरो है या नहीं है तो फिर उस केसेस में आप इसका इस्तेमाल कर सकते हैं अब देखिए मैंने लॉग बेस 10 का इस्तेमाल लॉग बेस का इस्तेमाल कर लिया यहां पे उसके बाद मैं एटी का यहां पे करूंगा यहां पे फिट करूंगा ठीक है उसके बाद मैं एटी डॉट यहां पे क्या कर रहा हूं यहां पे फिट का इस्तेमाल करूंगा फिट के अंदर क्या करूंगा अपना डाटा दूंगा अब डेटा देने के लिए मैं क्या करूंगा डेटा सेट का कॉल करूंगा और इसको मैं क्या करूंगा यहां पे को एप्लीकेशन इनकम को कॉल करने वाला हूं तो जो हमारी को एप्लीकेशन इनकम है अब एक काम कीजिएगा यहां पे इसको डबल स्क्वायर ब्रैकेट के अंदर दीजिएगा ताकि आपका पास यहां पे टू डायमेंशन डेटा सेट यहां पे जा सके आपका डाटा फिट हो चुका है लॉग बेस p के अंदर यहां पे आपका डाटा ट्रांसफॉर्म भी हो चुका है उसके बाद एटी डॉट मैं यहां पे करूंगा यहां पे आपका ट्रांसफॉर्म करूंगा डाटा को मैंने ट्रांसफॉर्म का इस्तेमाल किया है और ट्रांसफॉर्म के अंदर जो मेरा डेटा सेट है इसी को मैंने दोबारा वापस अपना डाटा दे दिया है अब जैसे मैं यहां पे रख के रन करूंगा यहां पे तो हमारा डाटा ट्रांसफॉर्म होके हमारे सामने आ चुका है अब ये जो ट्रांसफॉर्म हो जो डटा है यहां पे एक काम करता हूं मैं इसे यहां पे सेव कर लेता हूं इसे सेव करने के लिए मैं करूंगा डेटा सेट के पास वापस जाऊंगा यहां पे एंड देन मैं एक नया कॉलम बनाऊंगा जो कि होगा को एप्लीकेशन इनकम के साथ में लेकिन ये आपका टीएफ होगा मतलब ट्रांसफॉर्म डाटा होगा अब हम यहां पे क्या करेंगे साइड बाय साइड ग्राफ को कंपैरिजन करेंगे कि ये किस तरह से हमारे पास शो करता है तो देखिए पहले हमारे पास क्या था डेटा सेट जो था प्लॉट उसको भी मैं ले लेता हूं यहां पे एंड देन जो मेरा यहां पे ट्रांसफॉर्म हुआ डाटा है उसी को भी हम प्लॉट कर लेते हैं अब देखिए मुझे दो अलग-अलग प्लॉट बनाना है तो उसके लिए मुझे सब प्लॉट का इस्तेमाल करना पड़ेगा तो पीएटी डॉट मैं यहां पे इस्तेमाल करूंगा किसे सब प्लॉट का इस्तेमाल करने वाला हूं सब प्लॉट के अंदर मैं क्या करूंगा यहां पे एक रो लूंगा दो कॉलम लूंगा और फर्स्ट नंबर पोजीशन पे मैं इसको प्लॉट कर दूंगा ये है हमारा बिफोर ठीक है तो मैं इसके अंदर कर देता हूं यहां पे लेबल मुझे देना है बिफोर तो लेबल दिखाने के लिए मैं यहां पे पीएल डॉट यहां पे ट टाइटल का इस्तेमाल करूंगा क्योंकि मुझे टाइटल देना है यहां पे तो मैंने यहां पे इस्तेमाल कर लिया टाइटल का एंड टाइटल के अंदर मैंने लिख दिया यहां पे बिफोर तो ये मेरा बिफोर का है ग्राफ अब मुझे क्या करना है गाइज यहां पे मुझे अगला ग्राफ बनाना है तो इसी के लिए मुझे सेम टू सेम इसे दोबारा कॉपी करना है एंड देन नीचे आ जाता हूं मैं यहां पे और ये कर देता हूं सेकंड नंबर पोजीशन के ऊपर और ये मेरा जो ग्राफ है वो बिफोर की जगह क्या हो जाएगा यहां पे आफ्टर पे हो जाएगा अब ये टा सेटड को एप्लीकेशन इनकम नहीं है हमारे पास ग्राफ यहां पे इसकी जगह हम यहां पे को एप्लीकेशन इनकम की जगह को एप्लीकेशन इनकम ट्रांसफॉर्मेशन का इस्तेमाल कर रहे हैं और और अब इस ग्राफ को शो करते हैं तो देखिए हमारे पास दोनों ग्राफ साइड बाय साइड आ चुके हैं यहां पे अच्छा देखिए नॉर्मल डिस्ट्रीब्यूशन ग्राफ में तो नहीं बन पाया लेकिन हां थोड़ा बहुत यहां पे ग्राफ जो है वो काफी सही हो चुका है यहां पे इसके लिए मैं करूंगा पीएटी डॉट पहले तो यहां पे फिगर का इस्तेमाल करते हुए इसको फिगर सही करूंगा यहां पे तो पीएटी डॉट मैं यहां पे कर रहा हूं यहां पे फिगर का इस्तेमाल कर रहा हूं फिगर के अंदर मैं इस्तेमाल करूंगा गाइ यहां पे फिक्स साइज का फिक्स साइज के अंदर एक काम करते हैं 10 कमा यहां पे सेवन कर देते हैं ताकि ग्राफ थोड़ा सही दिखा दे ज्यादा बड़ा हो गया यहां पे तो इसको थोड़ा कम कर देते हैं 10 4 कर देते हैं यहां पे एंड रन करें ओके ग्राफ काफी आ गया है साइड बाय साइड आप बिफोर और आफ्टर को कंपैरिजन कर सकते हैं देखिए बिफोर वाला ग्राफ देखेंगे तो काफी अब तक आपके पास यहां पे क्या है इसकी टेल जा रही थी और यह नॉर्मल डिस्ट्रीब्यूशन कर्व को तो बकुल फॉलो नहीं कर रहा था लेकिन हां आप आफ्टर को चेक करेंगे तो आफ्टर के अंदर क्या हो रहा है गाइ यहां पे कि आपका जो कर्व है वोह नॉर्मल डिस्ट्रीब्यूशन का की फॉर्मेशन में आ रहा है यहां पे आया नहीं है कंप्लीट लेकिन हां काफी हद तक सही हो चुका है यहां पे जो इसकी टेल थी वो टेल बिलकुल जा चुकी है यहां पे आप आराम से देख पाएंगे कि इसके अंदर बिलकुल भी टेल आपके पास नहीं है जैसा है वैसा ही डाटा आपको दिखाई दे रहा है अब एक काम करते हैं मैं इसके अंदर आउटलायर को कंसीडर करते हुए ग्राफ बना के दिखाऊंगा कि आउटलायर को कंसीडर करने के बाद किस तरह से दिखाई देता है ये विदाउट आउटलायर है विदाउट आउटलायर में आप देख सकते हैं काफी हद तक इसने ग्राफ को सही कर दिया है यहां पे अब मैं आउटलायर को कंसीडर करते हुए इस ग्राफ को बनाऊंगा अब देखिए आउटलायर को कंसीडर करने के लिए देखिए मैंने जो आउटलायर की डेटा लिखा था मतलब मैंने आउटलायर वाला कॉलम लिखा था मैं इसे क्या करूंगा यहां पे कमेंट आउट कर दूंगा राइट ताकि ये मेरे पास आउटलायर बिल्कुल भी वर्क ना कर सके चलिए अब मैं यहां पे स्टार्टिंग से फिर से डेटा को रन करता हूं यहां पे और फिर से मैं डेटा को रन करता हूं और इसके अंदर देखिए मैं फिर से डेटा को रन करता हूं तो ओ इसके अंदर मेरा आउटलायर आ चुका है यहां पे अब मुझे इन दोनों की जरूरत नहीं पड़ेगी क्योंकि ये आउटलायर को रिमूव करने के लिए हेल्प कर रहे है यहां पे मैं फिर से अपने डेटा को देखूंगा यहां पे तो इसमें आउटलायर मेरे पास प्रेजेंट है यहां पे अब मैं फिर से फंक्शन ट्रांसफॉर्मेशन लगाऊंगा फिर से फंक्शन ट्रांसफॉर्मेशन लगा रहा हूं फिर से लगा रहा हूं एक बार फिर से और एक बार फिर से ऐसे रन कर रहा हूं और फिर से मैं दोबारा रन कर रहा हूं अब देखिए मेरे पास पहले डटा के अंदर आउटलायर प्रेजेंट है और अब आप देखिए फंक्शन ट्रांसफॉर्मेशन करने के बाद में इसमें से आउटलायर जा चुके हैं यहां पे और कंप्लीट मेरा जो डाटा है यहां पे वो नॉर्मल डिस्ट्रीब्यूशन की फॉर्मेशन में आ चुका है अब देखिए इसके अंदर बहुत सी लंबी टेल थी इसने ने क्या किया उस टेल को कट कर दिया है और कट करके आपका फंक्शन ट्रांसफॉर्मेशन ने क्या किया आपके डाटा को एक कंप्रेस फॉर्मेट में लाके रख दिया अब देखिए इसका इस्तेमाल कब करना है जब आपको लगता है कि आउटलायर के अंदर आपके बाद बहुत ही इंपॉर्टेंट डाटा छुपा हुआ है यहां पे जो कि आगे चलते हुए आपके डाटा के लिए बहुत ज्यादा इंपोर्टेंट होने वाला है तो उस वक्त आप विदाउट आउटलायर को रिमूव करे हुए आप क्या कर सकते हैं फंक्शन ट्रांसफॉर्मेशन लगा के अपने फंक्शन को ट्रांसफर करके आप इसे यूज कर सकते हैं अब जरूरी नहीं है कि आप इसमें वन प जो मैंने लगदम इस्तेमाल किया है आप इसका इस्तेमाल करें आप किसी और चीज़ का भी इस्तेमाल कर सकते हैं जैसे कि मैं एक एग्जांपल के तौर पे मैं आपको बताना जा रहा हूं यहां पे देखिए दोबारा मैं फिर से एक बार फंक्शन ट्रांसफॉर्मेशन लगा रहा हूं यहां पे और फिर से मैं अपने मॉडल को ट्रेन करूंगा और फिर से मैं आपको दिखाऊंगा यहां पे डाटा किस तरह से दिखाई देता है तो फिर से मैं यहां पे इस मॉडल को फिट करने वाला हूं फिट करने के बाद में फिर से मैं आपको यहां पे दिखाने वाला हूं अब देखिए यहां पे मैं ft1 का इस्तेमाल करूंगा यहां पे अगले पॉइंट के लिए मैं ft1 का इस्तेमाल करूंगा tf1 का इस्तेमाल करूंगा और यहां पे मैं ft1 का इस्तेमाल करूंगा और को एप्लीकेशन इनकम को भी करूंगा इस बार मैं np.log का इस्तेमाल नहीं करते हुए इस फंक्शन ट्रांसफॉर्मेशन के अंदर मैं x स् का इस्तेमाल करने वाला हूं x स् जब भी आप इस्तेमाल करने जा रहे हैं उससे पहले आप लडा फंक्शन का इस्तेमाल करें लडा के अंदर आप यहां पे जाए और x लिखें कॉलम लगाएं और यहां पे लगा के आप डबल स्टार करते हुए x स् का इस्तेमाल आप कर सकते हैं चलिए इसे रन करते हैं आपके पास x स् के हिसाब से आपका डाटा जो है वो ट्रांसफॉर्म हो चुका है अब एक काम करते हैं ग्राफ बना के देखते हैं कि अब x स् देने के बाद में किस तरह का ग्राफ दिखाई दे रहा है तो मैं फिर से फंक्शन ट्रांसफॉर्मेशन जाऊंगा और इस बार मैं कॉलम ट्रांसफॉर्मेशन के अंदर मैं क्या करने वाला हूं यहां पे tf1 का ग्राफ बनाने वाला हूं जैसे ही मैं tf1 का ग्राफ बनाऊंगा तो देखिए आपका x स् के अंदर आपका जो डाटा है वो नॉर्मल डिस्ट्रीब्यूशन कर्व के अंदर कन्वर्ट हो चुका है देखिए काफी हद तक नॉर्मल डिस्ट्रीब्यूशन में कन्वर्ट हो चुका है लेकिन ये जो टेल है वो टेल नहीं गई है टेल जो है वो टेल अभी की अभी भी वैसी की वैसी है बट आप यहां पे शेप को देखेंगे तो शेप के अंदर आप देखेंगे कि एक छोटा सा कर्वेचर आ रहा था वो कर्वेचर यहां से जा चुका है अच्छा यहां पर यदि आप ये आउटलाइन को हटा देते हैं तो आउटलायर हटाने के बाद में आप यहां पे एक बहुत ही चीज सरप्राइज देख पाएंगे क्योंकि आउटलाइन हटाने के बाद में आपका जो डाटा है वो आपके पास सेम ए दिखेगा जैसे मैं क्या कर रहा हूं फिर से यहां पे आउटलाइन को एक बार के लिए हटा रहा हूं यस मैंने क्या किया है यहां पे ऊपर से इसे रन किया है वापस एक बार फिर से रन करते हैं देखिए 36 वाली लाइन को रन करते हैं फिर इसे रन करते हैं और ये ग्राफ को देखते हैं ग्राफ हमारा आ चुका है फिर मैं आउटलाइन रिमूव करने के वाली जो टेक्निक है उसे लगा रहा हूं आउटलायर हटा रहा हूं यहां से आउटलायर हटाने के बाद में मेरा जो कर्वेचर दिख रहा है वो कुछ इस फॉर्मेशन में दिख रहा है अब देखिए फंक्शन ट्रांसफॉर्मेशन के अंदर मैं x स् का इस्तेमाल करूंगा जो कि लगभग लगभग मेरे पास नॉर्मल डिस्ट्रीब्यूशन को बना देगा यहां पे तो मैं करूंगा यहां पे कॉलम ये सब यहां पे कमेंट आउट करने वाला हूं क्योंकि मुझे इन सब की बिल्कुल भी जरूरत नहीं है ठीक है क्योंकि मैं यहां पे x स् वाला जो फॉर्मेट है उसे यूज़ कर रहा हूं मैं थोड़ा सा नीचे आता हूं यहां पे और एक बार इस ग्राफ को बंद कर देता हूं तो मैं थोड़ा सा नीचे आता हूं यहां पे और मैं x स् वाले फॉर्मेट को यूज़ करता हूं तो मैं फिर से रन करहा हूं फिर से से रन कर रहा हूं x स् वाले फॉर्मेट को रन कर चुका हूं x स् वाले फॉर्मेट को रन करने के बाद मैं जैसे ही रन करता हूं यहां पे तो देखिए पहले मेरे पास कर्वेचर कुछ इस तरह से दिखाई दे रहा था अब मेरा कर्वेचर कुछ इस तरह से दिखाई दे रहा है तो आपका डाटा नॉन नॉर्मल डिस्ट्रीब्यूशन से नॉर्मल डिस्ट्रीब्यूशन में आ चुका है अब ये डिपेंड करेगा कि आपके डटा सेट का नेचर क्या है फिलहाल देखिए मेरे डेटा सेट के अंदर x स् के थ्रू नॉर्मल डिस्ट्रीब्यूशन में आया है लेकिन हो सकता है आपका लोगरिथम के थ्रू आए या हो सकता है कि आपके पास जो डटा है वो किसी और फंक्शन के थ्रू आ है तो आपको यहां पे डिफरेंट डिफरेंट फंक्शंस बनाते हुए आप अपना वर्क कर सकते हैं और अपने डाटा को नॉर्मल डिस्ट्रीब्यूशन में कन्वर्ट कर सकते हैं क्योंकि काफी ऐसी मशीन लर्निंग एल्गोरिथम होती है जो नॉर्मल डिस्ट्रीब्यूशन कर्व के ऊपर आपके पास बेटर रिजल्ट देती है बेटर आंसर आपको देती है तो इसके लिए आपको वहां पे कन्वर्जन करना जरूरी है तो इसके लिए आपके पास वहां पे कन्वर्जन करेंगे तो आपको बेटर रिजल्ट आपको देखने को [संगीत] मिलेगा