Transcript for:
NLP का परिचय और मुख्य तकनीकें

आज के टाइम के अंदर जितने भी AI के tools यूजर हैं चाहे वो chat gpt हो, चाहे वो mid journey हो या कोई भी AI के tools हो इन सभी के अंदर एक बहुती common चीज है और वो common चीज यह है कि आप कोई भी अपना prompt लिखते हैं तो उस prompt के जरिये आपको क्या मिलता है text return होता है या फिर image return होती है या फिर video return होती है market के अंदर बहुत सारे chatbot आ चुके हैं जो की आप से बात करते हैं लेकिन इन सभी में एक common functionality है और वो common functionality है, ये सारे जो AI के software है, वो आपके text पे working करते हैं, लेकिन AI तो number पे work करती है, क्योंकि AI machine learning के थूँ काम करती है, deep learning के थूँ काम करती है, तो ये सारा जो working होता है, वो numbers के उपर होता है, लेकिन हम जो input के तौर पे दे रहे हैं, मतलब हम जो prompt के त इस natural language processing के जरिये हम ये समझते हैं कि हम जो भी अपना prompt दे रहे हैं या जो भी अपना text दिख रहे हैं उस text को कैसे filter किया जाता है उस text को कैसे clean किया जाता है और उस text को number के अंदर कैसे convert किया जाता है ताकि हम AI को ये जो text है वो दे सकें और हमारा जो desire output है वो हम get कर सकें तो इस complete playlist के जरिये हम इसे detail के साथ यहाँ पर देखने वाला है तो guys भीर बिना किसी देरी के शुरू करते हैं हम यहाँ पर NLP की playlist को यदि आपको Python, Machine Learning, Data Science and Data Analysis इसी फील में अपने आपको ग्रोव करना है इसके लिए WSKypte के online and offline बने batch करना जॉइन करके आप अपने skill को improve कर सकते हैं इसके लिए दियेगा contact number पे call करके आप अमारी two demo free classes ले सकते हैं ओके गूगल, play Bollywood song वाओ, there is a nice feature ये बहुत, ओ, sorry ये बहुत अच्छा feature है गूगल का जिसके अंदर हम क्या कर सकते हैं हम किसी भी command के through कुछ भी चीज रन करवा सकते हैं चाहे वो phone call से related हो या फिर बॉलिवूड सॉंग से लेटेड होगी या इससे कुछी भी नाम से लेटेड होगी ये कभी आपने सोचा है ये कैसे बिल्डू है या फिर आप सभी ने कभी न कभी Alexa जैसे चीजे परचेस की होगी या फिर आप सभी ने Google Translate का use जरूर किया होगा लाइफ के अंदर इन सभी चीजों का use anytime कभी ने कभी आप चीजों के अंदर करते ही रहते हैं क्या आप सभी ने सुचा है ये सारी जो process होते हैं वो किस basis पे होते हैं तो आज के इस complete video के जरिये हम यहाँ पर समझने वाले हैं कि यह जो technology है यह technology कैसे run करती है जिसका नाम है natural language processing यस आज के इस video के जरिये हम समझने वाले हैं natural language processing क्या होता है और यह जो voice assistant है इसके पीछे ऐसे क्या चीज चल रही होती है कि हम कुछ भी बोलते हैं तो ये उसे search करता है और search करके उसका जो भी answer होता है वो answer देता है या फिर आपके पास translator के अंदर ऐसे क्या techniques होती है जिसकी वजह से वो हमारी sentence हम देते हैं उसे translate कर देता है तो आज के इस complete वीडियो के जरीए हम समझने वाले हैं natural language processing के बारे में चलिए तो फिर start करते हैं यहाँ पर ओके तो सबसे अलग मैं बात करना चाहूँगा natural language processing के बारे में natural language processing आपके आज क्या काम करती है तो जो भी आप syntax कर रहे हैं उसको क्या करती है text के अंदर convert करने का काम करती है या फिर एक language से दूसरे language में translate करने का काम करती है या आपके पास और भी बहुत सारी different things हैं यहाँ पर जैसे spelling checking का काम करती है तो दिखे आपके पास जो भी language से related जो भी work होता है वो सारा काम आपके पास natural language processing करती है natural language processing की definition के पज़लाएं तो natural language processing एक techniques है जिसकी थ्रू आप क्या करते हैं, machine जो आपकी language है, जो humans की language है, उसे understanding करती है, उसे analysis करती है, फिर उसके बाद interrupt करके हुए एक कोई भी best answer दिखाती है. अब ये जरूरी नहीं है कि आपके आज humans की लाइज हो, आपके आज computer की भी language हो सकती है, artificial intelligence की language हो सकती है, artificial intelligence में binary code हो सकता है, तो basically बात करें आज के time के अंदर आप सभी ने कुछ ना कुछ ऐसे device देखे होंगे, जो की language basis पे काम करते हैं, या फिर आपके आज यहाँ प आपके पास क्या use करका होता है? NLP का use क्या होता है? natural language processor को short form में NLP बोलते हैं तो basically यहाँ पे NLP का use करागा होता है लेकिन इसके live demonstration देखते हैं, जैसे एक first demonstration तो आपने देखा है, अभी just मैंने आपको बताया था हमारे phone के लिए, आप सभी के phone के लिए एक Google Assistant होता है, जैसे कि मैं इसके लिए try कर रहा हूँ यहाँ पर, फ है ओके तो बहुत अच्छा नाम पूछा हमसे इसका निकनेम क्या होना चाहिए बट अमने निदर है एक और ट्राइड करता यहां पर गूगल ओके गूगल आई लव यू अब मेरी गर्लफ्रेंड नहीं है बट इसको आई लव यू बोलूंगा यहां पर तो देखिए ओके गूगल कि आई लव यू नो वन से वह से ताट वॉट टीव लव अबाट में आई लव यू गूगल थैंक यू फॉर शेयरिंग यू शोट नो आई थिंक यू तो बेस्ट और आप सभी ने इस चीज़ का तो जरूर इस्तमाल किया होगा और आपको Language Translate करने की जरूरत होती है देखें जैसे कि मैं यहाँ पर Language Translator का यूज़ करा हूँ गूगल ट्रांसलेटर का यूज करा हूं मैं यहां पर तो देखिए गूगल एंड ट्रांसलेटर का यूज करने पर देखिए आप यहां पर कुछ भी डालते हैं जैसे आपने यहां पर इंग्लिश डाल दिये और मैं इंग्लिश के ऊपर काम करना जा रह इसने डिटेक्ट किया है कि यह इंग्लिश लैंग्वेज है ओके और गौरव की स्पैलिंग थोड़ी सी चेंज हो गई है जी आयू आर ए वी तो फर्स्ट इंस इसने चेंज किया है तो इसने हिंदी में भी आपके आस क्या करेक्ट करके और इसके अलावा यदि कोई wrong spelling डालता है, जैसे कि मैंने यहाँ पर कुछ भी डाल दिया, Google की spelling डालता हूँ, तो देखिए Google के अंदर spelling को मैंने थोड़ा uppercase, lowercase किया है, तब भी यह क्या करें, सब यह कर दिया है, तो Google के अंदर आपने काफी जीज़ वो सारे जो text से related होते हैं, जो language से related होता है, वो आपके पास कौन handle करता है, वो handle करता है NLP. Yes, natural language processing का जो काम होता है यहाँ पर, वो language से related काम होता है, यहाँ पर क्या करती है, यह language के उपर detect करती है, और इसके ऊपर work करते हुए आपका जो भी output है वो output आपको show करती है तो basically यह होती है natural language processing और आज के टाइम के लिए हर किसी device के अंदर या हर किसी features के अंदर natural language processing का use किया जाता है अब हम बात करना चाहेंगे कि natural language processing होता क्या है नेचरल लैंग्विज प्रोसेसिंग आपके आज क्या करता है कि कोई भी आपके आज मसीन है, मसीन कैसे हो सकती है, तो देखें यहाँ पर हमने एक रॉबोट का इस्तमाल किया है, इस रॉबोट को हम क्या करते हैं, बहुत से आपके आज फीचर की स् लेकिन जब हम बात करते हैं आपके आस गूगल असिस्टेंट से तो गूगल असिस्टेंट भी तो एक तरीके का रॉबोट ही है अब वो फिजिकल रॉबोट नहीं है वो एक केवल असिस्टेंट की तरफ काम करता है तो एक तरीके से वो क्या एक सिस्टम है एक कि machine उसे understanding कर सके तो basically हम क्या करते हैं बहुत सा use of knowledge इसे देते हैं और use of knowledge के basis पर हम जब भी interrupt करते हैं तो वो हमें उसी तरीज से feedback answer देती है तो basically natural language processing का काम क्या होता है कि पहले आपके आज जो humans जो आपके आज machine है उस machine को अच्छे तरीके से trained करना होता है अब trained कैसे करना होता है तो language के basis पर करना होता है अलग तरीके की language देनी होती है और उस language के basis पर machine trained होती है और trained होने के बाद जब भी आप उससे interrupt करते हैं तो interrupt करने के बाद आपके आज जो भी answer होता है वो feedback के तौर पर हमारा answer मिलता रहता है तो ये पूरा processor किसका होता है natural language processing का होता है जैसे आपके आज कोई भी आप assistant use कते हैं Amazon का वगेर का उसके अंदर काम करते हैं, spelling checking का भी काम होता है, अच्छा देखिए spelling checking का जो काम होता है वो आपके अलग, आजकल हर किसी सॉफ्ट के अंदर है, चाहे आप Microsoft PowerPoint की बात करें, Microsoft Excel की बात करें, तो इनके अंदर भी spelling checking का options आने लग गया है यहाँ पर, और इसके सा� कि आपका कोई भी मेल स्पैम है या नहीं है उसके बारे में डिटेक्ट कौन करता है यहां पर एनलपी की जरिए यहां पर होता है मलाएं लगता है जिसके बेसेस पर आपका जो भी मेल आता है वह स्पैम है या नहीं है उसका डिटेक्ट करता और फिर जाएगा कि spam में वह विशेष आपके पास आएगा जो अच्छा spam है spam मतलब कि यह काम के नहीं है इसमें advertisement चल रहा है तो यह जितने भी आपके आज होते हैं यह सारी चीजें आपके आज किसके अंदर आती है applications of NLP के अंदर आती है तो ये real life applications हैं जिनके अंदर आपके आज क्या करते हैं NLP का इस्तेमाल करते हैं अब बात करने चाहूँगा NLP के अंदर कितने टाइप के components होते हैं तो देखें natural angle processing आपका दो basis पर काम करती है Pages तो NLP आती है यहाँ पर लेकिन इस पर भी दो processor पर काम करती है आपके NLP प्रोचन पर आपके आप यहां पर नैचरल लैंग्वेज अंडरस्टेंडिंग के ऊपर और दूसरी नैचरल एंडर जनरेशन के ऊपर है देखिए नैचरल understanding के ऊपर बात करें तो natural language understanding का मतलब होता है कि आप जो भी machine को कुछ लिख रहे हैं जो भी आप यहाँ पर बोल के बता रहे हैं उसे analysis करती है उसे text के अंदर convert करती है और फिर उसे understanding कि आपका जो भी right presence होता है लिखते हैं जो भी चीज करते हैं जैसे कि अभी मैं आपको तो यहां पर इस गूगल के अंदर जाकर जाऊंगा मैं गूगल के अंदर और गूगल के अंदर आपने चीज ऑप्शन देखिए बहुत ही बढ़िया फीचर्स है जैसे मैंने बहुत ही टाइम से WhatsApp Web का इस्तेमाल कर रहा हूँ यहाँ पर, तो देखें WhatsApp Web ऑटोमेटिकली लिखा रहा है, या फिर देखें मैं W लिखता हूँ, तो W करने पर ऑटोमेटिकली WhatsApp Web का ऑप्शन मुझे दिखा ही दिया रहा है यहाँ पर, तो यह चीज क्या Understanding Processor के अंदर आती है NLP के अंदर रीड करती है, वाला उसे समझती है, और अपने सिस्टम के अंदर राइट कर लेती है, तो उसके बाद जब भी आपको जरूरत होती है, तो auto-suggestion आपको यहाँ पर दिखाती है, that यह पूरा जो processor होता है, that is understanding processor होता है, next होता है यहाँ पर language generation का processor, जैसे कि मैंने यहाँ पर देखें, language generation के अंदर मैं आपको example हूँ, तो यह translator है, translator के अंदर मैंने देखें, यहाँ पर English में लिखा है, और यह क्या कर रहा है, मुझे Hindi में understanding करके दिखा रहा है, अब जरूरी नहीं है, Hindi में चाहिए मुझे यहा फिर उसका meaning निकाल के आपके दूसरी language के अंदर उसका answer generate करके देता है तो basically बात करें तो natural language processing के दो component निकलते हैं पहला understanding का process हो गया दूसरा आपके generation का process हो गया तो ये कुछ आपके आज features होते हैं जो कि natural language processing आपके आज work करती है अब natural language processing दे पर कुछ challenges है अब ये challenges का मतलब क्या होता है कि देखे ऐसा नहीं है कि आपके आज natural language processing बहुती असानी तरीके से work करती है क्योंकि देखे natural language processing बहुती oldest technique है अब पहले की जमानी में natural language processing के लिए क्या होता था?

manually काम होता था लोग क्या करते थे? आपके आस यहाँ पर अलग-अलग survey करते थे survey करके understanding करते थे या फिर देखे मुझे google translator भी बनाना है ना तो मैं क्या करता था? कि पहले मैं एक language सीखता था फिर उसके बाद दूसरी language सीखता था, फिर तीसी language सीखता था, फिर चौते language सीखता था, फिर उसके बाद अलग-अलग meaning निकालते हुए मैं write करता था, फिर उसके बाद मैं उसके पर काम करता था, तो ये काम पहले process में जाता था, लेकिन आज के time के अंदर य कि आपके आज कोई भी आप एक particular language दे रहे हैं तो उस language के अंदर वो जो काम है वो बहुत ही आसानी तरीके से हो सकता है नहीं, इसके अंदर भी बहुत से problems आता है अब इन मेंसे मैंने कुछ बहुत ही आपके आज limited problems को यहाँ पर show किया है जो कि आपका आज हर किसी natural language processing के लिए जब भी आप काम करेंगे अब ज़रा इनको problems को समझते हैं कि ये problems क्या है तो देखें conjectural word and paras and harmonies hormones, देखे, ये क्या कहता है कभी controversial word आपके आस देखने में मिलते हैं controversial word का मतलब क्यों था है यह एक ऐसे word यस एक ऐसा word मैं बात कर रहा हूँ यहाँ पर यहाँ गुड और बैटर दोनों का जो आंसर आप देखेंगे तो वो हमेशा अच्छी के अंदर रिप्रेजन्ट करता है मतलब मैं यदि गुड बोलू किसको कि this person is very good that is बहुत अच्छा person है यहाँ पर and this person is better तो इसका मतलब क्या है यह person अच्छा है यह हमारे हिंदी में differentiate किया जा सकता है लेकिन English के basis पे मैं बात करूँ मतलब same to same यहाँ पे word निकलता है that is आपके वास construction word हो जाता है और यहाँ पर better का मतलब भी अच्छा है good, better and best best का मतलब भी आपके आज अच्छा होता है हाँ, हिंदी के अर्थ में बात करें कि यह ज़्यादा अच्छा है, यह अच्छा है, और ज़्यादा अच्छा है तो यह बहुत बड़ी problem हो जाती है तो उनका जो meaning है वो एक ही है बट आपके आस जो उनकी spellings है तो वो difference है या किस सेमान्टिक्स के अंदर बात की गई है तो यह बहुत बड़ी प्रॉबर्ट है उसके बाद कहा रहते हैं सिनोमनस अब सिनोमनस के बारे में कौन नहीं जानता यहाँ पा जैसे कि एक ही चीज के बहुत से different सार्थ meaning निकल जाते हैं कोई sentence करते हैं कुछ और word use कर जाता है कोई sentence करते हैं कुछ और word use कर जाता है क्योंकि synonymous word जो होते हैं वो बहुत चारा यहाँ पर निकलते हैं तो यह बहुत बड़ी problem है आपका यहाँ पर तो इस problems को भी हमें क्या करना पड़ता है then उसके बाद है identity problems है ambiguity problems बहुत important problems है ambiguity problems का मतलब यह होता है एक sentence मैंने आपको बोला अब वो sentence का expression बोलने का कुछ और होता है और आपके पास यहाँ पर उसको समझाने का आर्थ कुछ और हो जाता है कभी-कभी, जैसे मैं बोलता हूँ कि यार आज स्कूल चलेंगे क्या, यस, क्या स्कूल चलेंगे क्या, अब यहाँ पर मैंने एक कुछ चिन पूछा है यहाँ पर कि क्या स्कूल थोड़ा सा अलग हो जाता है यहाँ पर, तो फिर उस cases में आपके आज जो word है उसमें ambiguities आपके आज आती है, then error in the text and speech, मतलब आपके आज क्या होता है कि spelling error बहुत आजाती है यहाँ पर, तो machine उसको नहीं समझेगी मनिल उसे reconnect बहुत ही rare कैसे समझ पाएगी क्योंकि आप उसे class समझाना चाहे हैं और class के अंदर आपने spelling की छोटी से mistake कर दिये है कि कुछ silent word होते हैं यहाँ पर जैसे knowledge की बात की जाएं यहाँ पर तो knowledge की spelling k-n-o-l-g होती है यहाँ पर और जबकि हुनी कहां से चाहिए थी कि nor बोला है तो n-o से start होने चाहिए जबकि आपका के से start हुआ है तो उस cases के अंदर आपका आज कहो कि spelling बिच्ट होगी अब किसी ने knowledge के spelling analogy लिख दी and then यहाँ पर आपका आसाता है co-eclusivity and slams word आपका आसाता है जिसके अंदर देखिए आप कुछ और बोलना चाह रहे हैं और काम कुछ और हो रहा है यहाँ पर तो फिर उसके सिस्टमें भी यह सारा काम करता है और देखिए domain, species, language कि पुराने time के अंदर क्या होता था उसका understanding करके फिर उसके बाद उसका programming करता था तो वह बहुत ही large scale पर हो गई, जैसे मैं अभी आपको बता रहा हूँ, translator को बात तो उस वक्त क्या होता है कि आपके जो language होती है, वो language हर एक area के अंदर अलग-अलग होती है जिस लिए मैं बात करता हूँ राजिस्तान के बारे में, राजिस्तान के अंदर आपका आज क्या होनी चाहिए लैंग्विज, राजिस्तानी लैंग्विज होनी चाहिए, देट ओफिसियली बात करें तो रा तो उसके अंदर क्या है कि हर एक सिठी के अंदर आप पहुंचेंगे तो उनकी language change हो जाती है just like मैं बात करना चाहूँ जैसे मेरे साइट की बात करूँ तो वहाँ पर pure मारवडी बोली जाती है तो यदि आप चितौड़कर तरह चले जाएं यहाँ पर मैं एक मैप के अंदर बता जा रहा हूं मैं यहाँ पर जैसे आप चितौड़कर के उदर के तरह चले जाएं तो फिर वहाँ पर आप देखेंगे तो वहाँ पर हाड़ोती बाता बोली जाती है तो यहाँ पर आ और यदि आप यहाँ पर थोड़ा सा और आगे चले जाए गंगनगर वगैर तरह चले तो वहाँ पर हरियानवी लैंग्वेज बोली जाती है तो एक स्टेज के अंदर भी आप देखेंगे तो हर एक particular city के अंदर हर एक particular एक zone के अंदर आपके जो language है वो change होते रहे हैं और यदि आप उस language के ऊपर काम करना चाहते हैं तो that उसके पर उस domain के अंदर मुझे expertise होनी चाहिए उस language के अंदर आपका इस काम होना चाहिए उसके बाद आपका यहां पर है आपका बहुत कम सोर्सेस होता है यहां पर और रिसर्च और डेवलप्पेंट बहुत कम रिसर्च हो पाती है क्योंकि यदि आप एक डोमेन के अंदर जाकर काम करेंगे मतलब मैं किसी एक city के अंदर जाकर उसके ऊपर काम करूँगा तो वहाँ पे मुझे बहुत ज़्यादा टाइम लग जाएगा तो बेसिकली ये मेजर चेंजेस है जिसके पर NLP काम करती है कि यदि मैं NLP के पर काम करना start करूँगा तो मुझे क्या आना चाहिए क्योंकि हम basically बात करेंगे हम programming के basis पर ये सारी चीजे बनाने वाले हैं और programming के basis पर ये सारे काम करने वाले हैं तो basically natural language processing के पर जब हम काम करते हैं तो ये बहुत ही popular library है और जिसके अंदर हमारी जो popular library जिसके पर हम काम करने वाला है that is a NLP game and मैं TensorFlow के ऊपर भी आपको थोड़ा बहुत समझाऊंगा यहाँ पर कि कि TensorFlow के दूर आप NLP के ऊपर कैसे काम कर सकते हैं तो basically आपका यह कुछ popular libraries हैं यहाँ पर NLP के लाइब्री यूज होगी जो की Python की लाइब्री है और हम Python के बेसिस पे NLP को समझने वाले हैं NLP क्या होता है?

कैसे काम करती है आज के real world के अंदर? यह सब कुछ जिज़े हमने discuss कर रखी है और यदि आपने यह चीज़े नहीं समझी है तो please पहले last part of your day lecture से समझें कि NLP क्या होती है तभी आप NLP के अंदर आगे बढ़ पाएंगे आगे बढ़ पाएंगे और otherwise बहुत सी major problems आपको देखने मिल जाएगी basically बात करें NLP के बाद में तो natural language processing होती है and then जो भी बोलते हैं या फिर जो भी language के लिए काम करते हैं उसको machine को understanding करवाना होता है और फिर उसके बाद आपको वापस revert back का answer है तो basically यह पूरा काम जो होता है वो NLP के basis पर होता है अब यहां पर यह काम होता कैसे है मतलब क्या pipeline होगी हमारे पास यहां पर कैसे हम start करेंगे NLP के ऊपर काम करना किस यहां पर कहां से हमने डाटा कैदर करना है और फिर डाटा कैदर करने के बाद हमें कहां पर जाना है कौन से तो पहली चीज यही हो गई कि हमें ये जानना जरे पर जरूरी है कि हमें NLP के ऊपर हम काम करने जा रहे हैं तो डेटा कहां से आएगा डेटा आ गया तो फिर डेटा के बाद में उस डेटा के साथ क्या करना है और डेटा के साथ करने के बाद हमें कौन सी algorithms यूज़ करनी है बात करें यहाँ पर तो हम कौन से लाइब्री इस्तेमाल करेंगे और लाइब्री के इस्तेमाल करने के बाद हम यहाँ पर उस लाइब्री के अंदर कैसे वाले हैं NLP के pipeline के बारे में कि NLP के ऊपर काम कैसे शुरू करके कब end करना है इसके बारे में पूरा यदि आपको Python, Machine Learning, Data Science and Data Analysis जैसे फील में अपने आपको grow करना है, इसके लिए WS ScriptX के online and offline बने batch के अंदर जॉइन करके आप अपने skill को improve कर सकते हैं। इसके लिए दिएगा कांटेक्ट नंबर पर कॉल करके आप हमारी टू डाइमो फ्री क्लासेस ले सकते हैं तो अब सुरू करें यहाँ पर NLP के पाइपलाइन के बारे में तो मैं यहाँ पर बताना जाऊँगा NLP के पाइपलाइन के अंदर कि आपको NLP में क्या करना है? तो सबसे पहला जो काम होता है NLP के अंदर वो होता है आपका data collection.

अब data collection कहा कहां से करना है? किस तरह करना है? तो वो हम यहाँ पर समझे कि data collection कहां से करना है? उसके बाद गूगल ओपन करने के बाद यदि आप यहाँ पर कुछ भी लिखते हैं जैसे आ टेल मी अबाउट माइसेल्फ यदि लिखते हैं यहाँ पर त तो बैट ये data यदि मैं लेता हूँ यहाँ पर तो ये machine नहीं समझेगी इस data को क्यों नहीं समझेगी कि इसके अंदर बहुत सारी problems है यहाँ पर क्या problems है वैसे तो ये data के लिए सही है humans के लिए सही है लेकिन as a machine के लिए मैं बात करूँ अब wrong way में कैसे जैसे कि बहुत सी problems आती है यहाँ पर जैसे semicolons वगर हो गए उनको machine को नहीं understanding करना होता है कि semicolons समझो यहाँ पर आपके पास यहाँ पर column को समझो, dot को समझो, punctuation, word होते हैं यहाँ पर percentage वकल sign होते हैं तो ये मसीन को समझाना इतना important नहीं होता है first, grammical के mistakes होती है आपके आप spelling mistakes होती है यहाँ पर तो उन सब को checking जरूर करना होता है तो जब भी आप data collect करोगे, तो data collect करने के बाद data की cleaning होना बहुत ज़रूरी है, मतलब tax की cleaning होना ज़रूरी है, क्योंकि tax की cleaning के अदिया आप नहीं करेंगे, तो आपके आगे जलते बहुत उसके बाद आपके आपस होता है pre-processing का part, pre-processing के अंदर आपके data जो होता है वो filter हो जाता है, और filter होने के बाद आप कभी-कभी vectorization form के अंदर convert कर देता है, या फिर मैं बात करूँ उसे binary form के अंदर convert कर देता है, क्योंकि यदि आप कोई भी algorithm का इस्तेम mathematical equations work करती है अब mathematical equations है यहाँ पा तो वो आपके आज किसके ऊपर काम करती है as a number के ऊपर काम करती है और जब आपको number के ऊपर काम कराना है तो उसके लिए pre-processing होना बहुत ज़रूरी है तो आपके चुप data आता है तो उस data को vector के अंदर convert करना आता है यहां पर डाटा के बात करें तो उसके अंदर आपके आज क्या होता है फीचर इंजिनिंग लगाना जरूरी कुछ ऐसे फीचर होते हैं और कुछ ऐसे चीजें होती हैं जो हमें हटानी होती हैं कुछ आपके लिए important feature होता है कुछ important feature नहीं होता है तो उन सबको भी हमें हटाना होता है जब वहाँ पर आपका इस feature engineering work करती है मतलब data cleaning से related आपका करती है फिर उसके बाद आप क्या करें राइडर बाइस, कॉस्ट विलिडेशन, सब क्या सकता है तो ऐसे भी बहुत सारी चीज़े हैं यहाँ पर उसके बाद आपने मॉडल को डिप्लॉय करना है pre-processing में कैसे method है उन सारी चीज़ों को समझे तो company के अंदर, database के अंदर आपको मिल जाएगा data या फिर किसी server या system के अंदर आपको data मिल जाएगा first ये दो चीज़े ही होती है जब आप किसी company के अंदर काम कर रहे होते है यदि आप company के अंदर काम नहीं कर रहे है तो फिर आपको किसी API से data आपको get करना पड़ता है थोड़ा से ध्यान रखेगा क्योंकि web scrapping जो होती है वो illegal होती है कि वो क्या काम करती है किस तरह से हम यहाँ पर किसी भी website के पर scrap कर सकते है तो वहाँ से भी आप data ऐसे gather कर सकते है या फिर यह सब कुछ काम नहीं होता है तो आपके आज main last 50 survey yes आप survey करें यहाँ पर survey करने के लिए आप यहाँ पर अलग लोगों से मिलें उनसे समझें, क्या language है, क्या data है, उनसे कलक करें यहाँ पा तो यह बहुत से data equatitions के बहुत से process होता है जाके data equatitions कर सकते है and next बात करें यहाँ पा है text preprocessing नेचुरल लैंग्वेज प्रोसेसिंग का एक बहुत इंपोर्टेंट बात होता है अब टैक्स प्रोसेसिंग के अंदर बात करें तो देखिए टैक्स की क्लीनिंग होती है अब emojis को आपको समझाना नहीं होता machine को emojis के unique code अलग चला होता है तो वो unique code आपको changes करने होता है तो उसके बाद spelling checkers हो गया है यहाँ पर HTML यदि आप किसी website से scrap कर रहे हैं data तो उसके आदमान प्री-प्रोसेसिंग के अंदर आपके आप तो यह पूरा क्या है टेक्स प्री प्रोसेसिंग का काम ह अब उसके बाद आती है feature engineering, feature engineering में general जैसे की पहले आपको बोला था कि आपका जो textual data है यहाँ पर उस textual data को हमें convert करना होता है किस के अंदर binary formation के अंदर, तो अलग numbers के अंदर convert करना होता है उसके अंदर हमने बहुत ही अच्छे तरीके समझ लेता है कि encoding क्या होती है और कैसे perform की जाती है तो encoding हो गया, back to word हो गया, n-grams हो गया आपका आज यह सारे processor होते हैं जो feature engineering के part होते हैं यहाँ पर, जो features के ऊपर काम करते हैं आपका आज तो आपके textual date आपके आस आ गया है उसके ऊपर ये perform कर जाता है तो next बात करें अब आगे हमारा model building के ऊपर अब model building के अंदर बात करें तो model building आपके आस अलग तरीके से होती है सबसे पहली आपके जो आती है जिसको आज के टाइम के लिए यूज नहीं किया जाता है तो यह चिक अप्रोच इसके अंदर क्या होता है आप खुद मैनुअली कलेक्ट करते हैं मैनुअली सब कुछ काम करते हैं मतलब बेसिक्स आप प्रोग्रामिंग करते हैं बेसिक्स आप खुद की प्रोग्रामिंग करते हैं आपके आज कोई तो ऐसे बहुत से language है अब उसके बाद यदि आप यहाँ पर libraries का इस्तेमाल करते हैं तो machine learning का इस्तेमाल कर सकते हैं इसके बाद यस data tree processing के अंदर आप machine learning का इस्तेमाल कर सकते हैं machine learning algorithm का इस्तेमाल कर सकते हैं और machine learning से ज्यादा आजकर time के बाद जो popular है that is a deep learning तो आप deep learning के ऊपर भी काम कर सकते हैं यह सब्सक्राइब कर सकते हैं अब बिल्डिंग कैसे करना है अ तो इनके अलग वीडियो बन चुके है, machine learning के एक अलग playlist है, deep learning के अलग playlist है और deep learning के part ही हम natural language processing को हम discuss करें तो ये इनकी अलग techniques है जिनका आप इसकमाल कर सकते है अब next आगे है यहाँ पर model का evaluation तो इसमें दो तरह के विविलेशन होता है, पहले आपका इंटेसिक विविलेशन है, और दूसरा आपका एक्स्ट्रेंसिक विविलेशन है इंटेस्टिक एविलेशन्स के अधिकता है कि जैसे आप मसीन लेंडिंग का इस्तेमाल कर रहे हैं और मसीन लेंडिंग के अधिकता है कि आप एक अच्छी अलगोधम का इस्तेमाल कर रहे हैं तो उसके अधिक तरीके के लॉस फ्रंक्शन्स होते हैं खुद चेक करता है उस चीजों को अब आपने एक बार मसीन बिल्ड कर दी अब मैं यहाँ पर बार-बार-बार-बार उसकी टेस्टिंग यहां पर मॉडल बिल्डिंग करके यहां पर काम किया है यहां पर अब मैं खुद ही उसके बार टेस्टिंग कराओ विजन क्या है यहां पर तो आपके आप यहां पर क्या होता है कि जब आप मसीन को त्राय करता है तो उसके बाद कुछ प्रैक्टर जरूरी होती वुमिन्स के अंदर brain है बहुत अच्छा जिसके ऊपर वो काम करता है और that's आपके आज यहाँ पर खुद की आपके आज techniques चेक करने के लिए तो model जब भी आप बन जाये तो model के अंदर आप यहाँ पर दो तरह के आपके evaluations लगाने होता है तो model के evaluations आपके लिए बहुत जरूरी होती है तो basic by बात करूँ यदि आपको कभी भी आपके एस NLP के पर काम करना है डेटा एक्वेटेशन वेकरा बहुत की कर सकते हैं, डेप्लॉयमेंट की बात करें यहाँ पर, तो डेप्लॉयमेंट के अंदर क्या होगा, कि आप यह जो मॉडल बना दिया है, अब इसको वेबसाइट के ऊपर डेप्लॉय कर सकते हैं, एप्लिकेशन के ऊप वाइट यह टेक्ट लैंग्वेज और टेक्स लैंग्वेज में बात करें तो इंग्लिस एक लैंग्वेज नहीं है इसके अलावा भी बहुत सारी डिफरेंट लैंग्वेज हैं तो उनके पर भी हमें काम करना ह तो sentence के लिए बहुत सी चीज़ें होती हैं जिनको हमें समझना बहुत चारा चारूर होता है जस्ट पहले एक सेंटेंस लेंगे और सेंटेंस के बारे में हम आगे चलते वे डिस्कस करेंगे तो चलिए मैं एक सेंटेंस उठा लेता हू ठीक है तो मैंने वाट एज एनल पी नैचुल एंग्वेज पर सिंह और यह हम कहां से उठा रहे हैं विकीबीडिया उठा है तो मैंने विकीबीडिया से उठा है वाट एज एनल पी तो यह पी के बारे में कुछ यहां पर इंपोर्टमेंट जाता है द एनलपी इस द सब्सक्राइब और यहां तक उठा लेता हूं और कॉपी करता हूं और कॉपी करने के बाद अब हम यहां पर हमारे अंदर समझते हैं कि इसके अंदर क्या चीज इस तरह ठीक है तो जस्ट कर देते हैं यहां पर चलिए तो अब हम बात करेंगे कि भी टेक्शनल डेटर के अंदर क्या-क्या चीजें इस्तेमाल हो रही है क्या-क्या काम हो रही है यहां पर सबसे पहले होता है hierarchy of text, hierarchy of text का मतलब यहाँ पर यह होता है कि आपके text के अंदर कितने number of यहाँ पर words का इस्तेमाल किया गया है यहाँ पर, ठीक है, और कितने number of यहाँ पर alphabets का इस्तेमाल किया है, क्योंकि आगे चलते हुए words के उपर भी हमें काम करना परता है और alphabets जब हम words के पर काम करते हैं, तो tokenizing काम होता है यहाँ पर और जब हम alphabets के पर काम करते हैं, तो n-grams काम होता है यह n-grams का जो आगे चलते हुए आप वीडियो देखेंगे तो वहाँ पर आपको समझ मिलेगा ताकि आप उनको एक number format के अंदर convert कर सकें तो tokenize भी एक बहुत important चीज होती है उसके बाद आपके words के अंदर किसी vocabulary का इस्तमाल किया है vocabulary मतलब in the sense मतलब कि उसके नाउन कितनी है, pronoun कितनी है, आपका साइडजब कितनी है यहाँ पर, ऐसी बहुत सी चीज़े होती है उसके बाद आता है punctuation उसका parts of speech और उसके बाद आपके यहाँ पर root words, base words and stop words आता है चले इनको one by one सबस्तेज यहाँ पर कि क्या है सबसे वाले hierarchy of data set की बात करो तो यह हमारे पास एक बहुत बड़ा string लिया बना NLP के बारे में that is a natural language processing, language processing पूरा आया है is a subfield आपका आया है that's logistic, computer science आपका आया है and artificial intelligence is connected लेकिन देखिए natural और natural and language जो आपके आए है that is a two times है तो इसकी counting क्या रहेगी आपके आए है यदि मैं count की बात करूँ तो counting इनकी one time रहेगी क्यों रहेगी क्योंकि ये दोनो words जो है वो बार repeat हुए तो आपके आप ऐसे text के अंदर बहुत से ऐसे words होता है जिनक तो यहां पर टोकनाइज की बात करें तो टोकनाइज के लिए आपके जो वर्ड है उनको हम करते हैं अलग-अलग करते तो उस वक्त हम sentence की pre-processing कभी भी नहीं कर सकते pre-processing मतलब इसको numbers के अंदर convert नहीं कर सकते word को यहाँ पर cutting का नहीं पड़ते है word को separation करना पड़ता है और उस word के separation के उपर हमें आगे further काम करना पड़ता है आप directly कभी भी यहाँ पर simple way के अंदर काम नहीं कर सकते हैं, इसके लिए हमें tokenize का इस्तेमाल करता है, और tokenize आपके आज दो तरीकी के होता है यहाँ पर, वो आपके depend करता है कि किस चीज का कभी इस्तेमाल कर रहा है, that is the first is यहाँ पर sentence tokenizing होता है यहाँ पर दर्स नहीं लगाए जैसे मान लीजिए यहाँ कहीं लगाएगा तो यह जहाँ फुल स्टॉप होगा वहाँ से वो सेंटेंस को ब्रेक करेगा और आपको यहाँ पर सोक करेगा आपका वोकबलरी के अंदर आता है, वोकबलरी के अंदर आपका आता है कि कौन से वर्ड कितने यूनिक आए हैं यहाँ पर उनकी काउंटिंग करना और कौन से ऐसे वर्ड से जिनको बार रिपीटिशन किया गया यहाँ पर, वो वर्ड चीज़ तो इस article के अंदर आपके आज comma कितने हैं जैसे कि ये number of commas की बात करें ये number of comma कितने हैं full stop कितने हैं ये सारे क्या करते हैं punctuation करते हैं अब punctuation के अंदर बहुत सी चीज़ आती है question mark लगा होता है इस तरह के sign लगे होते हैं यहाँ पर यदि मैं बात करूँ semicolon होता है colon होता है आपके आज comma होता है inverted comma आपके आज होते है तरसे बहुत सारी चीज़े होती है जो punctuation का part होती है तो उन सारे punctuation को भी हमें हटाना पड़ता है पार्ट्स ओफ स्पीच का बात हूं कि आपके आज कौन सा वर्ड जो इस्तेमाल किया गया है वह क्या है वह एड्रेप्टिव है आपके पास यहां पर नाउन है प्रोनाउन है क्या चीज है उसके बारे में पूरी इंफॉर्मेशन दिता है और sentence token adjacent के बारे में discuss करके तो आप यहाँ पर dedicated video को देख लीजिए का आगे आने वाला time ज़ंदा वोकबिलरी के अंदर बात करें तो वोकबिलरी के अंदर counting की बात की है तो आप counting का basis इस्तेमाल कर सकते हैं आपको यदि python आती है वो आपको simply clear हो जाएगी अब next चीज़ है punctuation punctuation के लिए भी हमने dedicated video बना रखे है जहाँ पे हमने word आपके बाद जो stimming होती है उसके अंदर हमने बताया है यहाँ पे कि आप punctuation को कैसे आटा सकते है यहाँ पे उनके अंदर से कैसे-कैसे कौन से जो word है वो क्या है मतलब object है, noun है, pronoun है इन सब चीजों के बारे में कैसे बता रहा है वह भी हम देख लेंगे उसके बाद है रूट्स ऑफ वर्ड आपके यह चैनल में आपको प्लेट तो प्लेट आपके थर्ड फॉर्म या फिर आपके थर्� प्ल ए बी रह जाएगा आपका यहां पर वाय भी आपका इसने अट जाएगा यहां पर काफी अतक ऐसे केसे हो जाता है लेकिन लेकिन बात करें बेस वर्ड के पर तो बेस वर्ड के अंदर क्या होता है कि आपका जो उसका ऑरिजिनल वर्ड से आपका यहां पर उसके बारे में आपको दिखाया जाता है तो यह आपका जाता है स्टॉप वर्ड वह वर्ड ह तो इस sentence के अंदर ए जो है that is a stop word इसका कोई हमें जरूरत नहीं है यहाँ पा that is आपके आज बात करेंगे comma, semicolon यह हमारे पास इसकी कोई जरूरत नहीं है यहाँ पा यदि मैं आगे further study के लिए चलू तो वहाँ पे कोई important rule नहीं करगा यहाँ पा ऐसे बहुत से word है जैसे how हो गया तो ऐसे stop words की पूरी list होती है जिसके अंदर से आप क्या कर सकते हैं वो popular stop words आप पूरे हटा सकते हैं जो आपके impact नहीं करते हैं आगे चलते हुए ठीक है जब भी आप यहाँ पर natural language processing के थूँ आप कोई भी command वर्गर देते हैं तो उस वक्त क्या होता है कि आपका उस में से कुछ particular word को ही searching करके आगे command में लिया जाता है properly पूरा commands नहीं लिया जाता है तो फिर उस cases के अंदर फिर आपको stop words को use करना वाता है तो stop words के एक dedicated video आपको मिल जाएगी यहाँ पर जहाँ पर stop words कैसे remove किया जाते हैं अब हम बात करते हैं parts of speech के बारे में कि parts of speech हमें कैसे अटानी है तो चलिए मैं इसको practical implementation पर ले जाता हूँ parts of speech के बारे में समझाएं इस डाटा सेट को लूंगा वेटसेट मैं यहां पर एक वर्लबल बनाऊंगा और इसके अंदर यह डाटा पेस्ट तो यह हमारा आ गया डाटा रन करते हैं अब जब हम पार्ट्स ऑफ स्पीस का इस्तेमाल करें तो उससे पहले मुझे पहले तो वर्ड जो है वह टोकनाइज होना चाहिए और उसके बाद हम बात करें तो आपके आज जो यहां पर स्टॉप वर्ड है यह उनको आपके आप स्तेमाल करूंगा एनरेटी की जो लाइब्री है यहां पर उसको और उसके अंदर हमारे पास क्या टोकनाइज का है यहां पर जैसे मैं टोकनाइज करूंगा इसे ओके तो मैं टोकनाइज का स्तेमाल करा हूं जिसे हम यहां पर क्या चाहिए यहां पर इंपोर्ट करूंगा और इंपोर्ट करूंगा यहां पर वर्ड टोकनाइज को करूंगा वर्ड टोकनाइज किया और डब्लो और आपके जो words है वो कैसे अलग-अलग हो रहे हैं, right, तो ये हमारे words जो है वो अलग-अलग हो चुके हैं, अब हम बात करेंगे यहाँ पे parts of speech के बारे में, कि parts of speech कैसे काम करेगा, तो फिर parts of speech के लिए मैं करता हूँ, row add करता हूँ, और मैं इस बाद फ और इसके अंदर जाकर पार्ट्स ऑफ स्पीच टेक्स का इस्तेमाल करूंगा यहां पर और जैसे आप इसे ओपन करेंगे तो यह आपको क्यों मिलेगी क्योंकि काफी जो लाइब्रीज होती है वो आपके आस उसी वक्त आपको इस्तेमाल करने होती ह पास ऑफ टैक यहां पर हो चुका है यहां पर अब मुझे क्या करना है यहां पर कि यह जो मैं पास ऑफ स्पीज हुआ है इसको प्रेंट करना है तो इसकी पूरी जीजे का इसको जरा समझने पर इसकी पूरी लिस्ट है और जीजे का मतलब है एडजेक्टिव यस नैचुरल जो है आपका इसका है वो एडजेक्टिव है चलिए आगे बात करते हैं यहाँ पर यस आगे की बात करते हैं यहाँ पर कि तो चलिए मैं एनन को दिखाता हूं एनन क्या चीज है तो इसके अंदर देखिए पूरी लिस्ट है एनन मतलब नाउन है सिंगुलर है और क्या है मैस है मतलब एनन का मतलब क्या है यह नाउन है आपका से यहाँ पर उसके बाद नेक्स्ट क्या है नाउन है यहाँ पर देश यहां पर सिंग्लर है मतलब प्रॉपर नाउन का इस्तेमाल करें एलपी को तो सेलिफिकेट नाउन है आपका इस पॉपर नाउन नहीं है देख ऑनलीफिक नाउन है लाइट अब यह ज्यादा सबस्क्राइब यहां पर हमसे इसके अ तो डीटी को सर्च करते हैं यहाँ पर तो डीटी इस ए डिटेमिनेट ठीक है डिटेमिनेट का मतलब कि यहाँ पर यह आपको सिर्फ सो करने के लिए काम आता है और off के बारे में इसने in बता है तो in का मतलब है propositions on the subrotation conjunction propositions का इस्तेमाल है इस तरह से यहाँ पर आपके जितने भी words है उन सारे words का इन्होंने क्या किया है पूरा पार्ट्स ओफ स्पीच के जरिए यहाँ पर सारी चीज बता दिया कि कौन सी चीज क्या है जैसे सब्विल्ड क्या है, आपके कंप्यूटर क्या है, नाउन है, साइंस क्या है, एक नाउन है यहाँ पर artificial क्या है यहाँ पर adjective है intelligence क्या है noun है concrete क्या है यहाँ पर verbs है यहाँ पर that is a parts of speech इसका आप इस्तेमाल आगे जलते हुए करते हैं और कब जो है आपका noun इस्तेमाल हो रहा है तो काफी अर्थक हमारी जो इंग्लिश होती है वेल नोन आपकी इंग्लिश अच्छी होगी यहां पर जिससे आप अच्छे तरीके प्रदर्श सकते हैं लेकिन काफी बार हमारी इंग्लिश होती है और जो opening YouTube.

Okay, that's night cool feature. Okay, Google, will you marry me? This is one of those things we both have to agree on.

We prefer to keep our relationship friendly. Okay, what is your name, Google? My name is the Google Assistant.

I like to think of it as a cool nickname. You look like you need a nickname too. Should I give you one? Yes Fantastic, I'll only use it this one time I hope you remember it But first, I have to ask Do you want a fancy or short nickname?

My name is Gaurav You'd like me to call you by the name Gaurav Is that right? Yes Sure, I'll call you Gaurav from now on Okay What is my name? Your name is Gaurav.

Okay, that's... ये एक बहुती cooling feature है, जिससे मैं अपने Google Assistant से बात कर सकता हूँ. आप सभी के phone के अंदर भी ऐसा ही कुछ आपके आज feature होता है. और ये feature होता किस वज़से है? ये feature के बारे में हमने जाना कि ये NLP की जरिये होता है NLP मतलब Natural Language Processing के जरिये एक काम में लिया जाता है Natural Language Processing के अंदर आपकी जो voice है वो voice मतलब एक sentence की बात कर ले जाए यहाँ पर या text की बात कर ले जाए उस text को आपके पास machine को समझाती है और उसके उपर work करती है अब ये work कैसे होता है तो इसके बारे में हम पहले जान चुके हैं कि इस working की क्या pipeline है आज के इस complete video के जरिये हम यहाँ पर समझने वाले हैं कि जो यह हम text बोलते हैं वो machine कैसे understanding करती है क्योंकि हमारे text के अंदर बहुत सारी mistakes होती है जैसे मैंने इससे बात कर रहा था तब यहाँ पर बहुत सी ऐसी सी तो अब उसको कैसे understanding बनाना है, कैसे उसे यहाँ पर सही coolest features देना है, मतलब हम जो यहाँ पर sentence देते हैं, उस sentence को कैसे यहाँ पर prepare करना है, आज के इस complete video के बारे में जानेंगे.

तो आज के इस वीडियो के अंदर हम बात करने वाले हैं test pre-processing के बारे में कि आपके पास जब भी कोई आपके आस test होता है जो कि आप किसी voice assistant को या फिर machine को देना चाते हैं जिससे वो समझे तो उससे पहले उस text की pre-processing होती है अब ये text की pre-processing कैसे होती है, क्या techniques है, किन-किन चीजों को हमें ध्यान में रखना चाहिए, उन सारे चीजों के बारे में जानते हैं। यदि आपको Python, Machine Learning, Data Science and Data Analysis इसी फील में अपने आपको grow करना है, इसके लिए WS Scriptak के online and offline बने batch करना जॉइन करके, आप अपने skill को improve कर सकते हैं, आप अमारी two demo free classes ले सकते हैं, तो सबसे बड़े मैं यदि आप से पूछूं कि tell me about yourself तो आप क्या बोलेंगे I am a person who is the positive about every expect of my life वगरा बहुत सी things आप यहां पच्चे बोलेंगे यदि आप voice assistant के बारे में भी बात करें तो उसके अंदर भी ऐसी बहुत सी चीजे लिखी भी आती है लेकिन मैंने आपसे क्या पूचा tell me about yourself या फिर मैंने आपकी आपसे पूचा कि आ तो इस sentence के अंदर बहुत सारी mistakes है या फिर मैं बात करूँ ये sentence English perspectives के अंदर या फिर language perspectives के अंदर बात कर जाए तो ये बहुत ही correct sentence लिखावा है बट जब मैं बात करना चाहूँगा machine के बारे में तो machine इस sentence को properly understanding नहीं कर पाता है क्योंकि machine का working system होता है क्योंकि machine आपके पास artificial neuron network पे काम करती है तो वहाँ पे जो आपके पास input terms होती है वो आपके पास एक numerical numbers के अंदर होती है तो basically हमें यहाँ पर बहुत से चीजों को modify करना परता है, मतलब हमारे पार जो sentence है या फिर हमारे पार जो text दिखा है, उसको pre-processing करना परता है, अब pre-processing के अंदर हम क्या करते हैं, just like यह जो comma लगा है, इसे हमें हटाना परता है, और इसके बाद मैं देखी यहाँ comma है ओके, मेरा Google यहाँ पर ready हो चुका है वापस फिर से, तो यह जो sentence हम बोल रहे हैं यहाँ पर, इस sentence के अंदर भी बहुत सारी अलग-अलग तरीकी की mistakes होती है, जो कि आपके पास यहाँ पर उस mistakes को हम यहाँ पर machine को नहीं दे सकते, तो फिर उस cases क आपके पास यदि आपका sentence आ रहा है या आपका या कोई text आ रहा है वो text आपके पास properly सही तरीके से ही नहीं है सही तरीके से नहीं है जैसे कि मैं यदि URL हूँ किसी भी आपके पास website का URL की बात करूँ तो उस URL के cases के अंदर आप देखेंगे तो आगे HTTP आता है, that उसका double slash आता है, फिर उसके बाद आपके आज के यहाँ पर URL आता है, मतलब जो भी आपकी website का नाम है वो आता है www. करते हुए, फिर उसके बाद कहीं आता है, तो अब उस sentence के अंदर मुझे HTTP से कोई म मेरा जो URL कहाएगा वो www. आगे जो भी जैसे www.wsqpac.com कहाएगा तो वो मेरा actual URL कहाएगा HTTP जो है server उससे हमें कोई लिए नहीं है देट्स उस cases के अंदर भी मुझे कहाएगा बढ़ता है हमारे text की pre-processing करनी बढ़ती है तो basic बात करें तो हमारे पास दो cases हैं पहले cases के अंदर यदि हमारा taxi पूरा रभीश है तो उसको हमें सही करना है second cases के अंदर क्या होता है कि जब भी आप कोई assistant तरहार करें या फिर मैं यहाँ पर आपके पास translator बनाने की कोशिश कर रहा हूँ, तो फिर उस cases के अंदर मुझे यहाँ पर हमारे sentence हैं, उनको यहाँ पर अलग तरीके से pre-processing करनी बढ़ती है, तो यहाँ पर मैंने वो ही दो category में बाटा है, पहली बट हम उसके अंदर क्या करना चाहे है कुछ और modify करना चाहे है ताकि हमारी machine समझे अब इसके अंदर कौन-कौन से cases आता है तो सबसे पहले आता है lower cases HTML text यदि आपको हटाना है, URLs हटाना है, punctuation हटाना है, chat word treatment करना है या spelling corrections करना है, then next यदि हमारे पास, यदि sentence पूरा सही है, तो उसके अंदर आपके tokenizer आता है, tokenizer in the sense मतलब word को अलग-अलग करना that stop word removal आता है, जैसे की dots वो गया हो गया है, semicolons वो गया हो गया है, इनको हटाना engrams आता है, stemming आता है, word sentence, text message आता है आपके आज counting vectorizations आता है, laminations आता है FTID Vectorization होता है और Health Vectorization होता है तो यह सारे techniques आती हैं जिनस की health से आप text की pre-processing कर सकते हैं अब आगे आने वीडियो के अंदर हम यह जितनी भी techniques है इन techniques को one by one discuss करेंगे और समझेंगे कि ये techniques किस तरीके से काम करती है तो फिलाल आज के वीडियो के लिए हमने ये समझा कि हमारे पास जो assistant आपके आस use दिया जा रहा है उस assistant के अंदर जो हमारी voice जा रही है उस voice को कैसे clarify करके हमें use करना पड़ता है अब आप चाहे खुद का voice assistant बनाए या Google का use करें या फिर Alexa को use करें तो उस सभी के अंदर इन सारी techniques को इस्तेमाल किया जा रहा है NLP को जब भी आप start कर रहे हैं उस वक्त आपको sentence की pre-processing करनी होती है sentence pre-processing के लिए हमने बहुत सारे step text शीखे हैं यहाँ पर लेकिन आज की इस video की जरिए जो हम techniques शीखने वाले हैं that is a tokenizer yes आप हम क्या करने वाले है sentence pre-processing का इस्तेमाल करेंगे और इसके अंदर tokenizer का इस्तेमाल करेंगे तो पहले यह जानेंगे कि tokenizer होता क्या है कैसे काम में ले जाता है और कहां पे हम एक काम लेना है इसके बारे में हम डेटेवी के साथ देखने वाले है तो देखें मैं tokenizer की बात करूँ यहाँ पर तो tokenizer क्या होता है कि आपके आस कोई भी एक sentence लिखा होता है उस paragraph को multiple small sentence के अंदर यह आपको convert करना होता है तो आप tokenizer का इस्तमाल करते हैं या फिर आपके complete sentence दे रखा है और sentence के अंदर हर किसी word को आपको differentiate करना है तो आप tokenizer का इस्तेमाल करते हैं कि इस टॉप वर्ड का ताय कैसे रिमोग करता है तो फिर अब भी की वीडियो के अंदर बस हम यह दिख रहे हैं कि टोकनाइज कैसी किया जाता है किसी वर्ड को या फिर सेंटेंस को किसी को भी आपको टोकनाइज करना है जैसा आपको टोकनाइज कर सकते हैं अब टोकनाइज करना क्यों है नीजन क्या है वाइट डेट्स टोकनाइज करना देखिए जब भी आप इसी भी डाटा को जब भी आप किसी डाटा को आप किसी एलगोथम के अंदर या फिर नेटो के अंदर देते हैं तो उस वक्त आपका डाटा किस फॉर्म होता है नुमेरिकल फॉर्मेट करने देता है आपका textual data, आपकी जो machine है, वो नहीं समझ पाती है, तो जब आप यहाँ पर उसे अपना textual data की जगह numerical data देते हैं, तो numerical भी आपके आस किसी ने किसी particular word से मिलकर बना होता है, अब यदि आप पूरा paragraph को use करके, आप यहाँ पर उसको numerical word के निदर convert करेंगे, तो that is a very big task इसकी comparison में हम क्या करते हैं कि जो भी हमारा sentence है break करते हैं, break करने के बाद जो उसके निदर unuseful चीज़े हैं जैसे percentage हो गया, dot हो गया, semicolon हो गया या फिर ऐसे बहुत से words होते हैं जिनको हमें हटाना पड़ता है लेकिन हटाने के लिए भी हमारे पास जो आपका sentence या paragraph है उन्हें break करना पड़ता है क्योंकि break करें बिना आप उसमें से वो sentence या वो जो words है उनको नहीं हाटा सकते तो basically tokenize आपके आज क्या है एक basic step है जिसके help से आप क्या करते हैं अपने जो भी word है या जो भी sentence हैं उसमें से उसे break करके तो यह first step है जब हम टोकनाइस का इस्तेमाल करते हैं अब टोकनाइस कितने टाइप्स की होती है तो टोकनाइस आपकी दो टाइप्स की होती है आपका sentence टोकनाइज तो आप यहां पर sentence टोकनाइज का इस्तेमाल कर सकते हैं और यदि आप चाहते हैं कि नहीं मुझे यहां पर क्या करना है और छोड़ी-छोड़ी वर्ड के अंदर करना है जैसे ओ ऑफ द इन सब को अलग-अलग करना है डाइट इस वर्ड टोकनाइज जिसके थूँ आप क्या कर सकते हैं वर्ड की टोकनाइज कर सकते हैं आज के लेक्चर के लिए हम दोनों को समझेंगे कि सेंटेंस टोकनाइज कैसे प्रफॉर्म करना है और वर्ड टोकनाइ� आपको पाइथन सर्च करना है अगर टेकिन पाइथन सर्च करेंगे तो आपको एनलटी के मिल जाएगी और इसके अंदर आपको requirement अलड़ी सेटिस्वा दिखा रही है नहीं तो यह क्या है बहुत बड़ी लाइवी है जिसके थूँ आप यहां पर जितने भी performance होने वाले हैं आगे आने वाले जितने भी हमारे पास यहां पर जो text के साथ pre-processing होने वाली है वो साभी चीजे आप इसके basis पर कर सकते हैं ले जिसके पर हम यह पूरा प्रोसेस बनने वाला है कि टोकन एजर कैसे काम करने वाला राइट अब मुझे तो फिराल मैं sentence यहाँ पर देखें, natural language processing का जो article लिखा है यहाँ पर, Wikipedia के उपर, इसमें से लूँगा मैं यहाँ पर, और तो मैं चाहता हूँ कि इसको tokenize कर दिया ये proper way के अंदर तो पहले तो मुझे sentence की जरूरत पड़ेगी तो मैं एक काम करता हूँ variable बनाता हूँ यहाँ पर और where नाम से एक variable बना रहा हूँ और जिसके अंदर ये जितना भी textual data मैंने लिया है तो यह semi column इसमें से हटा लेता हूँ ताकि यह जो textual data थोड़ा बहुत तो यहाँ पर सही form इसमें ले that यह मेरे पास यहाँ पर एक पूरा sentence यहाँ पर आ चुका है इसके अंदर बहुत सारे sentence है, बहुत सारे stop words लगे हुए हैं यहाँ पर और बहुत सारे full stop भी लगे हैं तो अब हम यहाँ पर देखेंगे कि हम इसे tokenize कैसे कर सकते हैं तो फिलाल यह where नाम के variable के अंदर हमारा पूरा sentence आ चुका है लाइट तो इसको आप यहां पर देख सकते हैं जिसको आपको देखना है तो देख सकते हैं तो यह पूरा आपका चुका अब हमारा काम क्या है हमें सबसे पहले यहां पर संबंध और उसके बाद हमें word tokenizer का समझना हो तो आप क्या करें from की hell से एनल्टी के जो लाइवरी है यहाँ पर उसे क्या करें इंपोर्ट करें डेट उसके बाद में इसके अंदर क्या होता है आपके टोकन नाइज तो नाम से आपके बाद यहां पर क्या है आपका से जिसके अंदर आपके बहुत सारे फंक्शंस है जिनका आप first and foremost मुझे यहाँ पर word tokenize करना है that word tokenize और उसके बाद मुझे sentence tokenize भी करना है यह रन करेंगे तो यह दोनों आपके सिस्टम आप चुके हैं तो पहले आप मुझे करना है सेंटेंस टोकनाइज करना अब सेंटेंस टोकनाइज करने के लिए मैं यहां पर सेंट नाम से एक वर्यवर्ड बनाओगा जो कि इस क्लास को आपके आज आपके अजय को चुके होंगे full stop के basis पर अब इसके अंदर कितने full stop से पहले वो हम तो दो full stops यहाँ पर लगेवे हैं लेकिन हम चाहते हैं कि इसके दाए बहुत ज़्यादा full stop हो जाए तो मैं काम करता हूँ इसके दाए मैं खुद self यहाँ पर full stop बना लेता हूँ वैसे यह sentence थोड़ा सा बिगड़ जाएगा लेकिन हम क्या करेंगे यहां पर इसको ब्रेक कर देंगे जस्ट लाइक मैं यहां से क्या करता हूं एंड एक कम करते तो फुल स्टॉप लगा दिया या पर ओके मैं और कहीं फुल स्टॉप लगाने की सोच रहा हूं यहां पर ताकि यह थोड़ा सा अच्छा जाता है गया है, ओके तो मैंने दो full stops और लगाती है यहाँ पर और यदि मैं यहाँ पर run करूँ तो देखिए इसके अंदर और full stops आपको नहीं देनी है तो send tokenize क्या करेगा जहाँ जाँ full stops आपके पास आ रहे हैं वहाँ से आपके sentence उसे break करेगा और ब्रेक करके छोटे आपके यहाँ पर texture का sentence असुने convert कर देगा चलिए तो मैं sent tokenize को यहाँ पर call करता हूँ और sent tokenize के अंदर जाके मैं यह जो var नाम का variable ऐसे paste कर देगा देखिए यह पूरा आपका स्टेक्टर के अंदर आपका ब्रिक हो जाएगा कैसे देखिए फर्स्ट एम फॉल यह आपका यहां से लगाकर पर प्रेटेक्शन पर गया था तो यहां पर इसको ब्रेक किया था गूल से गया है और थर्ड पूर्ट इज यहां पर यह अपक्रेस हो चुका इस तरह से तो आपका चार अलग डेटा लाइन है आज कि यह और यदि आप इसको परफेक्टली देखना चाहते हैं तो मैं काम करता हूं इसको फूल लुट के तरू चला आपको दिखाता हूं कि कौन-कौन द आपके आगे ब्रेक लगा था इसके अंदर आप देखेंगे तो द के आगे यस द के आगे ब्रेक है डेट उसके बाद में नेक्स्ट आपके फिर इसके अगर आपका इस कॉलन भी गैस यह आपका इस कॉमा है यह भी आपका इस कॉलन भी एंड डॉट भी यह सब टोकनाइज पूरा वर्ड है वो पूरा का पूरा tokenize हो जाता है यहाँ पर एक वर्ड हो जाता है वर्ड के अंदर आपका सारी चीज़ा आती है तो आप यहाँ पर word tokenize का इस्तेमाल कर सकते हैं तो इसके लिए भी मुझे एक variable बनाना पड़ाएगा जो क यह डाटा होल्डिंग वेरिबल है यहाँ पर इस चीज का तयार लगेगा यहाँ पर और अब मुझे क्या देना है कौन सा डाटा देना है तो डाटा जो आपका देखिए नैचुल अलग हो जाएगा, लैंग्वेज अलग हो गया, प्रोसेसिंग अलग हो गया, आपका जाएगा ये ब्रैकेट्स, NLP अलग हो गया, देर पैकेट फिल, इस सब, टाइटव फिल, देन सैमी कॉलम, जैसा कि मैंने आ तो tokenize के अंदर हमने दो चीज़े देखी हैं यहाँ पर पहले जो tokenize के अंदर देखी है that is sentence tokenize जिसके अंदर हमने sentence को break किया and second is word tokenize जिसके अंदर हमने क्या किया जो word होते हैं हमारे उनको हमने tokenize किया तो बेसिकली टोकनाइज का इस्तेमाल आपके आज बेसिक्स मतलब मैं इसको बात करूँ तो यह फर्स्ट स्टेप से आपके आज किसी भी आपके आज से टैक्सिव प्रोसेसिंग की बात करें यहां पर NLP की बात करे देखिए जब भी आप यहाँ पर NLP के अंदर Tax-Free Processing के पर काम कर रहे हैं तो Tax-Free Processing के अंदर जो First Step होता है, that is a Tokenizer तो फिर सेकंड स्टेप के हम बात करें तो Stopword Removal होता है Stopword Removal आपके लिए बहुत जगह पर काम में ले जाता है तो basically मैं बात करना चाहूँ stop word removal करता क्या है stop word removal आपके जो भी आपके stop words होते हैं dot हो गया, comma हो गया ऐसे बहुत सारे stop words आपके पूरे sentence के अंदर लगे होते हैं जो कि sentence की meaning को एक factor नहीं करते हैं यहाँ पर that's वो हम रखते हैं बस उसको sentence के अंदर रखते हैं ताकि उससे sentence का थोड़ा अच्छा रहता है जैसे English language के अंदर बात करें तो English language के अंदर उसका pronunciation के basis पर काम में लिया जाता है that's आप उनका इस्तमाल करते हैं जिसमें prepositions हो गया, articles हो गया, pronouns हो गया लेकिन जब आप इन्हें actual language के अंदर बात करेंगे ही ना तो actual language के अंदर उनका कोई role नहीं होता जैसे मैं बात कर रहा हूँ कि I am a boy I am a boy मतलब मैं एक लड़का हूँ तो यहाँ पे जो अ है ना यहाँ पर वो अ कोई एक significant meaning नहीं लिखा रहा I am boy लिखूँगा मतलब मैं लड़का हूँ that is a वो ही meaning निकलेगा और I am a boy मैं एक लड़का हूँ ये भी वो ही meaning निकलेगा मतलब जो sentence बोला जा रहा है वो उसी particular तो यहाँ पे जो अ है वो अ एक इतना factor नहीं डाल रहा है आपके sentence के उपर तो देखिए जब भी हम natural language processing के पर बात करते हैं, natural language processing के पर work करते हैं, तब आपके आज ऐसे बहुत से words होता है, right, और जब भी हम यहाँ पर इस data को, आपके आज machine को देते हैं, machine को देने का मतलब क्या हो गया, आप कोई भी algorithms को आपके यहाँ पर देते हैं, तो तो वहाँ पर ही जो full stop है वह एक effective meaning नहीं डालता है यहाँ पर right I am a boy से ही मेरा काम चल जा रहा है और I am a में भी काम नहीं चला जैसे the sunrise okay the sunrise in east या ऐसा कुछ sentence बोला जाता है तो सन के आगे हम the लगाते हैं क्योंकि a and d आपके आस उसको sentence को अच्छा बनाता है तो that is इस तरह की जो the है यास तो ये हमारे sentence के लिए या बात करें natural language processing के लिए इतना important लोग नहीं करते हैं तो फिर उस cases के अंदर हमें उनको हटाना पड़ता है क्योंकि यदि हम उसे नहीं हटाएंगे तो हमारे पास यहाँ पर बहुत सारा garbage खटा हो जाएगा और जो कि हमारे machine समझ जाएगी और समझने के बाद यहाँ पर बहुत ही wrong predictions करना start हो जाएगी यदि आपको python, machine learning, data science and data analysis इसी field में अपने आपको grow करना है इसके लिए WSKyptek के online and offline बने batch करना जॉइन करके आप अपने skill को improve कर सकते हैं इसके लिए दियेगा है contact number पे call करके आप अमारी two demo free classes ले सकते हैं अब जैसे मैं एक छोटे से example के तौर पर समझा रहता हूँ, जैसे यहाँ पर मैंने कुछ दो lines लिखी है, जैसे a, I believe is the word help to the richest, understand, stop, ऐसे बहुत सी चीज़ लिखी है, अब इसके अंदर this जो है, that is a not important point यहाँ पर, and उसके बाद बात करें, तो यहा क्योंकि ये जो होते हैं वो आपके लिए sentence के लिए perfect आपके लिए जो machine के लिए understanding के लिए काम के लिए नहीं होते हैं इंस्टॉल करने के बाद आप कैसे काम करना है तो उसको जरा समझते हैं तो मैं ले चलता हूँ आपको practical part के अंदर तो अब हम क्या करने है यहाँ पर एक python की फाइल बना लेते हैं जिसके पर हम यह काम करने आवाल है तो मैं natural language processing के just like यही sentence एक उठा लेता हूँ यहाँ पे अब इसके अंदर देखिए एक छोटी सी problem हो चाहिए क्योंकि हमने यहाँ पर semi column, inverted comma का इस्तेमाल किया है यहाँ पर तो हम चाहें तो इसे inverted comma को रख सकते हैं और हम चाहें तो इसे inverted comma को हटा सकते हैं लेकिन यदि आप inverted comma को रखना चाहते हैं तो इसे black cells से complete कर लें तो ये inverted comma भी working position के अंदर आपके आस आएंगे तो मैंने क्या कहा यहाँ पर ये black cells है इसको लगा के यहाँ पर क्या ताकि हम यहाँ पास कभी in case अब मैं इस वेर को प्रिंट करके दिखाऊंगा आपको कि वेर कैसे दिख रहा है तो यह वेर आपका इस तरह से आपका दिखाई दे रहा है और इसके अंदर देखें आपने यहाँ पर डबल कोड का इस्तेमाल कर दे तो डबल कोड कहां पर दिख इनको कैसे हटाया जा सकता है?

वो भी हमें देखना पड़ेगा कि हमें इनकी जरूरत कैसे है तो सबसे वहले मैं stop words के ऊपर आता हूँ तो stop words के आने के लिए आप क्या करें? from nltk के पास जाएं एनेलडिकी में जाना है, एनेलडिकी में जाने के बाद stop words पर जाना है, stop words पर जाने के बाद जो भी stop words है, मैं इनको एक कार साथ collect करने वाला हूँ, that stop के नाम से एक variable बनाओगा, that stop words के पास जाओगा मैं यहाँ पर, stop words के पास गया, stop words के अंदर विलाल मैं यहाँ पर English language का इस्तेमाल करूंगा क्योंकि आप words को open करेंगे तो देखिए सबसे वहाँ पर English language जो भी आपको language चाहिए वह आप यहाँ पर language ले सकते हैं कि आपको कौन सी language चाहिए तो देखता हूं कि यह हम समझ लेंगे कि यहां पर देखेंगे तो देखिए तो बना रखें यहां पर I, me, myself, we, our, myself, ourself, our ID वियोर्स वेल्स वगैरह बहुत से स्टॉपवर्ट सिन्नोर लगा रखे हैं जो कि काम करेंगे इसके अंदर एनडी आएगा यहां पर बहुत सारे stop words का आप इस्तेमाल कर सकते हैं अब मैंने कहा stop words के अलावा भी तो हमारे पास बहुत सारी चीज़े होती है जैसे मैं बात करना चाहूँगा यहाँ पर कि यह आपका semi columns हो गया आपका brackets हो गया तो यह सब कैसे पता जाएगी इसके अंदर इंपोर्ट करें और इंपोर्ट करने के बाद यहां पर पंच नाम से यहां पर क्लास होती है जो कि आपका करती है जिसके अंदर सारे punctuation हैं तो रन करेंगे तो देखिए आपका यह सारे के सारे punctuation आपको मिलेगे जिसके अंदर आपका जो आपके keyboard है उस keyboard के अंदर जितने भी आप यहाँ पर इस्तेमाल करते हैं जो भी special characters इस्तेमाल करते हैं वो सारे के सारे special characters आपको दिख जाएंगे वो भी एक लिस्ट है यहाँ पर और punctuation तो basically अब हमारा stop words तैयार हो चुके हैं यहाँ पर और stop words कैसे तैयार हुए हैं जरा देखें यहाँ पर तो मैं यहाँ पर stop underscore stop underscore word के नाम से पहले यहाँ पर एक variable बना लेता हूँ कि इसके अंदर सारे stop words आजेंगे that आपका stop के नाम से जो मैंने यहाँ पर पहले variable बनाया था इस sentence के अंदर से सारे stop words यहाँ पर remove हो जाए अब यहां पर क्या करते हैं हम स्टॉप वर्ड को अटाते हैं स्टॉप वर्ड को अटाने के बाद हमारे पास जो सेंटेंस बसता है उसको हम यहां पर देखते हैं तो अब इसको कैसे करते हैं तो बेसिकली मैं करूंगा यहां पर जो कि क्या वो stop words के अंदर है तो उसे रख ले और रख के एक पूरा sentence तैयार कर ले और यह क्या करना है यहां पर कि जो वर्ड हमारे पास आया यह वर्ड लिस्ट का जो वर्ड आया इसको हम लेते हैं जो कि हमें क्या करेगा एक करके वर्ड देखा अब इसके अंदर स्पेस वगैरह सब कुछ आपके आप साइएंगे तो मैं इसके जो word ले रहे हैं, वो stop word की list के अंदर नहीं होना चाहिए. तो फिर not in काम यहां पर कि जो मेरे पास आई आ रहा है वह क्या होना चाहिए नॉट इन मरब नहीं होना चाहिए इसका नहीं होना चाहिए शॉपड लेट है मारे पास यहां पर उस टॉप बड़ के लिस्ट के अंदर नहीं होना चाहिए और यदि नहीं है तो आप क्या करें प्रिंट कर दें तो मैं प्रिंट करने जा रहा हूं और प्रिंट कैसे कर रहा हूं आई को प्रिंट कर रहा हूं जब टरन करे और tokenize करने के बाद ही हम इसका क्या करेंगे इस्तेमाल करते हैं तो मैं यहाँ पे from NLTK में जाओंगा and NLTK के बाद जाने के बाद मैं यहाँ पे क्या करूँगा tokenize का इस्तेमाल करूँगा और tokenize के बाद मैं इस्तेमाल करूँगा और इसके बाद यूज करते हैं तो वेर में अंडरस्कोल न्यू के नाम से बनाऊंगा यहाँ पर वेंडर्स को न्यूज नया वेलबल बन गया यहां पर और जिसके दूसरे के आगे कि वर्ड का जो है वह टोकनाइज होगा और वर्ड टोकनाइज के जरिए हमारे पर सब कुछ काम हो गया और इसके अंदर हमारा ओल्ड वर्ड है इसको डाल देते हैं यह टोकनाइज तो अब मैं यहां पर क्या करूं जो हमारे वेयर न्यू आया है उसको इस्तेमाल करेंगे और फिर इसके बाद देखिए इसका सब कुछ लेकिन नैचुरल लैंग्वेज प्रोसेसिंग एलपी यह कर दिया फिर सब्सक्राइब कंप्यूटर computer science, artificial intelligence यूमिन लैंग्वेज और देखिए सारे वर्ड को ऑलमोस्ट ने हटा दिया यहां पर कैपेबल ले गया और कैपेबल के बाद में यह कुछ वर्ड इस्तेमाल किया है और यह एक्चुल में सेंटेंस के अंदर सही तरीके से नहीं है तो फिर चेक करते इस्तेमाल किया गया है आप यह पर कैपेबल एंड यह बड़के बाद में यह आपका इसका इस्तेमाल करें तो यह अपने आपके अंदर करता है कॉर्ड को लेता है और इसका इसके अंदर कॉर्ड को यह सही तरीके से रिपेसेंट बात करें तो सबसे पहले आना चाहिए जो है अब आप इसे चाहें तो यह आपका जो डेटा है वह एक तरीके से टेक्टिवल डेटा इसका स्टिंग्स वक्त से स्टिंग्स इसका सिंटेक्स देखना है तो सिंटेक्स ले सकते हैं जब मैं प्रेंट करूंगा यहां पर अब string type का data आया है string type के data को आप क्या करें आगे तरह add कर सकते हैं और फिर उसके आदमा सेव कर सकते हैं आप किस तरीके से यहां पर स्टॉप वर्ड रिमोविंग कर सकते हैं टिमिंग एंड डेमिनेजेशन टेक्निक्स के बारे में यह जब भी नैचुरल लैंग्वेज प्रोसेसिंग के अंदर काम करते हैं तो नैचुरल लैंग्वेज प्रोसेसिंग के अंदर जब भी आप सर्चिंग वगैरह करते हैं यहां पर तो उस वक्त यह टेक्निक आपके लिए सबसे ज्या वो आपका stemming and diminution के थूँ दिया जाता है अब यहाँ पर क्या होता है यह तो हमने समझ लिया है यहाँ पर लेकिन actual में इनका काम क्या है वो दिखते हैं यहाँ पर तो देखे stemming का काम क्या होता है कि जो भी आपका word होता है तो देखें actual word तो change है तो बात करें तो हर एक word के कुछ-कुछ form चल रहे होता है तो अच्छा बात करें तो यह जो फॉर्म्स होती है यह फॉर्म्स हमारे इंपॉर्टेंट नहीं है क्योंकि देखे चेंज, चेंजिंग, चेंज्ड तो यह तीनों का जो मीनिंग्स होता है यहाँ पर चेंज करने से मतलब है मसीन को केवल change से ही मतलब है changing change से मतलब नहीं है इतना यहाँ पर तो उस वक्त आपको क्या करने पर तेरे से stemming करने पर तेरे उस word के अंदर आपके आप सफिक्स होते हैं आपके आपसे बहुत सा effects होते हैं तो उन सभी को यहाँ भी क्या करना चाहिए आपको हटाना वाता है क्योंकि वो आपके लिए sentence के लिए या फिर उस vertical word के लिए इतने importance rule नहीं करते हैं इसके अंदर मैं बात करना चाहूँगा कि जो snowballs हैं वो snowballs आपके पास यहाँ पर क्या करते है 15 different types की language के ऊपर भी काम करती है इस्तेमाल करके दिखाऊंगा कैसे क्या तरीके से इस्तेमाल कर जाता है चलिए तो इसके लिए एक सबसे लेवे मैं क्या करना हूँ यहाँ पर From की help से जो NLT की जो library ह तो उस स्टीम को यूज करेंगे तो स्टीम के अंदर आपके पास यह सारी चीजें मिल जाएगी तो यहां पर इंपोर्ट करना लूँग अब क्या यहां पर क्लासेस तो देखिए पहले है पोर्ट स्टीम फिर आपका स्टीम यहां पर एं� अब एक काम करते हैं इन सब की classes हैं ये तो classes के लिए object तैयार करते हैं और फिर उसके बाद एक ही को समझते है object को और फिर streaming करके देखते हैं तो देखिए मैं यहाँ पर l नाम से variable बना रहा हूँ जो कि आपका ऐसा क्या करता है और next यहाँ पर आपके आर नाम से एक variable बनाते है RegisStreamer को इस्तेमाल कर रहे है उसके basis पर काम करता है, Regis मतलब Regularly Expression Functions के ऊपर काम करता है यहाँ पर और उसके अंदर special words वगड़ा होता है और streaming words भी होते हैं जो कि आपके काम करते हैं तो इसके अंदर एक default argument पास कराना पड़ता है वो default argument आप देखेंगे तो इसके अंदर ing आप एक default argument है एस एक डिफर्ट अर्ग्वेंट है, ए है, एबल है, तो ये अलग तरीके से अलग तरीके काम करते हैं, जिनका आप यूज़ कर सकते हैं, तो फिलाल मैं ING का इस्तेमाल करूँगा यहाँ पर, और नेक्स्ट मात करते हैं यहाँ पर, पोस्ट मास्टर के उपर, तो और पोष्टिमर के अंदर वैसे कुछ पास कराने की जरूरत नहीं है तो आप इसका डायरेक्ट इस्तेमाल कर सकते हैं तो देखें यहाँ पर यह Arabic पर, Dutch पर, आपका रहे हैं Danish पर, English पर ओके तो English के बाद देता है अब क्या करते हैं वन बाव वन इनको पर काम करते हैं तो देखिए एल डॉट में यहाँ पर क्या होता है इसके अंदर एक जैसे कि मैंने आपको एक्सांपल के दौर पता है कि चेंजिंग दे रहे हैं तब ही काम करें स्टुडी दे रहे हैं तब ही काम करें स्टुडिंग दे रहे हैं तब ही काम करें तो फिलहाल मैं चेंजिंग देता हूं तो चेंजिंग दे रहे हैं तो द तो आट और स्ट्रीमिंग का इस्तेमाल करेंगे और इसके अंदर भी आप यहां पर चेंज का वर्ड देंगे यहां पर कुछ भी देती है जस्ट मैं कुछ भी दिया तो इसमें चैंग को कर दिया वैसे भी आप यहां पर चेंजिंग देंगे तो आप इसे चेंज के अंदर इडी लगा देता हूं रन करेंगे तो देखिए चेंज इडी है यहाँ पर हटा दिया और फिर यहाँ से भी इडी को लगाएंगे यहाँ पर रन करेंगे तो देखिए यहाँ पर इसने इडी लग दिया यहाँ पर आप इडी लग स्तमाल क यह तरीके है इनको आप डिफरेंट वे के लिए काम ले सकता है डिफरेंट प्लास इस तरीके से बात करना जाऊंगा लेमिनाइजेशन के बारे में कि लेमिनाइजेशन क्या करता है तो बेसिकली लेमिनाइजेशन और से तो lemonization क्या है एक technique है जिसके जरिए आपके आज क्या करता है तो यह भी आपका इसका करेगा लेकिन आप इसके अंदर दोनों के बीच में एक बेसिक डिफरेंस समझना बहुत ज्यादा जरूरी है देखिए आपका चुटी में है तो हम यहां पर पहले टीम की बात करेगा यहां पर बात करें और अब हम बात करते हैं तो देखिए क्या करता है केवल को करने के काम करता है जो भी आपके जो लेमिनिजेशन भी सीम काम करेगा लेकिन Laminatiation के अन्य एक और special features है जो की क्या करता है basic बात करें कि आप जो भी word दे रहे हैं जो भी word दे रहे हैं उसका एक अलग से meaning निकलता है जैसे कि मैं mice दे रहा हूँ यहाँ पा mice मतलब चूआ होता है यहाँ पा तो mice का mouse आपको बना कर देता है मतलब जो भी आपका semantic words चूटे हैं यहाँ पर वो semantic words भी आपको देता है यहाँ पर आपके आप इसके अंदर मैं स्टीमिंग के जाऊंगा स्टीम के अंदर जाने के बाद मै तो मैं W डालकर यहाँ पर worldLeminization का इसका इसमाल करूँगा अब worldLeminization की help से हम करेंगे Leminize करेंगे कैसे करेंगे तो सबसे पहले यहाँ पर WL यहाँ पर worldLeminization है WL बनाता हूँ यहाँ पर और worldLeminization जो आपके आज class है उसे मैं करूंगा कॉल करूंगा रन करते हैं यह कॉल हो गई आपके आप यहां पर अब इस डेब्लू एल के अंदर आपके तो run करेंगे, यह मेरे का जाता है, हेलो दे रहा है यहाँ पर, basic हेलो ही मुझे यहाँ पर output में दे रहा है और यदि इसके अंदर capitalize करेंगे तब यह हेलो देगा, अच्छी काम करते हैं इस हेलो का o हटा देता है तो यहां पर कर देगा यहां पर अब एक काम करते हैं एच ए लो एलो दे तो यह लोग देता है अब मैं यहां पर करता चेंजिंग लेकिन अब यह स्पेशल वर्ड निकालेगा जो कि माईस दूंगा यहां पर यह माउस देगा माइस का मुझे माउस देगा मतलब आपका जो साइड सीमेंटिक वर्ड का अंसर जो होता है वह आपको देता है काफी बार यह बेनेज भी करता है मतलब लेकिन यह आपका जदर के सिस्टम राइट अंसर निकाले के लिए काम मिले जाता है तो यह आपका तरीके थे जो कि आपका इस काम करते हैं पर आपका से रिजिक्स टीमर है आपका स्पोर्टर स्टीमर है स्नोबॉल्स है इसारी काम करते हैं अ और फिर हमने देखा यहाँ पर Lemonazer के अंदर, तो Lemonazer के अंदर क्या करता है यहाँ पर? यह semantic words होता है, जो right answer होता है, वो आपको यहाँ पर रिकाल देता है हे गाइस कैसे है आप सभी और आज के इस वीडियो के जरीए हम समझने वाले हैं n-grams के बारे में कि n-grams क्या होता है और जैसे कि आप सभी को बता है हम text pre-processing के बारे में discuss कर रहे हैं और ये सब भी ची तो ngrams को मैं समझाने से पहले मैं आपको ngrams का practical implementation दोता हूँगा ताकि आपको clear हो सके देखिए आप सभी क्या करें मेरे साथ अपने जो WhatsApp account है इसे open करें जो भी WhatsApp account आप use करते हैं और जब भी आप उसमें message करते हैं, तो एक Google keyboard निकल करता है लेकिन generally मैं Google keyboard को prefer करता हूँ क्योंकि Google keyboard जो था वो सबसे best होता है अब Google कीबोर्ड के अंदर क्या होता है कि एक सिस्टम है यहाँ पर कि यह जो Google कीबोर्ड है इसके अंदर जैसे आप कुछ लिखेंगे मतलब मैं यहाँ पर लिखता हूँ हेलो, yes, मैं hi लिखता हूँ hi के बाद यहाँ पर dear, sir and bro लिखा वा जाता है that मैं sir के बाद click करता हूँ तो I लिखा वा जाता है अब जैसे यदि मैं I को press करता हूँ space करता हूँ, तो यहाँ पे कुछ ऐसा word लिखा वा रहा है, just मैं वो आपको explain नहीं कर सकता, ठीक है, अब हमारी भी personal life होती है, that's, यदि मैं L को press करूँ, तो फिर आप समझ गए होंगे, अगला word love लिखा रहा है, और फिर उसके बाद you भी लिखा रहा है, that's, ये आगे बढ़ते जा रहे हैं वह से मैसेज देट्स यह जो आपके सिस्टम के अंदर और तो मतलब यहां पर कि जैसे आप कोई word press करते हैं तो अपने आप अगला जो word है वो आपको suggest कर देता है कि that's it, this is word या फिर यदि आप simple से एक, जैसे मैं spelling भूल चुका हूँ और spelling भूलने के बाद मैं कोई simple से spelling लेता हूँ जैसे ग्रीन के स्पाइन लेता हूँ ठीक है तो जी आर ई अब यार जी आर ई लिखा तो मुझे ग्रीड दिखाई दे रहा है यहां पर और जी आर डबल ई एन करूं डबल ई करूं तो मुझे ग्रीन भी दिखा रहा है यहां पर और ग्री भी दिखा रहा है, that's free भी दिखा रहा है तो यह जो होता रहा है यहाँ पर, कि आपको यह पूरा sentence को नहीं आता आपको यहाँ पर पूरा sentence आपको दिखा देता है आपको पूरी-पूरी जो spelling है वो आपको दिखा देता है, that is a processor of यहाँ पे n-grams, yes, यह है processor n-gram का, तो I think अब मुझे explain यदि आपको पाइथन मशीन लर्डिंग डेटा साइंस एंड डेटा अनुलिजिस्टर्सी फील्म में अपने आपको ग्रोव करना है, इसके लिए WS Scripta के online and offline बने batch करना जॉइन करके आप अपने skill को improve कर सकते हैं इसके लिए दियेगा contact number पे call करके आप अमारी two demo free classes ले सकते हैं तो Ngrams क्या होता है basically कि जो भी आपके words होता है जो बार वर्ड जो sequence लिया आते रहते हैं उन words को यहाँ पर क्या करता है suggest करता है कि हाँ यह वर्ड है इसके बाद जो अगला word से आपका यह इस्तेमाल के गया है उसके अगला word जो है वो यह इस्तेमाल के गया है तो मतलब क्या हो रहा है कि आप कोई भी sentence देखते हैं, आप Google कीबोर्ड के अंदर ये सारे words कैसे गए, जैसे मैंने लिखा था I love you, that's किसी को भी बेजा रहा, that's I love you ये जी मैंने लिखा है यहाँ पर, तो मुझे I लगाने के बाद मुझे love you को दिखा जा रहा है, कि आप लोगों को लिखने वाले हैं अगला sentence या फिर कुछ और भी like वगरा जैसे something like कुछ इस तरह से करता है तो जो continuous sequence के लिए word चल रहे होता है उनका जो आपके आज क्या करता है ये combinations बनाता है और वो combinations आपको क्या करता है present करता है तो यही जो काम होता है वो किसका है आपका n-grams का बात है कि आपके आज number of words को आप देते हैं अब ये क्या काम करता है बेसिकली probability के basis पे काम करता है अब probability के basis पे कैसे काम करता है तो basically कौन सा word कितनी बार आपके आस repeat हुआ है उसकी probability रखता है और उसके साथ कौन सा word यहाँ पर repeat हुआ है जैसे conditional probability पढ़ा था हमने कब machine learning के अंदर तो machine learning के अंदर आपने देखा होगा कि machine learning के अंदर क्या होता है कि probability आपके आस होती condition of probability की पहली conditions होने के बाद दूसी conditions उसके साथ कितनी satisfy कर दी है ताकि वो दूसी condition को भी उसके साथ रख सके that is a condition probability और यही भी आपके आज यहाँ पे जैसे मैंने कुछ sentence लिखा है जैसे कि I am a person who is the positive about the everything except of my life that बहुत कुछ लिखा है मैंने यहाँ पर ठीक है अब होता क्या है कि इसके अंदर n grams के अंदर आपके आप बहुत सारे grams होते हैं यहां पर यहां पर यहां पर यहां पर यहां पर यहां पर यहां पर यहां पर यहां पर यह इसके अंदर आता है यूनि आपके आप यहां पर ग्राम्स आता है यूनि ग्राम्स के बेसिस पर काम होता है अब यूनि ग्राम्स क्या करता है यहां पर कि यहां पर पेरिंग्स करते हैं यह आपके आप सिंगल वर्ड की डेट्स पी के बाद में आपके आ� बाय ग्राम के अंदर होता क्या है कि आपके दो के पेयर्स बना जाते हैं देट्स यहां पर पीओ का एक पेयर बना दिया देट्स फिर वह के बाद ओएस का एक पेयर बना दिया फिर उसका एसाई का एक प्रेस बना दिया फिर टी आई का एक पेयर तो आपके आस बहुत time repeat होगा तो जब भी next time मैं PO लिखने वाला हूँ तो उसके हिसाब से आपके आस चलने वाला है अब मैं बात करूँगा कि जब मेरे पास कोई sentence होता है ये तो हमारे पास एक particular word होगे I और M का एक pair बन जाता है उसके बाद यहाँ पे M और A का एक pair बन जाता है तो यह एक पेर बन जाता है फिर पर्सन और यहां पर हुआ का एक पेर बन जाता है यदि मैं बाई ग्राम की बात कर रहा हूं यहां पर देट्स उसके लिए फिर उसके बाद हुआ और यहां पर इसका एक पेर बन जाता है ऐसा से करते हैं बहुत सारे नंबर फ तो प्रैक्टिकल ले चलता हूं जुबीटी नोटबुक के बाद जहां पर हम एंड ग्राम्स को समय लगा लेकिन उससे पहले मुझे एक टेक्स की जरूरत पड़ेगी तो मैं एक टेक्स बना रहा हूं यहां पर सिंपल सा और उसके अंदर मैं लिख रहा हूं आया आई एवे डब्लू स्क्रिप्ट लिखा ताकि मैं आपको वर्ड के सेंटेंस के लिए जो रिपीटिशन शुरू है वह आपको दिखा सकूं एंड देट मैं लिख रहा हूं यहां पर आया है अब गुड बॉय आया है गुड बॉय ओके गुड बैन लिखते हैं या अब मैं हो गए एंड एक बार और इस्तेमाल करूंगा आया में गोरव का इस्तेमाल करो परजापत नहीं लगा रहा तो यह मैंने तीन अलग word का इस्तेमाल किया है जो कि मैंने यहाँ पर इस्तेमाल किया है और मैं इस सब को लेके predictions इस्तेमाल करना चाहता हूँ ngrams के जरिए तो वो मैं यहाँ पर कर सकता हूँ, मतलब यह n-grams का करता है sentence का combination subclass बनाता है के अंदर जाकर डॉट यहाँ पर इसका इस्तेमाल करेंगे टोकनाइज का इस्तेमाल करेंगे तो मैं टोकनाइज का इस्तेमाल करूँगा और टोकनाइज के अंदर जाने के बाद मैं यहाँ पर इंपोर्ट करने वाला हूँ sentence tokenizer मेरा इतना इस्तेमाल नहीं होगा that's word tokenizer मेरे जरूरी है और उसके बाद word tokenize का answer जो है वो W में ख़ठा कर लूँगा मैं यहाँ पा और उसके बाद यदि मैं W को देखूं तो W मेरे पास यहाँ पर tokenize हुआ मिल चुका है यहाँ पर अच्छा आप चाहे तो इसमें से यह कॉमा separated value है यह आप हटा सकते हैं क्योंकि यह कॉमा आपके पास पर repetition के अंदर आएगा अब मुझे n-gram के ऊपर बढ़ना है तो n-gram के ऊपर बढ़ना है तो वापस मुझे second line की library की ज़िसके अंदर मैं एनल टी के जो लाइब्री है यहां पर उसका इस्तेमाल करूंगा डॉट यहां पर अब मेरे पास यहां पर है कलेक्शन यस मैं कलेक्शन का इस्तेमाल करना लूप उसके बाद मेरे पास है यहां पर को कलेक्शन का इस्तेमाल करना है और तो आप ट्राइडर का स्तुमाल करने तो ट्राइडर को क्लेक्शन फाइंडर का स्तुमाल कर सकते हैं और भी आपके अपने चीजें हैं यहां पर जिनका आप स्तुमाल कर सकते हैं तो यदि मैं बात करूं तो यहां पर आप इस्तेमाल करेंगे तो मैं यहां पर इस प्राइंड करें और जहां पर मैं बाय ग्राम का इस्तेमाल करूंगा बाय ग्राम क्लैक्शन फाइंडर का इस्तेमाल करूंगा और dot यहाँ पर मैं क्या करूँगा यहाँ पर free words, yes हम words के ऊपर काम कर रहे हैं, that's free from words का इस्तेमाल करेंगे यहाँ पर, और word के अंदर मैं इस्तेमाल करूँगा किसका, W का, क्योंकि यही हमारे पास यहाँ से आया है, that's मैं run करूँगा, जो W आ चुका है, तो तो मैं काम करता हूं इस डिजिनली को इटरेट करता हूं और ट्रेट करके दिखाता हूं या फिर आप इसके में से की और वैल्यू का पेरस आप देख सकते हैं लेकिन फिलहाल अभी इसमें से कुछ समझते हैं इसमें क्या दिखाया है यहाँ पर I और M का ज यह दो बार हमने यूज किया था तो आपकी आपका दो बार दिखा रहा है उसके अधिक गौरा पर्जापत जो है वह एक बार है तो आपने यहां पर जितनी बार भी टेक्स किया है आपने यहां पर जितनी बार भी टेक्स किया है उसके अकॉर्डिंग यह आपके अगर यहां पर यहां प तो मैं यहाँ पर कीज का इस्तेमाल करूंगा यहाँ पर डाटा को दिखाने के लिए डेट्स कीज के अंदर जो भी मेरा डाटा है यहाँ पर जो बार-बार रिपीट हुआ है देखो में जाएगा फिर उसके बाद आप जैसे ही आई को प्रेस करें� देखिए मैं ट्राइग्राम को करके दिखाता हूँ यहाँ पर टी लगाएंगे यहाँ पर और ट्राइग्राम को कॉल करेंगे वह दो बार रिपीट हुआ है पूरे अंदर और आया में डब्लूएस क्यूब टेक भी जो है वह आपका दो बार रिपीट हुआ है मतलब कोई इसके बाद में गौरप पर्जापत पूरा लिखावा ना चाहिए एम गॉरो लिखा तो उसके बाद ऑटोमेटिकली यहां पर आएगा एम के बाद में गॉरो और प्रजापत को सर्च करके मेरे सामने लेकर आ जाएगा तो आप इसे लगातार सर्चिंग इस्तेमाल कर सकते हैं अब इसी दिल से हमारे पास एंड वापस इक्वेंस का देश क्वेंस इस डब्लू उसके बाद मुझे नंबर टाइम देना है तो नंबर टाइम में फूल टाइम लगाना या फिर नंबर टाइम में वन टाइम लगा सकता हूं और फिर उसका रन करता हूं एनग्राम आ चुका है अब एनग्राम जो आपको डाटा देता है डेट्स आपके बास उसे आप इस तरह से एनग्राम तो मैं फोर लगा दूंगा फोर आई एन यहां पर किसका इस्तेमाल करूंगा फोर आई एन का इस्तेमाल करूंगा और उसके बाद मैं प्रिंट कर दूंगा और किसी की प्रिंट करूंगा मैं आई का इस्तेमाल करूंगा देखिए I के बाद मैं am, gaurav, parjabat सब कुछ जो single word है वो मुझे मिल जाता है तो वो दिखेंगे तो I am एक गौरव दिख रहा है, I am एक गौरव प्रचापत दिख रहा है, गौरव प्रचापत, that's I दिख रहा है, प्रचापत I am दिख रहा है, that's इस तरह से आपका दिख रहा है, तो ये साल खेल किसका है, प्रॉबलिटिक है कि जो word आ इसी तरह से यदि मैं यहाँ पर कुछ और दिखाऊंगा आपको तो मैं पाइट को पूरा लेता हूं तो ठीक है मैंने पाइट लगा Counter Vectorization Technique जिसके जरिए आप क्या कर सकते हैं किसी भी NLP का इंपुट्स होते हैं उस इंपुट्स को कन्वर्ट करके आप ANN मॉडल को दे सकते हैं अब देखें मैं आपको बताना चाहूँगा कि जब भी हम Artificial Neural Network और इस्तेमाल करते हैं और आगे चलते हुए फिर आपके आज जहां पे भी आपका जो submission point है, that's वो submission points के पास जाता है और उसके बाद वो जो data होता है, वो आपके आज कहा जाता है, एक activation function के पास जाता है और वहाँ से आपका output y आपको दिन मिलता है तो यह जो inputs होते हैं, that is the inputs आपके आज यहाँ पर, x1, x2 and x3 जो inputs आपके आज दिख रहे हैं, यह जो inputs होता है, that is the number, yes हमारे पास क्या होता है, numbers के तौर पर यहाँ पर लिए जाता है, ताकि इनके बीच में submission किया जा सके और इनके पर एक activation function को apply किया तो अब हम बात करना चाहेंगे कि ये जो inputs होते हैं, ये numbers होते हैं, और जब हम NLP की जरीए काम करते हैं, तो NLP में हम यहाँ पर textual data के पर काम करते हैं, मतलब पूरा-पूरा text वाला जो data होता है, उसके पर काम करते हैं.

NLP का जो data होता है वो हम directly कभी भी ANN को नहीं दे सकते तो फिर उस cases के अंदर हमें जो आपके पास NLP का जो data होता है उसे convert करना पड़ता है किसके अंदर numbers के अंदर ताकि आपके पास ANN के model के पर apply कर सके या फिर machine learning algorithms के पर apply कर सके एजिन मेरिकल डेटल यह अब इसके लिए आप यहां पर लेबल एनकोडिंग वन हाट एनकोडिंग उन सारी चीजों का इस्तेमाल कर सकते लेकिन counter vectorization एक बहुत इच्छी technique है जिसके जरिये आप क्या कर सकते हैं किसी भी data को numbers के अंदर convert कर सकते हैं तो अब जरा समस्ते है counter vectorization क्या है तो counter vectorization क्या है कि किसी भी textual data को क्या करता है convert करता है और convert करके किस में convert करता है numbers के अंदर convert करता है ताकि आप आगे सागे यहाँ पर इसे use कर सकें जैसे कि क्या होता कि इसके अंदर आपके आज जितना भी data होता जैसे कि my name is x y z, I am complete this, be and that's, बहुत सारे चीज़े लिखी भी होती हैं आपके आज यहाँ पर, पहले इन सारे data को क्या करता है, fix format के अंदर arrange करते जाता है, then इसके अंदर जो भी data repeatate हो रहा मतलब जो कंप्लीट एक वर्ड बन रहे हैं उन सभी को अलग कर देगा फिर उसके आज I को अलग कर देगा and complete it को अलग कर लेगा यहाँ पर and उसके आज be को अलग कर देगा और in को अलग कर देगा and 2019 को अलग कर देगा मतलब word tokenization system लग चुके है अब word tokenization करने के बाद अब आपका next procedure क्या होता है इनको numbers देना जैसे कि इनको numbers यहाँ पर alphabetic order के अंदर दिया जाएँगे तो जो सबसे first आएगा तो उसका number first हो जाएगा फिर उसका second आएगा उसका second हो जाएगा third हो जाएगा fourth हो जाएगा अब इसके अंदर भी depend करता है कि आपके आस यहाँ पर bag of the data लग रहा है अब यह bag of data क्या होता है अभी फिलाल हम counter vectorization को समझ रहे हैं तो counter web digestion की टो technique होती है जो कि आपका skill and library यह अलग लग लाइब्री अलग लग तरीके से कांटर वेक्टर एजिशन्स करती है तो अभी हम S-K-L-N लाइब्री के ऊपर चलेंगे तो S-K-L-N लाइब्री क्या करती है कि इसके अंदर numbering देती है by the using of order of alphabetic order तो उनके numbers यहाँ पे मिल जाएगा, मतलब इसका यदि vector बनेगा तो vector कुछ इस तरह से बनेगा कि 1 अनजाएगा तो 2, 3, 4, 5 इस तरह से vectors आपके आज conversion हो जाएगे तो मतलब कुल मिला कि आपका जो textual data तो वो as in numerical data के अंदर convert हो चुका है यदि हम theory के पर बात करेंगे तो इतना effective नहीं रहने वाला है अब इसके अंदर सबसे पहले तो मुझे क्या करना है अपना एक sentence लिखना है जिसके अंदर मुझे उसको convert करना है अब एक काम करना है देखिए जब भी आप यहाँ पर sentence को इस्तेमाल कर रहे हैं एक data frame के अंदर होना थी अब जब साइकेट लेन डाइबी के अंदर जब आप डाटा फ्रेम के ऊपर करते हैं तो उसके अंदर एक चीज आपने नोटिस की होगी कि वहाँ पर क्या होता है एक रोज होती है और एक रोज के अंदर एक सिंगल डाटा होता है कि सेकंड डा जब स्पेम मेल के ऊपर काम करना चाहता हूं कि मेल स्वाम है या हैम है तो उसके अपकास एक सिंगल मेल होगा फिर उसका जो आपका चलता रहता है वहां पर भी जो डिटा आपका सारा है डाइट कंप्लीट मेल आता है यहां पर तो जब वह मेल आता तो मुझे क्या करना पड़ेगा एक लिस्ट बनानी पड़ेगी देट में एक लिस्ट तैयार करता हूं यहां पर और लिस्ट ओर लिस्ट तैयार कर सकते हैं या फिर आप जो भी आप डाटा लेना चाहिए देट पूरक तैयार कर सकते हैं तो फिलाल में कोई यह मैंने कुछ डाटा ला दिया, अब मुझे आपके आस एक डाटा फ्रेम तैयार करना है, तो डाटा फ्रेम तैयार करने के लिए मुझे पांडाल्स की जरूरत पड़ेगी, जो मैं इंपोर्ट करना चाहूँगा किसे, पांडाल्स एलियाल्स अफ पी और उस dictionary के अंदर मैं जानना चाहूँगा key key के लिए मैं डाल देता हूँ, name नाम की key डाल देता हूँ that's colon और उसके बाद मैं इसके अंदर l नाम का data डाल दाओ फिर उसके बाद df को check करते हैं यहाँ पर तो ये देखिए पूरा है अब मुझे क्या करना है इसको कंवर्ट करना एडिटम प्रक्टर तैयार करना इसका तैयार करता है उसके लिए डॉट इसके अंदर आपके आज क्या होता है feature extension नाम की चीज होती है आइट पहला होता feature selection और feature extension feature extension क्या करता है आपका इस feature को convert करने के लिए काम आता है तो इसके अंदर feature extension नाम की आपका इसके आज क्या होती है एक library होती है है जो आपको लिखना होता है तो आप टेक्स के ऊपर काम करें बैसिकली टेक्स करना है यहां पर आपको और इंपोर्ट करना है यहां पर आपको अपने आपके आज की काम करें अब कांटर वेक्टराइज नाम के आपके आई क्लास है तो उस class का आपको एक object तैयार करना पड़ेगा तो मैं CV के नाम से एक object तैयार करा हूँ जिसके अंदर जो counter vectorize जिसका हमने इस्तमाल किया है उसको call करेंगे और फिर उसके बाद हम इसके थूँ model को तैयार करेंगे एक new underscore yes new underscore data के नाम से एक variable बना रहा हूँ पर ट्रांसफर्म के अंदर मुझे यहां पर जो हमारा डाटा है वह में देना पड़ेगा मतलब डाटा फ्रेम मुझे देना पड़ेगा तो मैं डाटा नेम है जो डेटा को देखूं यहां पर एक प्लास अर्थित नंबर होता है तो इस class के जरिए मुझे numpy array को convert करना पड़ेगा मतलब इस पूरे जो data आया है इस पूरे को मुझे convert करना पड़ेगा किसके अंदर array के अंदर जब यहाँ इसे convert करना चाहें तो इसके अंदर two array नाम के function है उसे call कर सकते हैं तो देखें ये आपके आस इसका vectorization बन चुका है इसके अंदर देखें यहाँ पर 0, 1, that 1, 1 इनके vectors बन चुके हैं walkably की हिसाब से arrange किया गया है जो चाहिए आप यहां पर दो नाम दे रहे हैं मतलब टू नंबर पर दे रहे हैं नेम को यहां पर थे रहे हैं इसको यहां पर वन दे रहे हैं डेवलर को पाइट दे रहे हैं और टेक को यहां पर फॉर दे रहे हैं गौरव को कह दे रहे हैं तो इन्होंने कुछ अरेंज किया यहां पर जैसे लाइक जो है वह पहले आता है देश को जीरो दिया यहां पर और इस जो फर्स्ट डब्लू है वह सबसे लास्ट पर आज है आपका स्वाइब दिया है और टैक को यहां पर फोर दिया है और फिर इसी के साथ से इन्होंने क्या किया एक वेक्टर तैयार किया है यहां पर जो फर्स्ट आपका जरूर आई है जैसे कि माइनेम आपको बार रिपीट हो रहा है तो उसके बाद 11111 दिया है यहाँ पर और उसके बाद माय नेम है गौरव को यहाँ पर फिर से 11111 दिया है तो यह पूरा एक वेक्टर तैयार हो चुका है तो ये आपका इस vectorization करने की technique है वैसे vectorization करने की बहुत सी और भी अलग techniques है आप tensorflow के जरिए की कर सकते हैं और NLTK की जरिए भी कर सकते हैं लेकिन हमारे पार जो सबसे best है थी that is a cyclic learn library जिसके जरिए आप vectorization कर सकते हैं यहां पर किस तरीके से कहा जाता है लेकिन यह कौन सी लाइब्री है हमारे सेटिंग लाइब्री है माउस इस रनिंग एंड माउस इस वर्किंग दोनों के अंदर क्या डिफरेंस है यदि आप लोगों से बुजूंगी इन दोनों में क्या difference है mouse is running and mouse is working in the difference है ठीक है mouse दोड़ रहा है that यह समझ में आता है और mouse is working मतलब mouse work कर रहा है right mouse काम कर रहा है तो यदि मैं आप लोगों से यह सवाल पूछता हूँ तो आप लोग मुझे क्या अंसर देता है कि पहले वाले के अंदर जो माउस के बारे में बात की गई है तो यह जो रेट होता है आपके घर में वह आपके आज काम करता है सेकंड चीज के अंदर जो माउस बात की गई है, that is a physical mouse, जो की हमारे laptop के अंदर ये होता है mouse, जिसके बारे में बात की गई है, right, तो आप यहाँ देख रहे हैं कि आपके जो words आप यहाँ पर ले रहे हैं, जो दो words यहाँ पर ले रहे हैं, that is a mouse and mouse, दोनों के तो आपके आज क्या होता है कि same words बहुत सारे आते हैं और same words के अलग time के अंदर अलग meaning निकलते हैं यदि मैं बोलू mouse is working that is physical mouse की बात हो रही है mouse is running का मतलब आपके आज क्या हो रहे है यहाँ पर कि आपका जो natural जो mouse होता है यहाँ पर जो दोरता है rat is mouse ठीक है उसके और हम बात की कही है तो ऐसे words के अंदर बहुत ही complications आ जाता है तो उसी के बारे में आज हम इस particular video के जरीए समझने वाला है My name is Gaurav and in today's video we will talk about word sense documentation. अब ये क्या technique होती है? तो इस technique के अंदर हमें ये बताया जाता है कि जब भी आप कोई sentence इस्तेमाल कर रहे हैं और sentence के अंदर जो mouse की बारे में बात की गई है, वो mouse किस चीज के अरेम बात की गई है?

यदि आपको Python, Machine Learning, Data Science and Data Analysis इसी फील में अपने आपको ग्रोव करना है इसके लिए WSKypte के online and offline बने batch करना जॉइन करके आप अपने skill को improve कर सकते हैं इसके लिए दियेगा contact number पे call करके आप अमारी two demo free classes ले सकते हैं जैसे एक छोटे से example के जरह समझते हैं यहाँ पर दो चीजे यहाँ पर दो अलग-अलग मैंने माउस की structures दिया है दोनों अलग-अलग mouse हैं पहला एक चूआ है और दूसरा का एक mouse है मतलब जिसके हम computer mouse को बोलते हैं यहाँ पर लेकिन जब आप sentence का समाल करते हैं तो तो यहाँ पर इन दोनों चीजों के बारे में explanations किया जाता है तो I think I hope समझ में आचुक होगा कि क्या चीज के बारे में बात कर रहे हैं हम यहाँ पर जैसे कि मैं एक छोटी सी बात करना चाहूँगा यहाँ पर जैसे लिखा है I can hear bass sound बेस साउंड सुनना है यहाँ पर He likes to eat garlic base मतलब वो garlic base को eat करना पसंद करता है तो अब यहाँ पर देखें गालिक base के अंदर जो base होता है that is a base मतलब नीचे अलाव तलिया right लेकिन होता है यहां पर जैसे पीछे के अंदर जो नीचे आगा तलिया होता है, वो उस बेस के बारे में बात की गई है। लेकिन first line के अंदर क्या कहीं किया? sound के base की बात की गयी है, sound का base मतलब होता है उसके beats, मतलब उसके जो beats वगड़ा होता है जो sound को तो ये दोनों basically बहुत ज्यादा difference होते हैं आपके आज यहाँ पर sentence के अंदर तो इसके बारे में आपके आज word sense documentation आपको explain करके बताता है कि ये कौन सा word किस sentence के बारे में बताया गया है और इसके लिए जो use की जाती है यह library that is NLT के library और NLT के library के जरिए इसे explanations किया जाता है और जस्ट संडाइस के वारे में यहां पर सेंटेस है तो मैं यहां पर संडाइस के वारे में यहां पर सेंटेस नहीं दो और ऐसे विकीबीडिया से ले लेते हैं संडाइस के वारे में कि संडाइस क्या है और फिर उसकी डेफिनिशन यहां पर और यह स्टिंग अपने और इंपोर्ट के अंदर इसके अंदर लसक नाम के आपके इसके अंदर क्लास होती है इसका आप इस्तेमाल करते हैं फिर उसके बाद यहां पर यह और उसके अंदर देखिए दो चीजें आपके आप यहां पर मांगी जाती है मिजली पहला होता है यहां पर कॉन्टेंट आफ इसके बारे में इनफॉर्मेशन चाहिए तो मुझे देना पड़ेगा तो मैं सबसे पहले यहां पर जानना चाहूंगा संग के बारे में कि वह इससे संग तो जैसे मैं संग के बारे में वह आपके पास सिस्टम के अंदर मतलब जो आपके ऐसे WSD है मतलब आपके आ� और जैसे आप इसे रन करेंगे तो देखिए यहां पर संग के बारे में पूरी इंफॉर्मेशन मिल चुकी कि संग क्या है जब आपका द स्टार द इस द सोर्स ऑफ लाइट द हीट एंड प्लांट एंड सोलो सिस्टम तो उसके बारे में सोलो सिस्टम के लिए और इसको काम करते हैं इसको एक वेरिबल के अंदर डाल देते हैं देट मैं वायर नाम के वेरिबल बनाऊंगा और उसके है अगर यहां पर यह संगों ही ढूंढ रहा है अब मैं संगों अटा देता हूं और यहां पर करता हूं तो एमोई यू एक बार फिर से इस वाली क्लास पर अनुकात है पूरी इंफॉर्मेशन दे रहा है तो आपके पूरी एक इंफॉर्मेशन दे रहा है जो कि पूरी एक किसके बारे में आपको आशा होता है कि वर्ड शेंटेंस डिग्मेटिजिशन क्या काम करता है कि आपके आज कोई भी word होता है उस word के बारे में यदि आपको information चाहिए कि वो word किस तरह से काम कर रहा है उस sentence के अंदर तो उसके बारे में पूरी information आपको देता है तो I think आपको clear हो गया होगा