📝

NLP का परिचय और मुख्य तकनीकें

Sep 2, 2025

Overview

यह लेक्चर नेचुरल लैंग्वेज प्रोसेसिंग (NLP) का परिचय, उसके कार्य, मुख्य चुनौतियाँ, टेक्स्ट प्री-प्रोसेसिंग के स्टेप्स, और कुछ इम्पोर्टेन्ट टूल्स एवं टेक्नीक्स जैसे टोकनाइजेशन, स्टॉप वर्ड रिमूवल, स्टेमिंग, लेमेटाइज़ेशन, एन-ग्राम्स और वर्ड सेंस डिसएम्बिगुएशन को कवर करता है।

नेचुरल लैंग्वेज प्रोसेसिंग (NLP) का परिचय

  • NLP मानव भाषा को मशीन द्वारा समझने, विश्लेषण करने व संसाधित करने का तरीका है।
  • NLP चैटबोट्स, वॉयस असिस्टेंट्स, गूगल ट्रांसलेट, स्पेलिंग चेक, स्पैम डिटेक्शन आदि में इस्तेमाल होती है।
  • NLP दो मुख्य भागों में बांटी जाती है: लैंग्वेज अंडरस्टैंडिंग और लैंग्वेज जेनरेशन।

NLP की प्रमुख चुनौतियाँ

  • मल्टी-सेंस शब्द (same word, multiple meaning) की समस्या होती है।
  • Synonyms, ambiguity, identity, spelling errors, slang, domain specific language आदि मुख्य समस्याएँ हैं।
  • डोमेन या लोकल भाषा व डाटा सोर्स की कमी भी एक चैलेंज है।

टेक्स्ट प्री-प्रोसेसिंग के मुख्य स्टेप्स

  • डेटा कलेक्शन: वेबसाइट/APIs/सर्वे/कंपनी डेटाबेस से डेटा लेना।
  • टेक्स्ट क्लीनिंग: पंक्चुएशन, इमोजी, स्पेशल कैरेक्टर्स, HTML टैग्स, URLs हटाना।
  • टोकनाइजेशन: बड़े टेक्स्ट को छोटे-छोटे शब्दों या सेंटेंस में तोड़ना।
  • स्टॉप वर्ड रिमूवल: अर्थहीन शब्द हटाना जैसे "is", "the", "a" आदि।
  • फीचर इंजीनियरिंग: शब्दों को न्यूमेरिकल फॉर्मेट (जैसे वेक्टर) में बदलना।
  • स्टेमिंग/लेमेटाइजेशन: शब्दों को उनके मूल स्वरूप में लाना।
  • एन-ग्राम्स: लगातार आने वाले शब्दों के सेट बनाना, ऑटो-सजेशन आदि में काम।
  • वर्ड सेंस डिसएम्बिगुएशन: एक ही शब्द के अलग-अलग अर्थ का सही चयन।

महत्वपूर्ण NLP टूल्स/लाइब्रेरीज़

  • NLTK: NLP की बेसिक टेक्नीक्स जैसे टोकनाइजेशन, स्टॉप वर्ड रिमूवल, स्टेमिंग के लिए।
  • Scikit-learn: फीचर वेक्टराइज़ेशन व मॉडल बिल्डिंग के लिए।
  • TensorFlow: डीप-लर्निंग आधारित NLP मॉडल्स के लिए।

Key Terms & Definitions

  • NLP (Natural Language Processing) — मशीन द्वारा मानव भाषा की समझ और संसाधन।
  • Tokenization — टेक्स्ट को छोटे-छोटे शब्दों या सेंटेंस में बाँटना।
  • Stop Words — ऐसे सामान्य शब्द जो अर्थ में ज़्यादा योगदान नहीं देते।
  • Stemming — शब्द से suffix/prefix हटाकर उसकी root form निकालना।
  • Lemmatization — शब्द का शुद्ध बेस फॉर्म निकालना।
  • N-grams — n संख्या के लगातार शब्दों के समूह।
  • Vectorization — टेक्स्ट को न्यूमेरिकल वैल्यू (vector) में बदलना।
  • Word Sense Disambiguation (WSD) — एक शब्द के सही अर्थ का चयन सम्बंधित सन्दर्भ के अनुसार।

Action Items / Next Steps

  • टेक्स्ट प्री-प्रोसेसिंग की सभी स्टेप्स पर प्रैक्टिकल एक्सरसाइज़ करें।
  • NLTK और scikit-learn लाइब्रेरी इंस्टॉल कर के बेसिक कोडिंग प्रैक्टिस करें।
  • अगला लेक्चर: टेक्स्ट फिचर वेक्टराइज़ेशन की एडवांस्ड टेक्निक्स सीखें।