ग्रेडियन्ट डिसेंट का विस्तृत विश्लेषण

ग्रेडियन डिसेंट, कॉस्ट फंक्शन, लर्निंग रेट और मीन स्क्वेर एरर हम इस concept को आज कवर करने वाले हैं और Python का code लिखेंगे जिसमें हम gradient descent को implement करेंगे अब usually होता क्या है जब आप machine learning पढ़ने की शुरुवात करते हो चाहे कि वो Coursera या Udemy का course हो या तो फिर आप University में जा रहे हो उसमें first few lecture में math आता ही आता है और जब आप complex math की equation देखते हो ना तो आपके दिमाग की बत्ते ही उड़ जाती है आप सोते हैं मेरे तो college में या तो school में 100 में से 7 mark आया करते थे अब ये math कैसे मैं पढ़ूंगा this is not my cup of tea और बाद में जब ऐसे कुछ math के complex lecture में जाके जब बाहर निकालता है ना तो आपकी हालत हो चुकी होती है कुछ ऐसी लेकिन दोस्तों गपराओ मत ये इतना difficult जो आप सोते होना ऐसा नहीं है usually लोग है ना थोड़े lecture attend करते है machine learning के और बाद में छोड़ देते पढ़ाए बोलते है math is not my cup of tea अरे यार ऐसा नहीं है, Math जो है वो सारा Sklearn और TensorFlow की APIs में सारा Wrap हो चुका है, तो आपको Math को डीटेल में जानके उसको Implement करने के जरूरत नहीं है, Math जानने से फायदा यह होता है कि आपको कौन सा Machine Learning का Model यूज़ करना है, और Parameter को Tune कैसे करना है, उसके थोड़ी बहुत Understanding आती है, लेकिन अगेन उसके लिए भी आपको डीटेल में Math जाने की कुछ भी जरूरत नहीं है, आपको उपर का Overview पता होना चाहिए, ठीक है? तो आज हम वही करने वाला है, हम gradient descent की थोड़ी theory पढ़ेंगे, जिसमें थोड़ा बहुत overview लेंगे, और बाद में उसका python का program लिखेंगे. हम school days में जब linear equation पढ़ते थे, तो सर हमें यह सिखाते हैं, कि अगर तुम्हारे पास यह equation है, तो y की यह equation है, और यह x की values है, तो y derive करने के लिए we can do simple math, कि जैसे एक यहाँ पे रखा, तो 2 x 1 is 2 and then 3 is 5. Similarly, 2 रखोंगे तो 2 x 2 is 4 and 3 is 7. तो ये सब हम करा करते थे. Machine Learning में होता ये है कि तुम्हारे पास x और y की value होती है और तुम्हें derive करनी होती है ये equation. तो जैसे हमने home prices का जो problem solve किया, उसमें था क्या? हमारे पास area और उसकी price थी गर की और उसके उपर से हमने एक equation derive की थी ये अब आपको अगर याद नहीं है कि ये equation कौन सी थी तो पता है हमने किया था y is equal to mx plus b coefficient और intercept फाइन किया था अब हम आप ये tutorial देखोंगे न यहाँ पे तो पहले वाले tutorial में देखो coefficient हमने फाइन किया था 135 और intercept था 180,000 और वही चीज यहाँ पे है 135, 180,000 ठीक है तो machine learning में typically ये बात रह याद रखो कि input output होता है और उसके उपर से आप equation find करते हो और equation को बोलता है prediction function और एक बार आपके पास prediction function आ गया ना तो आप किसी भी घर की price predict कर सकते हो, सिर्फ आपको area की value यहाँ पर रखने की ज़रूरत होती है ठीक है तो अब जो first वाले tutorial में हमने देखा था कि monroe की home prices का हमने example दिया था जिसमें area वर्सिस प्राइस का हमने ये scatter plot चार्ट किया था और उसमें हमने ये best fit line जो है ना blue color की वो हमने find करने की कोशिश की थी अब problem ये होती है कि ये red dots जो है जो तुम्हारे actual data points है उसमें से तो तुम ये तीन type की line pass होती हुई तुम देख सकते हो है तो कौन सी line सबसे best है तो ये determine करने का तरीका ये होता है कि आप पहले एक कोई भी random line draw कर दो उसके बाद में तुम्हारा actual data point और line जो predict करने वाली है वो data point के बीच का distance जो है delta उसको निकालो और सारे delta को square करके उनका sum कर दो ये equation में जो ये e जैसा दिख रहा है उसका मतलब होता है sum करना कि x लेके n data point है यहाँ पे n मतलब फाई है लेकिन ज़्यादा भी हो सकते है तो हम इसलिए n लगते है वो सब delta को हम sum करते हैं और उससे पहले है ना sub delta को हम square भी करते हैं उसको वो negative value को tackle करने का ये तरीका है और कुछ उसका purpose नहीं है ठीक है ये अगर minus है ये positive है ना तो अगर मैं square नहीं करूँगा ना तो पूरा result हमारा skew हो जाएगा इसलिए इसको square करके sum करते हैं बाद में उसको n से divide करक तो mean squared error का ये equation है और ये equation कुछ भी नहीं है जो मैंने ये समझाया ना सिर्फ उसी को ही मैंने अलग तरीके से यहाँ पे लिखा हुआ है तो गबराने की कोई बात नहीं है ताय राइट yi मतलब की actual y data point minus y predicted मतलब line ने तुमारा क्या predict किया तो ये delta है तुमारा delta को square किया सब को sum किया और उसको answer divide किया तो आ गई mean squared error और mse इसको हम cost function भी बोलते हैं और ये mean squared error जो find करने का जो algorithm है ना उसको बोलते है gradient descent यह तुम्हें वो scatter plot में से जाती हुई एक सबसे best fit line है ना यह find करने में use करेगा तो gradient descent is a very fundamental thing in machine learning और यह gradient descent एक trial error based approach है तो मैंने यहाँ पे एक 3D plot आपको दिखाया है जिसमें M और B की value को plot किया है MSE मतलब कि mean square error के against में तो यहाँ पे दिख रहा है आपको different M की values है, यहाँ पे different B की value है, और यहाँ पे यह एक चादर जैसा जो plane दिख रहा है न, वो सिर्फ MSE की value है, तो आप सोच लो जैसे M की value 0 है, B की value 0 है, तो यह दोनों यहाँ पे मिलते हैं न, तो यहीं पे कहीं पे जो MSE value आती है, वो होती उस algorithm में पहले m और b की random value से start करते हैं, जैसे मानलो यह 0 से चालू कर दिया, तो m 0 है, b 0 है, तो हमने जो msc जो है न, मतलब mean square error, वो calculate करते हैं, और यहाँ पे एक plot करते हैं, और वो calculate वो जो हमने equation देखी न, इस equation के हिसाब से हम calculate करेंगे, ठीक है, उसके बाद में हम m और b की value क थोड़ा सा जो है ना वो मैं बाद में समझाओगा कि कितना reduce करना है लेकिन अभी के लिए मान लो कि हमने थोड़ा सा reduce किया फिर से MSC की value calculate की और हमें पता चला कि अच्छा cost reduce हो रहा है तो बाद में हम फिर से उसको थोड़ा reduce करेंगे reduce करते जाएंगे जब त तीसरा M&B है तो यह blue line का M&B जो है ना यह यहां पर आ जाएगा जहां पर तुम्हारा cost एकदम minimum हो जाएगा यह थोड़ा visualization है यह gradient descent algorithm को explain करने के लिए यह अच्छी सी website पर मैंने reference लिया है तो देखिए आप यहां पर देख सकते हैं कि M की value कैसे reduce हो रही है B को हमने constant रखा है और iteration मतलब trial and error right iteration मतलब उसका मतलब क्या कि यह देखो पहले यहां से स्टार्ट किया बाद में यहां गए तो एक दो तीन यह तुम्हारे स्टैप्स और आइटरेशन होता है तो हर स्टैप में यह अटरेशन में देखा नंबर बढ़ रहा है यहां पर तो क्या होता है एम की वैल्यू कैसे रिड्यूस होती है यह दिखाते हैं और इवेंचुली आपको रेड कलर की लाइन मिल जाती है जो सबसे बेस्ट फिट होता है आपके डाटा के लिए ठीक है अब इसको थोड़ा डिटेल में और जाकर देखते हैं यह थ्रीडी प्लेन है उसको मैं दो टू जिसमें आप समर्वलो यह दिवाल है और यहाँ पर जो बी लिखा है ना यहाँ पर आप खड़े हो तो यह दिवाल दिखेंगे ना तो उसमें MSC दिखेगा horizontal axis पे, vertical axis पे और horizontal axis पे आपको दिखेगा बी तो आपको चार्ट कुछ ऐसा दिखेगा और similarly अगर इसको दिवाल समर वो तुम्हारी optimal value है m और b जिसके लिए cost सबसे कम है उसको हम minima भी बोलते है अब steps कैसे लेने है उसकी बात करते है तो जैसे चलो हम एक strategy ये decide करते है कि fixed size के step ले fixed size के step लेने का disadvantage ये है कि आप step लेते ये सारे arrow है न उसकी size देखो same है अगर यहाँ पे आ गए और यहाँ पे से दूसरा एक reduce कर दिया right तो फिक्सर के स्टेप का मतलब है कि B की value आपने यहां से start की, MSE calculate किया, उसके बाद मैं B की value थोड़ी reduce की, तो थोड़ी है न, वो X, जैसे कि आपने constant कर लिया, तो आप यहां पे जब आओगे न, तो आप ये global minima को miss करते जाओगे, और आप यहां पे आजाओगे, और उसके बाद मैं आप B reduce भी करोगे न, तो आपका cost तो बढ़ने वाला है, ठीक है, तो ये fixed step वाली strategy नहीं काम करेगी, तो दूसरी strategy ये है, कि आप जो step लेते जाओ और जैसे ये error आपकी reduce होती है उसको step को थोड़ा गटा दे जाओ अब ये भी एक difficult सवाल है कि थोड़ा मतलब कितना गटाना है तो उसके लिए है ना हम क्या करेंगे कि पहले तो हर एक point पे ये एक tangent ड्रॉ करेंगे tangent मतलब हर एक point पे जो slope है ना वो line ड्रॉ करेंगे और उस slope की line में हम आगे बढ़ेंगे है और वह स्टेप थोड़े घटा दे जाएंगे ठीक है अब थोड़ा मैस देखना पड़ेगा ट्रेट लाइन का स्लोप तो हमें पता है लेकिन इसे कर्वेचर वाली लाइन पर वह भी पॉइंट का स्लोप क्या होता है तो मैं इसके लिए हमने थोड़े डेरिवेटिव और पार्शल डेरिवेटिव के कॉन्सेप्ट जानने पड़ेगे एक यूट्यूब पर चैनल है थ्री भी वन भी करके यह बंदा बहुत ही अच्छा पड़ाता है आई हाइली रेकमेंड और इस चैनल पर जाकर आप अपने अ कि कैलकुलिस के एसेंशियल या तो लीनर जेबरा के एसेंशियल को रिफ्रेस कर सकते हो यह जो पर्सन है ना वह विजुअलाइजेशन यूज करता है और वह मैथ ऐसे पढ़ाता है जैसे पोएट्री पढ़ाता हो तो बहुत ही अफेक्टिव लर्निंग है तो आप अपने फंडामेंटल्स मैथ के कुछ प्रशिक्ष करना चाहे तो यहां पर जाकर कर सकते हो ठीक है अब मैं आपको है यह पार्शल डेरिविटी का मैं ब्रीफ में ओवरव्यू दे देता हूं तो यह एक वेबसाइट है मैथ इस फ्रंड और उसमें इन लोगों ने derivative का अच्छा समझा है तो पहले derivative होता क्या है straight line है उसका slope तो एकदम straightforward है change in y divided by change in x is your slope similarly दो point अगर straight line नहीं भी है और दो point के बीच का slope आपको निकालना है तो दो point का y का difference और x का difference को divide कर दो तो slope मिल जाएगा लेकिन specific point का slope कैसे निकाले यह ट्रिक क्वेश्चन है ठीक है तो उसके लिए हम क्या करते हैं जैसे यह स्पेसिफिक पॉइंट पर आपको स्लोप निकलना है तो आप है ना पहले ही यह कर लो एक आप गर्मे अगर मैगनीफायर है तो मैगनीफायर लेकर आओ और उसको थोड़ा और उस ट्रेट लाइन का है ना डेल्टा वाइब डिवर बैर डेल्टा एक्स करोगे ना तो आपको स्लोप मिल ही जाएगा तो आइडिया यह है कि जैसे ही x approach करता है 0 को आपकी slope की accuracy बढ़ती है यह एक fundamental principle है derivatives का ठीक है यहाँ पे वही समझा है कि change in y there by change in x and as delta x shrinks towards 0 your slope becomes more accurate अब थोड़ा और math है और mathematically यह prove किया है कि अगर आपकी equation है x square तो उसका slope होगा 2x तो x square जो equation का जो भी chart है न कोई भी point पे आपको slope find करना है तो वो होगा 2x this is mathematically proven और उसको बोलते है derivative मरलब कि derivative of x square is 2x और उसका एक formula होता है कि जो square है न ये 2 है न उसको आगे ले जाओ तो 2 आगे और 2 में से एक बात reduce कर दो तो 2 में 1 से 1 reduce करते हैं तो x raise to 1 होता है और उसको as a x भी लिख सकते हो इसलिए x square का derivative होता है 2x अब आता है partial derivative partial derivative में अगर equation में दो independent variable है जैसे ये equation में है न एक ही independent variable था x इसमें दो variable है x square और y cube तो इसमें हम partial derivative ढूनते है उसको बोलता है कि partial derivative with respect to x, यह जो मेरा function है न, उसका partial derivative with respect to x, और वो calculate करने के लिए जो दूसरा variable है, जो y, उसको 0 कर दो, और x का derivative ढूंढ निकालो, तो x square का derivative आपको पता है 2x होता है, तो हमारा यह आ गया partial derivative, कि इस function का partial derivative with respect to x is 2x, with respect to y find करने के लिए x को 0 कर दिया और y cube जो होता है ना उसका derivative होता है 3 को आगे ले जाओ और 3 में से 1 reduce कर दो तो 3y square आ जाता है again just to revise अगर x cube function है तो उसका जो derivative होता है वो होता है 3x square और अगर x cube plus y square होता है तो उसमें पहले हम partial derivative with respect to x करेंगे तो 3x square होगा और partial derivative with respect to y करेंगे तो होगा 2y अब हमारी जो mean square error जो हमारी equation है ये भी एक equation है रहेड तो उसमें हम partial derivative दूनदेगे first with respect to m then with respect to b तो इसकी equation ये होती है अब ये equation कैसे आई वो उसके लिए मैं detail में नहीं जा रहा हूँ क्योंकि otherwise scope बढ़ जाएगा यह कुछ नहीं है, यह partial derivative mathematically हमने calculate किया है, तो अब ज़्यादा tension मत लो, you can accept that this is the partial derivative, और अगर आपको interest है detail में जाने के लिए, तो you can follow some other resources, similarly partial derivative of b, है ऑफ एमेसी विद रिस्पेक्ट टू बी इस देश और हम क्या करता है कि अब यह जो हमने स्लॉप देखा तो उसमें हर एक पॉइंट पर हम पार्शल डेरिवेटिव कैलकुलेट करके और स्टैप लेकर हम थोड़ा-थोड़ा इसको रिड्यूस करेंगे तो यह स्टैप की साइज जो एरो की साइज वह कैसे कैलकुलेट करनी होती है वह मैं बता रहा हूं तो होगा इस तरीके से कि पहले m और b की कोई random value से हम चालू करेंगे, let's say 0, उसके बाद में next step में कैसे जाएंगे, तो यह है step size, देखो, यह जो है न, learning rate into this, यह step size है, और m की initial value में से हम step size बात करते हैं, तो step size होती है तुम्हारा partial derivative, जो के होता है slope, और एक learning rate होता है, learning rate मतलब आपको कितना speed में आ� लेने है, right, तो वो learning rate कैसे लेना है, वो भी हम बाद में बात करेंगे, लेकिन कोई x learning rate लेके हम steps को reduce कर सकते हैं तो मान लो आपने b1 से start किया तो आपका b2 होगा b1 minus learning rate into the partial derivative ठीक है, तो यह इतनी theory होगी अब हम python का code लिखेंगे gradient descent algorithm को implement करने के लिए, आज की tutorial में मैं pi charm आईडीए का यूज करूंगा आपको जुपिडे नॉटबुक यूज करना है तो आप वह भी कर सकते हैं पाइचाम कम्यूनिटी एडिजन फ्री है तो आप जेट ब्रेन की वेबसाइट पर वह डाउनलोड कर सकते हो मैंने यहां पर एक्स और वाइड वह रही है और हमने जैसे थिरीय में इनिशियल देखा ना कि एक्स और वाइड की वैल्यू आपके पास दो आए है और उसके पर से हमें इक्वेशन जो है वाइड की क्वेश्चन जो आपको देख रही है वह हमें फाइंड आउट करनी है gradient descent algorithm का use करके तो यहां पर gradient descent algorithm हम implement करेंगे तो हमने जैसे theory में देखा ना कि first step होता है कि आप m और b की random value से start करो तो हमने start कर दिया चलो भाईया 0 से okay so 0 की value से हमने initialize कर दिया और हमें थोड़े iterations में let's say हम 10 iterations से चाल करते हैं तो हमें यह 10 step लेंगे और कॉस्ट कैलकुलेट करेंगे देखेंगे कि कितना कॉस्ट रिड्यूज होता है तो यहां पर फॉर आई इन रेंज आईटरेशन तो मैं आईटरेट कर रहा हूं सबसे पहले हमें वाइप रिडेक्टेड क्या है यह निकालना है तो वाइप रिडिक्ट जो है वह कुछ नहीं लेकिन m x एक्स प्लस भी तो बी करण की वैल्यू है ना उसके पर से आपने वाइप रेडिक्टर निकाल दिया अब कॉस्ट की एक्वेशन आपको पता है कॉस्ट की एक्वेशन होती है सबसे पहले आपको वाय माइनस वाइपी करना पड़ता है ठीक है अब वाइट देखा है यह नमपाई के रहते हैं वह हमने यहां पर पास किया है नमपाई की एरे को आप ऐसे माइनस कर सकते बेसिकली वेक्टर इस लाइक अनुदर लिस्ट और अरे तो उस पर आप लिस्ट कंप्रीहेंशन का यूज कर सकते करके ऐसी को ऐसे लिख सकते कि फॉर वैल इन दिस ओके तो यह हर एक वैल्यू जो डेल्टा की वैल्यू आती है देखो वाय माइनस राइटेड कर रहे हो और हर एक डेल्टा वैल्यू को आप कर रहे हो स्क्वेयर तो पाइथोन में से स्क्वेयर कर सकते हैं और उसको ऐसे array में हम store कर सकते हैं, ठीक है, तो यह आ गया sum of square of every delta value, और sum के लिए हमें sum करना पड़ेगा, तो यह आ गया sum, ठीक है, अब उसको हम 1 divide by n करेंगे, तो यह आ गया हमारा mean square error, ठीक है, अब एन क्या है तो एन होता है लेन आफ एक्स और वाइटी लेंथ वैसे सेमी होनी चाहिए तो आप वैलिडेशन डाल सकते हो तो डोजन बैटर एक्स और वाइट तो उसकी लेंथ से डिवाइड किया तो यह कॉस्ट आ गया और इसको हम मीन स्क्वेर एरर भी बोल सकते हैं अब हमें फाइन करना है पार्शल डेरिवेटिव अ आफ एम ठीक है और हमने इक्वेशन में ऑलरी देखा तो हम इक्वेशन को ही इंप्रेमेंट कर रहे कि टू बाय एन होता है इंटू सम ऑफ समथिंग अच्छा सम ऑफ क्या एक्स इंटू वाय माइनस प्रेडिक्टेड यह इक्वेशन होती है यह होता है एम का पार्शल डेरिविटिव और बी का जो partial derivative होता है वो है again यो जो right side में आपको equation लिख रहे न है उसको equation को ही मैं यहाँ पर छाब रहा हूँ code में y minus yp ठीक है तो ये partial derivative आ गया और हमने step की भी equation देखी है कि step की equation है कि जो नया वाला जो m है न वो current m minus learning rate अच्छा अब learning rate क्या है हमें नहीं बता, minus learning rate into partial derivative of m तो learning rate ये trial and error है तो हम कुछ भी learning rate रख सकते है तो just say .001 ठीक है, randomly हमें trial and error करके find करना पड़ेगा कि क्या आता है और हम print करेंगे m की value को, b की value को और cost को, ठीक है, तो m current, b current and cost, कि और एक चीज भी कर देता हूं भाई चलो एटरेशन भी प्रिंट करवा देते हैं कि कौन से एटरेशन में क्या हो रहा है मैं पता चले यार ठीक है तो इतना कोड हो गया हमारा मैं यह सेक्स्टर स्पेस निकाल देता हूं और मैं इसको रन करता हूं ठीक है तो रन करने के लिए एक्शन एक स्टेप भूल गया मैंने बीक करंट जो है वह बीकरन माइनस सेम चीजे करनी पड़ेगी ना लॉनिंग रेट इंटू बीडी और राइट चला इस कोड को रन करके देखते हैं कि होता क्या है अच्छा इसको है ना मैं राइट हेंड साइड में तो आप देख रहे हैं कि यहां पर हर एक आइटरेशन में जो कॉस् इसका मतलब है हम लोकल मीनिमार्ग, ग्लोबल मीनिमार्ग के और बढ़ रहे हैं, तो अब हम क्या करते हैं, लर्निंग रेट को थोड़ा और बढ़ा के देख लेते हैं कि कॉस्ट का क्या होता है, हुम, तो इसमें भी कॉस्ट तो गठी रहा है, तो अच्छा ये तो अच्छी अच्छा अब देखो 0.1 ट्राइ करने से लवड़ा हो गया है, cost 89 था, बाद में 165 हो गया है, मतलब कि ये learning rate थोड़ा जादा ही है, हम global minima को miss कर रहे हैं, तो 0.1 तो नहीं चलेगा, तो 0.01 था, जिसमें cost आ गया था ये, 0.05 करके देख लेते हैं, चलो इसमें भी अच्छा improvement है कि cost देखो 89 से 3 हो गया 0.8 और गट के 0.69 हो गया यह ट्रायल ऐरेक्ट करके आप अप्टिमल कॉस्ट वगैरह निकाल सकते हो चलो यह भी अच्छा है 89 to 56 to यह और इसमें आईट्रेशन ऐसा ना तो बढ़ा देते हैं आईट्रेशन बढ़ा के देख लेते हैं तो थाउजन आईट्रेशन करने से हो गया है मेरा कॉस्ट देखो वन पॉइंट अ 5 raise to minus 24 मतलब cost is almost near to 0 और आपने देख ले हैं मेरे को m और b की optimal value भी बिल गई b is 2.999999 which is 3 तो हमारी equation में हमने देखा था न कि y is equal to 2x plus 3 तो देखो ये हमको gradient descent ने ये find करके बता दिया good job अब ये सवाल उठता है कि हमें stop कब करना है तो एक strategy ये है कि आप cost करने को previous cost के साथ compare कर दे जाओ और देखो कि cost बहुत reduce हो रहा की नहीं देखो हमने 1000 iteration किये थे न तो उसमें फिर भी ये cost देखो 1.59, 1.51 थोड़ा reduce हो रहा था लेकिन minus 24 है तो इतना भी reduce नहीं होता, लेकिन चलो मानलो 10,000 step है, तो 10,000 steps में होगा क्या, कि आप देखोगे कि between all these steps cost बहुत कुछ खास reduce नहीं हो रहा है, तो इसके लिए आपको सारे इतने सारे iteration करने की जरूरत नहीं है, तो previous cost को compare करने की strategy हम use कर सकते हैं, यह decide करने के लिए कि हमें stop कब करना है, ठीक है, तो यह एक बात आपको ध्यान में रखनी चाहिए मैंने एक जुपिटर नॉटबुक बनाई है थोड़े विज्जूल रिप्रेजेंटेशन के लिए जो आपको वीडियो डिस्क्रिप्शन जो नीचे है ना इस वीडियो में उसमें मिल जाएगी उसमें पाइथन की मेरी फाइल और जुपिटर नॉटबुक दोनों की लिंक रखी हुई है तो इसमें जब भी मैं यह फोल लूप रन करता हूं तो हर बार है और उसमें हमने विंचुली बेस्ट फिट वाली लाइन फेट फाइंड कर ली ग्रेडियन डिसेंट का यूज करके और यहां पर दिख रहा है कि हमने जीरो से चालू किया था एम और बीडी को और दिमेंदिमें रिड्यूस किया ना तो लाइन ऐसे ऊपर चलती गई और दिमेंदिमें एड्रेस्ट होकर बेस्ट फिट हो गई ओके अब सबसे इंटरेस्टिंग पार्ट जो अगर exercise नहीं करेंगे तो आपको पढ़ाई कैसे आएगी भीया देखो इस exercise में हम करेंगे क्या कि मैंने कुछ students का math और computer science का score यहाँ पे लिखा हुआ है तो समझ लो यह है तुमारा x और यह है तुमारा y तुम्हें यह x और y का correlation find करना है मतलब कि equation using gradient descent वैसे और math और CS के score का कुछ तालुकात नहीं होता है लेकिन अगर math में बंदा अच्छा कर रहा है, तो मतलब intelligent है, तो computer में ही अच्छा करेगा, तो हम ऐसा सोच सकते हैं, कि चलो कोई तो correlation है, यह है, right, जैसे यह बंदे का 49 math में है, तो computer science में भी कम ही आए, तो gradient descent का use करके, आप यह equation find करो, again this is x, this is y, आप m और b की value find कर रहे हो, और x और y का correlation निकाल रहे हो, है और अगर आपको आइटरेशन में स्टॉप करना है तो आप मैं दोटी इस क्लोस फंक्शन का यूज कर सकते हैं टॉलरेंस लेवल को आप ऐसा करो कि वन इस टू माइनस 20 टॉलरेंस का यूज करो और फाइंड आउट करो ब्रेक करो लूप को जब भी तुम्हारा कॉस्ट मतलब बहुत ही ज्यादा चेन नहीं हो रहा है तो आपकी लूप को ब्रेक कर दो और एम और बेकी वैल्यू को प्रेंट करा दो यह टूटोरियल में जो पाइथन कोड और जूपिटर नॉटबुक मैंने डिस्कस की उसकी वीडियो डिस्क्रिप्शन में लिंक मैंने नीचे रखी है और यह सीएसवी फाइल है ना उसकी भी लिंक नीचे है आपको गिट हब की मेरी जो रिपोजिटरी है उसमें रूट में जाकर एक ग्रीन बटन डबाकर उसको क्लोन करना है तो यह बाद आपको ध्यान में जरूर रखनी है और आपका जो भी इस जो एक्सरसाइज है उसका भी मेरे टूटल में मेरे एक्सरसाइज फोल्डर में उसका अंसर है लेकिन आंसर पहले मत देखो पहले आप ट्राइप करो और उसके बाद में answer देखो आज के लिए इतना काफी है अगले tutorial में हम देखेगी कि model जो train हो चुका है ना उसको हम save कैसे करते है ठीक है thank you very much and bye

Machine Learning में होता ये है कि तुम्हारे पास x और y की value होती है और तुम्हें derive करनी होती है ये equation. तो जैसे हमने home prices का जो problem solve किया, उसमें था क्या? हमारे पास area और उसकी price थी गर की और उसके उपर से हमने एक equation derive की थी ये अब आपको अगर याद नहीं है कि ये equation कौन सी थी तो पता है हमने किया था y is equal to mx plus b coefficient और intercept फाइन किया था अब हम आप ये tutorial देखोंगे न यहाँ पे तो पहले वाले tutorial में देखो coefficient हमने फाइन किया था 135 और intercept था 180,000 और वही चीज यहाँ पे है 135, 180,000 ठीक है तो machine learning में typically ये बात रह याद रखो कि input output होता है और उसके उपर से आप equation find करते हो और equation को बोलता है prediction function और एक बार आपके पास prediction function आ गया ना तो आप किसी भी घर की price predict कर सकते हो, सिर्फ आपको area की value यहाँ पर रखने की ज़रूरत होती है ठीक है तो अब जो first वाले tutorial में हमने देखा था कि monroe की home prices का हमने example दिया था जिसमें area वर्सिस प्राइस का हमने ये scatter plot चार्ट किया था और उसमें हमने ये best fit line जो है ना blue color की वो हमने find करने की कोशिश की थी अब problem ये होती है कि ये red dots जो है जो तुम्हारे actual data points है उसमें से तो तुम ये तीन type की line pass होती हुई तुम देख सकते हो है तो कौन सी line सबसे best है तो ये determine करने का तरीका ये होता है कि आप पहले एक कोई भी random line draw कर दो उसके बाद में तुम्हारा actual data point और line जो predict करने वाली है वो data point के बीच का distance जो है delta उसको निकालो और सारे delta को square करके उनका sum कर दो ये equation में जो ये e जैसा दिख रहा है उसका मतलब होता है sum करना कि x लेके n data point है यहाँ पे n मतलब फाई है लेकिन ज़्यादा भी हो सकते है तो हम इसलिए n लगते है वो सब delta को हम sum करते हैं और उससे पहले है ना sub delta को हम square भी करते हैं उसको वो negative value को tackle करने का ये तरीका है और कुछ उसका purpose नहीं है ठीक है ये अगर minus है ये positive है ना तो अगर मैं square नहीं करूँगा ना तो पूरा result हमारा skew हो जाएगा इसलिए इसको square करके sum करते हैं बाद में उसको n से divide करक तो mean squared error का ये equation है और ये equation कुछ भी नहीं है जो मैंने ये समझाया ना सिर्फ उसी को ही मैंने अलग तरीके से यहाँ पे लिखा हुआ है तो गबराने की कोई बात नहीं है ताय राइट yi मतलब की actual y data point minus y predicted मतलब line ने तुमारा क्या predict किया तो ये delta है तुमारा delta को square किया सब को sum किया और उसको answer divide किया तो आ गई mean squared error और mse इसको हम cost function भी बोलते हैं और ये mean squared error जो find करने का जो algorithm है ना उसको बोलते है gradient descent यह तुम्हें वो scatter plot में से जाती हुई एक सबसे best fit line है ना यह find करने में use करेगा तो gradient descent is a very fundamental thing in machine learning और यह gradient descent एक trial error based approach है तो मैंने यहाँ पे एक 3D plot आपको दिखाया है जिसमें M और B की value को plot किया है MSE मतलब कि mean square error के against में तो यहाँ पे दिख रहा है आपको different M की values है, यहाँ पे different B की value है, और यहाँ पे यह एक चादर जैसा जो plane दिख रहा है न, वो सिर्फ MSE की value है, तो आप सोच लो जैसे M की value 0 है, B की value 0 है, तो यह दोनों यहाँ पे मिलते हैं न, तो यहीं पे कहीं पे जो MSE value आती है, वो होती उस algorithm में पहले m और b की random value से start करते हैं, जैसे मानलो यह 0 से चालू कर दिया, तो m 0 है, b 0 है, तो हमने जो msc जो है न, मतलब mean square error, वो calculate करते हैं, और यहाँ पे एक plot करते हैं, और वो calculate वो जो हमने equation देखी न, इस equation के हिसाब से हम calculate करेंगे, ठीक है, उसके बाद में हम m और b की value क थोड़ा सा जो है ना वो मैं बाद में समझाओगा कि कितना reduce करना है लेकिन अभी के लिए मान लो कि हमने थोड़ा सा reduce किया फिर से MSC की value calculate की और हमें पता चला कि अच्छा cost reduce हो रहा है तो बाद में हम फिर से उसको थोड़ा reduce करेंगे reduce करते जाएंगे जब त तीसरा M&B है तो यह blue line का M&B जो है ना यह यहां पर आ जाएगा जहां पर तुम्हारा cost एकदम minimum हो जाएगा यह थोड़ा visualization है यह gradient descent algorithm को explain करने के लिए यह अच्छी सी website पर मैंने reference लिया है तो देखिए आप यहां पर देख सकते हैं कि M की value कैसे reduce हो रही है B को हमने constant रखा है और iteration मतलब trial and error right iteration मतलब उसका मतलब क्या कि यह देखो पहले यहां से स्टार्ट किया बाद में यहां गए तो एक दो तीन यह तुम्हारे स्टैप्स और आइटरेशन होता है तो हर स्टैप में यह अटरेशन में देखा नंबर बढ़ रहा है यहां पर तो क्या होता है एम की वैल्यू कैसे रिड्यूस होती है यह दिखाते हैं और इवेंचुली आपको रेड कलर की लाइन मिल जाती है जो सबसे बेस्ट फिट होता है आपके डाटा के लिए ठीक है अब इसको थोड़ा डिटेल में और जाकर देखते हैं यह थ्रीडी प्लेन है उसको मैं दो टू जिसमें आप समर्वलो यह दिवाल है और यहाँ पर जो बी लिखा है ना यहाँ पर आप खड़े हो तो यह दिवाल दिखेंगे ना तो उसमें MSC दिखेगा horizontal axis पे, vertical axis पे और horizontal axis पे आपको दिखेगा बी तो आपको चार्ट कुछ ऐसा दिखेगा और similarly अगर इसको दिवाल समर वो तुम्हारी optimal value है m और b जिसके लिए cost सबसे कम है उसको हम minima भी बोलते है अब steps कैसे लेने है उसकी बात करते है तो जैसे चलो हम एक strategy ये decide करते है कि fixed size के step ले fixed size के step लेने का disadvantage ये है कि आप step लेते ये सारे arrow है न उसकी size देखो same है अगर यहाँ पे आ गए और यहाँ पे से दूसरा एक reduce कर दिया right तो फिक्सर के स्टेप का मतलब है कि B की value आपने यहां से start की, MSE calculate किया, उसके बाद मैं B की value थोड़ी reduce की, तो थोड़ी है न, वो X, जैसे कि आपने constant कर लिया, तो आप यहां पे जब आओगे न, तो आप ये global minima को miss करते जाओगे, और आप यहां पे आजाओगे, और उसके बाद मैं आप B reduce भी करोगे न, तो आपका cost तो बढ़ने वाला है, ठीक है, तो ये fixed step वाली strategy नहीं काम करेगी, तो दूसरी strategy ये है, कि आप जो step लेते जाओ और जैसे ये error आपकी reduce होती है उसको step को थोड़ा गटा दे जाओ अब ये भी एक difficult सवाल है कि थोड़ा मतलब कितना गटाना है तो उसके लिए है ना हम क्या करेंगे कि पहले तो हर एक point पे ये एक tangent ड्रॉ करेंगे tangent मतलब हर एक point पे जो slope है ना वो line ड्रॉ करेंगे और उस slope की line में हम आगे बढ़ेंगे है और वह स्टेप थोड़े घटा दे जाएंगे ठीक है अब थोड़ा मैस देखना पड़ेगा ट्रेट लाइन का स्लोप तो हमें पता है लेकिन इसे कर्वेचर वाली लाइन पर वह भी पॉइंट का स्लोप क्या होता है तो मैं इसके लिए हमने थोड़े डेरिवेटिव और पार्शल डेरिवेटिव के कॉन्सेप्ट जानने पड़ेगे एक यूट्यूब पर चैनल है थ्री भी वन भी करके यह बंदा बहुत ही अच्छा पड़ाता है आई हाइली रेकमेंड और इस चैनल पर जाकर आप अपने अ कि कैलकुलिस के एसेंशियल या तो लीनर जेबरा के एसेंशियल को रिफ्रेस कर सकते हो यह जो पर्सन है ना वह विजुअलाइजेशन यूज करता है और वह मैथ ऐसे पढ़ाता है जैसे पोएट्री पढ़ाता हो तो बहुत ही अफेक्टिव लर्निंग है तो आप अपने फंडामेंटल्स मैथ के कुछ प्रशिक्ष करना चाहे तो यहां पर जाकर कर सकते हो ठीक है अब मैं आपको है यह पार्शल डेरिविटी का मैं ब्रीफ में ओवरव्यू दे देता हूं तो यह एक वेबसाइट है मैथ इस फ्रंड और उसमें इन लोगों ने derivative का अच्छा समझा है तो पहले derivative होता क्या है straight line है उसका slope तो एकदम straightforward है change in y divided by change in x is your slope similarly दो point अगर straight line नहीं भी है और दो point के बीच का slope आपको निकालना है तो दो point का y का difference और x का difference को divide कर दो तो slope मिल जाएगा लेकिन specific point का slope कैसे निकाले यह ट्रिक क्वेश्चन है ठीक है तो उसके लिए हम क्या करते हैं जैसे यह स्पेसिफिक पॉइंट पर आपको स्लोप निकलना है तो आप है ना पहले ही यह कर लो एक आप गर्मे अगर मैगनीफायर है तो मैगनीफायर लेकर आओ और उसको थोड़ा और उस ट्रेट लाइन का है ना डेल्टा वाइब डिवर बैर डेल्टा एक्स करोगे ना तो आपको स्लोप मिल ही जाएगा तो आइडिया यह है कि जैसे ही x approach करता है 0 को आपकी slope की accuracy बढ़ती है यह एक fundamental principle है derivatives का ठीक है यहाँ पे वही समझा है कि change in y there by change in x and as delta x shrinks towards 0 your slope becomes more accurate अब थोड़ा और math है और mathematically यह prove किया है कि अगर आपकी equation है x square तो उसका slope होगा 2x तो x square जो equation का जो भी chart है न कोई भी point पे आपको slope find करना है तो वो होगा 2x this is mathematically proven और उसको बोलते है derivative मरलब कि derivative of x square is 2x और उसका एक formula होता है कि जो square है न ये 2 है न उसको आगे ले जाओ तो 2 आगे और 2 में से एक बात reduce कर दो तो 2 में 1 से 1 reduce करते हैं तो x raise to 1 होता है और उसको as a x भी लिख सकते हो इसलिए x square का derivative होता है 2x अब आता है partial derivative partial derivative में अगर equation में दो independent variable है जैसे ये equation में है न एक ही independent variable था x इसमें दो variable है x square और y cube तो इसमें हम partial derivative ढूनते है उसको बोलता है कि partial derivative with respect to x, यह जो मेरा function है न, उसका partial derivative with respect to x, और वो calculate करने के लिए जो दूसरा variable है, जो y, उसको 0 कर दो, और x का derivative ढूंढ निकालो, तो x square का derivative आपको पता है 2x होता है, तो हमारा यह आ गया partial derivative, कि इस function का partial derivative with respect to x is 2x, with respect to y find करने के लिए x को 0 कर दिया और y cube जो होता है ना उसका derivative होता है 3 को आगे ले जाओ और 3 में से 1 reduce कर दो तो 3y square आ जाता है again just to revise अगर x cube function है तो उसका जो derivative होता है वो होता है 3x square और अगर x cube plus y square होता है तो उसमें पहले हम partial derivative with respect to x करेंगे तो 3x square होगा और partial derivative with respect to y करेंगे तो होगा 2y अब हमारी जो mean square error जो हमारी equation है ये भी एक equation है रहेड तो उसमें हम partial derivative दूनदेगे first with respect to m then with respect to b तो इसकी equation ये होती है अब ये equation कैसे आई वो उसके लिए मैं detail में नहीं जा रहा हूँ क्योंकि otherwise scope बढ़ जाएगा यह कुछ नहीं है, यह partial derivative mathematically हमने calculate किया है, तो अब ज़्यादा tension मत लो, you can accept that this is the partial derivative, और अगर आपको interest है detail में जाने के लिए, तो you can follow some other resources, similarly partial derivative of b, है ऑफ एमेसी विद रिस्पेक्ट टू बी इस देश और हम क्या करता है कि अब यह जो हमने स्लॉप देखा तो उसमें हर एक पॉइंट पर हम पार्शल डेरिवेटिव कैलकुलेट करके और स्टैप लेकर हम थोड़ा-थोड़ा इसको रिड्यूस करेंगे तो यह स्टैप की साइज जो एरो की साइज वह कैसे कैलकुलेट करनी होती है वह मैं बता रहा हूं तो होगा इस तरीके से कि पहले m और b की कोई random value से हम चालू करेंगे, let's say 0, उसके बाद में next step में कैसे जाएंगे, तो यह है step size, देखो, यह जो है न, learning rate into this, यह step size है, और m की initial value में से हम step size बात करते हैं, तो step size होती है तुम्हारा partial derivative, जो के होता है slope, और एक learning rate होता है, learning rate मतलब आपको कितना speed में आ� लेने है, right, तो वो learning rate कैसे लेना है, वो भी हम बाद में बात करेंगे, लेकिन कोई x learning rate लेके हम steps को reduce कर सकते हैं तो मान लो आपने b1 से start किया तो आपका b2 होगा b1 minus learning rate into the partial derivative ठीक है, तो यह इतनी theory होगी अब हम python का code लिखेंगे gradient descent algorithm को implement करने के लिए, आज की tutorial में मैं pi charm आईडीए का यूज करूंगा आपको जुपिडे नॉटबुक यूज करना है तो आप वह भी कर सकते हैं पाइचाम कम्यूनिटी एडिजन फ्री है तो आप जेट ब्रेन की वेबसाइट पर वह डाउनलोड कर सकते हो मैंने यहां पर एक्स और वाइड वह रही है और हमने जैसे थिरीय में इनिशियल देखा ना कि एक्स और वाइड की वैल्यू आपके पास दो आए है और उसके पर से हमें इक्वेशन जो है वाइड की क्वेश्चन जो आपको देख रही है वह हमें फाइंड आउट करनी है gradient descent algorithm का use करके तो यहां पर gradient descent algorithm हम implement करेंगे तो हमने जैसे theory में देखा ना कि first step होता है कि आप m और b की random value से start करो तो हमने start कर दिया चलो भाईया 0 से okay so 0 की value से हमने initialize कर दिया और हमें थोड़े iterations में let's say हम 10 iterations से चाल करते हैं तो हमें यह 10 step लेंगे और कॉस्ट कैलकुलेट करेंगे देखेंगे कि कितना कॉस्ट रिड्यूज होता है तो यहां पर फॉर आई इन रेंज आईटरेशन तो मैं आईटरेट कर रहा हूं सबसे पहले हमें वाइप रिडेक्टेड क्या है यह निकालना है तो वाइप रिडिक्ट जो है वह कुछ नहीं लेकिन m x एक्स प्लस भी तो बी करण की वैल्यू है ना उसके पर से आपने वाइप रेडिक्टर निकाल दिया अब कॉस्ट की एक्वेशन आपको पता है कॉस्ट की एक्वेशन होती है सबसे पहले आपको वाय माइनस वाइपी करना पड़ता है ठीक है अब वाइट देखा है यह नमपाई के रहते हैं वह हमने यहां पर पास किया है नमपाई की एरे को आप ऐसे माइनस कर सकते बेसिकली वेक्टर इस लाइक अनुदर लिस्ट और अरे तो उस पर आप लिस्ट कंप्रीहेंशन का यूज कर सकते करके ऐसी को ऐसे लिख सकते कि फॉर वैल इन दिस ओके तो यह हर एक वैल्यू जो डेल्टा की वैल्यू आती है देखो वाय माइनस राइटेड कर रहे हो और हर एक डेल्टा वैल्यू को आप कर रहे हो स्क्वेयर तो पाइथोन में से स्क्वेयर कर सकते हैं और उसको ऐसे array में हम store कर सकते हैं, ठीक है, तो यह आ गया sum of square of every delta value, और sum के लिए हमें sum करना पड़ेगा, तो यह आ गया sum, ठीक है, अब उसको हम 1 divide by n करेंगे, तो यह आ गया हमारा mean square error, ठीक है, अब एन क्या है तो एन होता है लेन आफ एक्स और वाइटी लेंथ वैसे सेमी होनी चाहिए तो आप वैलिडेशन डाल सकते हो तो डोजन बैटर एक्स और वाइट तो उसकी लेंथ से डिवाइड किया तो यह कॉस्ट आ गया और इसको हम मीन स्क्वेर एरर भी बोल सकते हैं अब हमें फाइन करना है पार्शल डेरिवेटिव अ आफ एम ठीक है और हमने इक्वेशन में ऑलरी देखा तो हम इक्वेशन को ही इंप्रेमेंट कर रहे कि टू बाय एन होता है इंटू सम ऑफ समथिंग अच्छा सम ऑफ क्या एक्स इंटू वाय माइनस प्रेडिक्टेड यह इक्वेशन होती है यह होता है एम का पार्शल डेरिविटिव और बी का जो partial derivative होता है वो है again यो जो right side में आपको equation लिख रहे न है उसको equation को ही मैं यहाँ पर छाब रहा हूँ code में y minus yp ठीक है तो ये partial derivative आ गया और हमने step की भी equation देखी है कि step की equation है कि जो नया वाला जो m है न वो current m minus learning rate अच्छा अब learning rate क्या है हमें नहीं बता, minus learning rate into partial derivative of m तो learning rate ये trial and error है तो हम कुछ भी learning rate रख सकते है तो just say .001 ठीक है, randomly हमें trial and error करके find करना पड़ेगा कि क्या आता है और हम print करेंगे m की value को, b की value को और cost को, ठीक है, तो m current, b current and cost, कि और एक चीज भी कर देता हूं भाई चलो एटरेशन भी प्रिंट करवा देते हैं कि कौन से एटरेशन में क्या हो रहा है मैं पता चले यार ठीक है तो इतना कोड हो गया हमारा मैं यह सेक्स्टर स्पेस निकाल देता हूं और मैं इसको रन करता हूं ठीक है तो रन करने के लिए एक्शन एक स्टेप भूल गया मैंने बीक करंट जो है वह बीकरन माइनस सेम चीजे करनी पड़ेगी ना लॉनिंग रेट इंटू बीडी और राइट चला इस कोड को रन करके देखते हैं कि होता क्या है अच्छा इसको है ना मैं राइट हेंड साइड में तो आप देख रहे हैं कि यहां पर हर एक आइटरेशन में जो कॉस् इसका मतलब है हम लोकल मीनिमार्ग, ग्लोबल मीनिमार्ग के और बढ़ रहे हैं, तो अब हम क्या करते हैं, लर्निंग रेट को थोड़ा और बढ़ा के देख लेते हैं कि कॉस्ट का क्या होता है, हुम, तो इसमें भी कॉस्ट तो गठी रहा है, तो अच्छा ये तो अच्छी अच्छा अब देखो 0.1 ट्राइ करने से लवड़ा हो गया है, cost 89 था, बाद में 165 हो गया है, मतलब कि ये learning rate थोड़ा जादा ही है, हम global minima को miss कर रहे हैं, तो 0.1 तो नहीं चलेगा, तो 0.01 था, जिसमें cost आ गया था ये, 0.05 करके देख लेते हैं, चलो इसमें भी अच्छा improvement है कि cost देखो 89 से 3 हो गया 0.8 और गट के 0.69 हो गया यह ट्रायल ऐरेक्ट करके आप अप्टिमल कॉस्ट वगैरह निकाल सकते हो चलो यह भी अच्छा है 89 to 56 to यह और इसमें आईट्रेशन ऐसा ना तो बढ़ा देते हैं आईट्रेशन बढ़ा के देख लेते हैं तो थाउजन आईट्रेशन करने से हो गया है मेरा कॉस्ट देखो वन पॉइंट अ 5 raise to minus 24 मतलब cost is almost near to 0 और आपने देख ले हैं मेरे को m और b की optimal value भी बिल गई b is 2.999999 which is 3 तो हमारी equation में हमने देखा था न कि y is equal to 2x plus 3 तो देखो ये हमको gradient descent ने ये find करके बता दिया good job अब ये सवाल उठता है कि हमें stop कब करना है तो एक strategy ये है कि आप cost करने को previous cost के साथ compare कर दे जाओ और देखो कि cost बहुत reduce हो रहा की नहीं देखो हमने 1000 iteration किये थे न तो उसमें फिर भी ये cost देखो 1.59, 1.51 थोड़ा reduce हो रहा था लेकिन minus 24 है तो इतना भी reduce नहीं होता, लेकिन चलो मानलो 10,000 step है, तो 10,000 steps में होगा क्या, कि आप देखोगे कि between all these steps cost बहुत कुछ खास reduce नहीं हो रहा है, तो इसके लिए आपको सारे इतने सारे iteration करने की जरूरत नहीं है, तो previous cost को compare करने की strategy हम use कर सकते हैं, यह decide करने के लिए कि हमें stop कब करना है, ठीक है, तो यह एक बात आपको ध्यान में रखनी चाहिए मैंने एक जुपिटर नॉटबुक बनाई है थोड़े विज्जूल रिप्रेजेंटेशन के लिए जो आपको वीडियो डिस्क्रिप्शन जो नीचे है ना इस वीडियो में उसमें मिल जाएगी उसमें पाइथन की मेरी फाइल और जुपिटर नॉटबुक दोनों की लिंक रखी हुई है तो इसमें जब भी मैं यह फोल लूप रन करता हूं तो हर बार है और उसमें हमने विंचुली बेस्ट फिट वाली लाइन फेट फाइंड कर ली ग्रेडियन डिसेंट का यूज करके और यहां पर दिख रहा है कि हमने जीरो से चालू किया था एम और बीडी को और दिमेंदिमें रिड्यूस किया ना तो लाइन ऐसे ऊपर चलती गई और दिमेंदिमें एड्रेस्ट होकर बेस्ट फिट हो गई ओके अब सबसे इंटरेस्टिंग पार्ट जो अगर exercise नहीं करेंगे तो आपको पढ़ाई कैसे आएगी भीया देखो इस exercise में हम करेंगे क्या कि मैंने कुछ students का math और computer science का score यहाँ पे लिखा हुआ है तो समझ लो यह है तुमारा x और यह है तुमारा y तुम्हें यह x और y का correlation find करना है मतलब कि equation using gradient descent वैसे और math और CS के score का कुछ तालुकात नहीं होता है लेकिन अगर math में बंदा अच्छा कर रहा है, तो मतलब intelligent है, तो computer में ही अच्छा करेगा, तो हम ऐसा सोच सकते हैं, कि चलो कोई तो correlation है, यह है, right, जैसे यह बंदे का 49 math में है, तो computer science में भी कम ही आए, तो gradient descent का use करके, आप यह equation find करो, again this is x, this is y, आप m और b की value find कर रहे हो, और x और y का correlation निकाल रहे हो, है और अगर आपको आइटरेशन में स्टॉप करना है तो आप मैं दोटी इस क्लोस फंक्शन का यूज कर सकते हैं टॉलरेंस लेवल को आप ऐसा करो कि वन इस टू माइनस 20 टॉलरेंस का यूज करो और फाइंड आउट करो ब्रेक करो लूप को जब भी तुम्हारा कॉस्ट मतलब बहुत ही ज्यादा चेन नहीं हो रहा है तो आपकी लूप को ब्रेक कर दो और एम और बेकी वैल्यू को प्रेंट करा दो यह टूटोरियल में जो पाइथन कोड और जूपिटर नॉटबुक मैंने डिस्कस की उसकी वीडियो डिस्क्रिप्शन में लिंक मैंने नीचे रखी है और यह सीएसवी फाइल है ना उसकी भी लिंक नीचे है आपको गिट हब की मेरी जो रिपोजिटरी है उसमें रूट में जाकर एक ग्रीन बटन डबाकर उसको क्लोन करना है तो यह बाद आपको ध्यान में जरूर रखनी है और आपका जो भी इस जो एक्सरसाइज है उसका भी मेरे टूटल में मेरे एक्सरसाइज फोल्डर में उसका अंसर है लेकिन आंसर पहले मत देखो पहले आप ट्राइप करो और उसके बाद में answer देखो आज के लिए इतना काफी है अगले tutorial में हम देखेगी कि model जो train हो चुका है ना उसको हम save कैसे करते है ठीक है thank you very much and bye

Transcript for:ग्रेडियन्ट डिसेंट का विस्तृत विश्लेषण

Transcript for:
ग्रेडियन्ट डिसेंट का विस्तृत विश्लेषण