สวัสดีครับ ยินดีต้อนรับนะครับ สู่คลาส How to think like a data scientist ผม พี่เมฆนะครับ จาก KPTG นะครับ แล้วก็จาก Data Science Thailand ด้วยนะครับ วันนี้เราจะมาเรียนรู้กันว่า Data Scientist คือใครนะครับ แล้วเขาคิดยังไงนะครับ เผื่อว่าวันหนึ่งเราอยากจะทำงานทางด้าน Data Science เนี่ยนะครับ เราจะวางแผนยังไงนะครับ แล้วเราจะ achieve มันได้ยังไงนะครับ ขอมาเริ่มกันที่ outline ก่อนเลยนะครับ คลาสเนี่ยแบ่งออกเป็นสอง section นะครับ เวลาแรก เราจะเรียน concept กับ application ก่อน เราต้องรู้ว่ามันคืออะไร แล้วที่สำคัญคือมัน apply กับธุรกิจได้ยังไง ก็จะเริ่มจากการเข้าใจข้อมูล การเข้าใจ Analytics การเข้าใจ Data Science เราเข้าใจว่า แล้วสติวิวของ Data Scientist มีอะไรบ้างนะ Process ในการทำงานเป็นยังไง และที่สำคัญก็คือการ apply ในด้าน Business ว่าเขาไปประยุกต์ใช้ยังไง ในส่วน Section ที่ 2 เป็นเรื่องของแก่ลงมือทำแล้ว เราจะมาเริ่มทำ Data Science Project ร่วมกัน 1 Project ในเวลาประมาณ 1 ชั่วโมง หลังที่เราทำเสร็จแล้ว เราจะเข้าใจ Process Confirm ว่า Concept กับ Application ที่เราเรียนมาใน Section ที่ 1 เราเข้าใจแล้ว เราก็มาช่วยกันวางแผน Study Plan ของแต่ละคน เพื่อจะสร้าง Career Path เรื่อง Data เรามาเริ่มกันเลยกับ Section แรก Concept และ Application ของ Data Science Everyone talks about it. Nobody really knows how to do it. Everyone thinks everything else is doing it. So everyone claims that they are doing it. เป็นคำพูดของ Dr. Dan จาก Center of Advanced Insights ของ Duke University ก็กล่าวว่า Data Science ทุกๆคนพูดถึงมัน แต่แท้จริงแล้วไม่มีใครเลยที่เข้าใจว่ามันทำงานอย่างไร และจริงจริงเนี่ย ทุกทุกคนก็คิดว่าคนอื่นทําด้วย นะครับ ทุกทุกคนก็เลยบอกว่า เอ้ย งั้นฉันก็ทํามันด้วยแล้วกัน ฉันก็ยังทํามันอยู่ ครับ ทุกทุกคนก็บอกว่าฉันเคยทํา Data Scientist ฉัน เอ๊ะ จริงจริงฉันก็เป็นได้ Data Scientist นะครับ เอ๊ะ แต่จริงจริง คนบางคนก็อาจจะไม่รู้ว่ามันคืออะไร นะครับ วันนี้เราจะมา clarify กัน เราจะมาดู เอ๊ะ จริงจริงแล้วเราทําหรือเปล่า ถ้าเราทําแล้วเราเปรียบเทียบกับคนอื่นที่อยู่ในทีมของเรา ในองค์กรของเรา แล้วเราทําอยู่ในเลเวลที่ดีกว่าเขาไหม แล้วองค์กรของเราจะทํายังไงให้ดีกว่า อีกองค์กรหนึ่ง พวกกระโยชน์ทํา ธุรกิจ นะครับ อ่ะ นะครับ ทีนี้ เอ่อ เราก็เลยมาสู่กับ เอ่อ แล้วที่เรา เอ๊ะ แล้วทําไม มันต้องมา ตอนนี้ ทําไม ทําไมมันถึง นะครับ แล้วทําไมมันถึง ตอนนี้ นะครับ อ่ะ เอ่อ งั้น เดี๋ยวเรามาเริ่มกันเลยนะครับ ขอเริ่มที่คําคําแรกของของ Data Science คือคําว่า Data นะครับ Data เนี้ยครับ ข้อมูลนะครับ ข้อมูล Digital Data นะครับ ที่มันเก็บอยู่ข้างในเนี้ยครับ เอ่อ อีริชมิตเนี้ยนะครับ จาก Google ก็กล่าวว่า ข้อมูลเนี้ยมันมีมากมายมหาศืนย์ 5 Exabyte นะครับ จนมาถึงปี 2003 แต่หลังจากนั้นเนี่ย ทุกๆ 2 วัน มันเพิ่มอีก 5 เอกซาไบ นะครับ เห็นไหมครับ มันเพิ่มขึ้นเป็นอย่าง Exponential นะครับ นี่คือ ข้อมูลที่เพิ่มขึ้นนะครับ วอลลูม เรามาดู Data ในอีกมุมมองหนึ่งนะครับ Data ที่มันเพิ่มขึ้นเนี่ยนะครับ มันเป็น Data ที่เพิ่มขึ้นทั้งวอลลูมนะครับ คือจํานวนที่มันมี เอ่อ เพิ่มมากขึ้น เพิ่มขึ้นอย่างรวดเร็วนะครับ และมีความหลากหลาย ลองดูกราฟนี้นะครับ เห็นไหมครับ ตั้งแต่ปี สองพัน สี่ สองพันสามนะครับ ที่ อีริกชมิตพูดถึง ข้อมูลมันเพิ่มขึ้นอย่างมหาศาล มีคํากราศจาก นะครับ บอกว่า ข้อมูลที่เราเพิ่มขึ้น ที่เรา สร้างขึ้นเนี้ย มันเพิ่มขึ้นทุกทุก ทุก 2 ปี มันจะเพิ่มขึ้น 2 เท่า วันนี้มันมีข้อมูล 15 ล้าน exabyte อีก 2 ปีมันจะเป็น 30 exabyte มันจะเป็น 60 exabyte และมันจะเป็น 90 exabyte เพราะฉะนั้นวอลิวม วอลิวมของข้อมูลมันจะเพิ่มมากขึ้น คือมีขนาดที่ใหญ่ขึ้น แต่ภายในตัวข้อมูลที่มันใหญ่ขึ้นนะครับ มันมีเรื่องของ velocity หมายความว่ายนะครับ ข้อมูลมันถูกสร้างเร็วขึ้นด้วย ใหญ่ขึ้นและเร็วขึ้น ที่สำคัญที่สุดอย่างหนึ่งก็คือว่ามันมีความหลากหลายด้วย หลากหลายแปลว่าอะไรครับ ส่วนหนึ่งในปี 2015 มีการวัดว่า ข้อมูลที่มันเพิ่มมากขึ้น ส่วนใหญ่เป็นอัน Structured Data อีกส่วนหนึ่งเป็น Structured Data ข้อสังเกตของตัวนี้คืออะไรครับ อันที่หนึ่งก็คือ ข้อมูล Structured Data ที่มันเพิ่มมากขึ้น คนเรายังวิเคราะห์ได้ไม่เยอะเท่าไหร่ คนที่เป็นนักวิเคราะห์ข้อมูล Structured Data มีไม่เยอะ อันที่สอง คนที่เป็น Unstructured Data คนที่สามารถวิเคราะห์ Unstructured Data ได้ก็ยิ่งน้อยเข้าไปใหญ่ ในมุมบอลนี้มันจะสื่ออะไรครับ แต่ตรงนี้มันเป็นโอกาส ที่เราสามารถเอาข้อมูลตรงนี้มาหาประโยชน์ มาหาประโยชน์จากข้อมูลได้ เห็นไหมครับ เราอาจจะเน้นวิเคราะห์ข้อมูล Structured Data นะครับ แล้วก็ดู Opportunity ในการวิเคราะห์ข้อมูล Unstructured Data ด้วยนะครับ ที่จะมองมาดูอีกมุมมองหนึ่งในด้านๆของพิศีลเน็ตข้อมูลที่มันเพิ่มมากขึ้นแน่นอนครับมันก็เป็นข้อมูล traditional ของพิศีลเน็ตในข้อมูลใน ERP ข้อมูลใน database ของเรานะครับแต่มันยังมีข้อมูลประเภทอื่นๆอีกนะครับที่มันเพิ่มมากขึ้นนะครับแบ่งกับเป็นได้ 2 อย่างนะครับ ก็คือเป็นข้อมูลที่เป็น machine data กับเป็นข้อมูลที่เป็น human data ครับ อันนี้คือ human generated data ข้อมูลที่เป็น machine นี้แค่นี้เลยครับ ข้อมูล IoT ต่างต่าง internet of things ก็คือเครื่อง tings ต่างๆ ที่มันต่ออินเทอร์เน็ตเนาะ มันก็สร้างข้อมูลขึ้นมานะครับ เช่น ข้อมูลจากโทรศัพท์ ข้อมูลจากราวเตอร์ ข้อมูลที่ส่งจากรถ ข้อมูลที่ส่งจากตู้เย็นต่างๆ นะครับ เป็นข้อมูลที่เป็นมาฉีด Human Data จากอินเทอร์เน็ตใหม่ๆ เช่น เช่น Web Data นะครับ ข้อมูลโซเชียล ข้อมูลสถานที่ต่างๆ ที่เราสร้างขึ้นมา เพราะฉะนั้นตรงนี้ครับ จะเห็นได้ว่าข้อมูลในองค์กรมันมีแค่ส่วนเดียวเอง แต่ส่วนที่มันเพิ่มมากขึ้นนะครับ มันคือส่วนที่เป็น Machine Data และข้อมูล Big Data ใหม่ๆ ทั้งเว็บ โซเชียล และโลเคชัน ซึ่งตรงนี้มันก็อีกเหมือนเดิมนะครับ มันเป็นโอกาสทางทะเลาะคลิป ว่าใครที่สามารถวิเคราะห์ข้อมูล Machine ได้ ใครที่สามารถวิเคราะห์ข้อมูลเว็บได้ Social Location ก็จะได้โอกาสทางธุรกิจ เพราะฉะนั้นส่าห์ของ Data Science มันจะมาช่วยตรงนี้ มันไม่เพียงที่จะช่วยทางด้านการที่เราวิเคราะห์ Traditional Data ตรงนี้ได้ แต่มันเป็นช่วยอัพเวลาที่ใหม่ๆ ในการวิเคราะห์ข้อมูล Big Data ชะลิกใหม่ที่เป็น Machine หรือ Human Generated Data ได้ เรามาดูกันอีกมุมมองของ Data ในด้านของ Business บ้างนะครับ ว่า Data เนี่ย ถ้าในมุมมองของ Business เนี่ยครับ V ตัวไหนเป็น V ที่สำคัญที่สุด V ที่เรียกว่า V Volume หรือเปล่า ข้อมูลขนาดใหญ่ ความความสำคัญของวิสัยต่างๆ เป็นอย่างไร หรือข้อมูลที่เกิดขึ้นเร็วแล้วเราสามารถนำข้อมูลนั้นมาใช้มาวิเคราะห์ได้อย่างรวดเร็ว ในธุรกิจให้ความสำคัญของวีต่างๆ เป็นอย่างไร คำตอบก็คือให้ความสำคัญพอๆ กัน แต่วีที่สำคัญที่สุดไม่ใช่วีสารตัวนี้ครับ วีที่สำคัญก็คือ V ที่เรียกว่า V-Value หมายถึงยังไงครับ หมายถึงการค้นหาคุณค่าของข้อมูล เพื่อไปใช้ในการตัดสินใจ และ Take Action เห็นไหมครับ เพื่ออะไรครับ เพื่อประโยชน์ทางธุรกิจ เห็นไหมครับ การที่ ธุรกิจมีข้อมูลเยอะ มันไม่ได้การันตีว่ามันจะมีประโยชน์ การที่บอกว่าเก็บข้อมูลหลากหลาย มันไม่ได้หมายความว่ามีประโยชน์ หรือข้อมูลเกิดขึ้นอย่างรวดเร็วแล้วเก็บเข้าไปในระบบ มันไม่ได้เกิดให้เป็นประโยชน์ แต่สิ่งที่เป็นประโยชน์คือเราหาประโยชน์หรือหาคุณค่าจากข้อมูล เพราะฉะนั้นเดี๋ยวเราจะมาดูกันว่า แล้วการหา Value จากข้อมูลนี้นะครับ มันต้องใช้ เครื่องมืออะไร และเป้าหมายจริงจริงของเขาคือเอาเครื่องมือมาใช้เพื่อลด time to value หรือ time to insight ให้ได้รวดเร็วมากที่สุด เพราะว่าไงครับ เกิดว่าเราสามารถหา value จากข้อมูลได้ แต่เราใช้เวลาสองปี ไม่ทันกินครับ วิจิเนตครับ ไม่ได้ประโยชน์จาก Value ตัวนั้น เพราะฉะนั้น นอกจากเราจะหา Value เป็น เราต้องลด Time to Value และ Time to Insight ให้ได้ด้วย ทีนี้มันก็จะมาจากโจทย์ต่อไปว่า เอ๊ะ ถ้าเรามีสมการ เราจะหา Value จากข้อมูลได้ยังไงนะ เมื่อเรามีข้อมูล เมื่อก่อนถ้าเรามีข้อมูล 30 บรรทัด เครื่องมือที่ใช้เพื่อหา Value จากข้อมูลได้นะครับ อาจจะเป็น ใช้ลูกคิดในการทำได้ แต่ในเมื่อ Data มี Volume ขนาดใหญ่ขึ้น มีความหลากหลายมากขึ้น และมีความรวดเร็วมากขึ้น การวิเคราะห์แบบใช้เครื่องมือที่เป็นลูกคิดอาจจะไม่ทันกันแล้ว มันจะเกิดสาดคำหนึ่งที่เรียกว่าเป็น Anality Anality คืออะไรครับ Anality คือการวิเคราะห์ โดยใช้คอมพิวเตอร์หรือ IT เข้ามาช่วยนะครับ ไม่ว่าจะเป็นเครื่องคิดเลขนะครับ คอมพิวเตอร์นะครับ หรือ Machine Learning หรือ AI อะไรก็แล้วแต่นะครับ เพื่อค้นหา Value และที่สำคัญก็คือการ ลดระยะ Time to Value ให้น้อยที่สุดนะครับ หรือ Time to Insight ก็ได้ เห็นไหมครับ ทีนี้คำถามต่อไป นอกจากเรารู้แล้วว่าอะไรที่ทำให้เกิด Value แล้ว Analytic แต่ละแบบ แต่ละธุรกิจจะเอาไปใช้ยังไง และมันมีกี่ระดับ เดี๋ยวเรามาดูกันว่า Analytic คืออะไร เรามาดูคำสับการต่อไปที่สำคัญของ Lettersize คือคำว่า Analytic Analytic สามารถแบ่งออกเป็นได้ 4 ระดับ ทั้ง Descriptive Analytic, Diagnostic Analytic, Predictive Analytic และ Prescriptive Analytics โดยเราแบ่งออกเป็น 4 ระดับ ถ้าสมมุติว่าเราสามารถที่จะไปได้ถึงระดับที่ 4 ก็คือระดับที่เราค้นหาของ Value ของข้อมูลได้ครบ 100% ถ้าสมมุติว่าเราใช้ Descriptive Level ที่ 1 นะครับ ก็คือเราสามารถที่จะค้นหา Value ดึง Value จากข้อมูลได้ 25% นะครับ ต่อไปก็เป็น 50% และเป็น 75% ต่อไปนะครับ เพราะฉะนั้นเนี่ยนะครับ เราลองมาทบทวนดูว่า ที่เราวิเคราะห์ข้อมูลอยู่ในปัจจุบันเนี่ยนะครับ เราทําได้ถึงร้อยเปอร์เซ็นต์ตรงนี้แล้วหรือยัง เรามาเริ่มกันนะครับ ผมยกตัวอย่างนะ นะครับ สมมุติว่า อ่า ผมเป็น เป็นด็อกเตอร์นะครับ เป็นคุณหมอนะครับ คนหนึ่งนะครับ ที่เปิดคลินิกอยู่ นะครับ มาดูซิว่าคุณหมอคนนี้ใช้ข้อมูล สามารถดึง Value จากข้อมูลได้กว่า 100% ไหม คุณหมอตั้งคลินิกอยู่ที่ต่างจังหวัด ถ้ามีคนไข้ 1 คนเดินเข้ามา มีคนไข้เดินเข้ามา คุณหมอดูลักษณะรูปร่างของคนไข้ ดูการแต่งตัว ดูลักษณะหน้าตา ดูลักษณะของริมฝีปาก ว่าปากซีดหรือเปล่า หน้าซีดไหม แล้ววิเคราะห์จากข้อมูลที่เป็น Description ของคนไข้ โดยที่ยังไม่คุยนะครับ ดูจ้องมองสังเกตนะครับ ของคนไข้แสดงว่าคุณหมอเริ่มใช้ข้อมูลในการวิเคราะห์และ ที่เรียกว่าเป็น descriptive analytics คืออะไรครับ คือการวิเคราะห์จากการใช้ Description คุณหมอได้ไปแล้ว 25% ทีนี้เมื่อคนไข้คนนี้เข้ามาในคลินิก ก็เข้ามาคุยกับหมอใช่ไหม มีการคุยกับหมอนะครับ หมอก็จะทำการที่เรียกว่าเป็นวินิจฉัย การวินิจฉัยคืออะไรครับ คือการที่หมอนี่คุยมีตั้งคำถามและคนไข้มีตอบคำถาม เพื่ออะไรครับ เพื่อหาสาเหตุว่าอันนี้เขาเป็นอย่างนี้เพราะทำไมเขาถึงเป็นอย่างนี้นะครับ ซึ่งคนนี้นะครับ สมมุติว่าเป็นวัดเข้ามา หมอก็จะถาม เอ๊ะ ไปทำอะไรมา นะครับ คุณน้องให้บอก พอดี เอ่อ จะกินนู่นกินนี่มา หรือจริงจริงคุยไปคุยมาแล้ว หมอค้นหาวินิจฉัยแล้ว คนคนนี้ เป็นหวัดเพราะตากฝนมานะครับ เพราะฉะนั้นตัวนี้นะครับก็จะได้ ว่าได้สาเหตุนะครับ นะครับว่าทำไมเขาถึงเป็นหวัดนะครับ แสดงว่าใช้วิเคราะห์ขั้นที่สองและนะครับ ก็คือการ ถามต่อวิเคราะห์แบบการพูดตุย การสนทนาการ วินิจฉัย ก็จะได้ไปที่ 50% ความแตกต่างก็คือ อันแรก เราวิเคราะห์จาก Description เรารู้ว่า เขาเป็นอะไรเฉยๆ What happened อันที่สองคือ Why it happened อันที่สาม สมมุติว่ามีคนไข้เข้ามาอีก 100 คน คุณหมอก็วิเคราะห์จาก Description คุณหมอก็วิเคราะห์จากการวินิจฉัย แต่คุณหมอสามารถค้นหา Pattern ได้ อะไรสักอย่างได้อย่างเช่น Pattern ที่ว่า คนไข้ 100 คน ส่วนใหญ่ตากฝนมาแล้วเป็น Watt เห็นไหมครับ แสดงว่าคุณหมอเนี่ยสามารถค้นหา pattern ตรงนี้ได้ว่าตากฝนมาแล้วเป็นหวัดเนอะ เห็นไหมครับ แสดงว่าอะไรครับ แสดงว่าคุณหมอเนี่ยสร้าง algorithm ของตัวเองนะครับ สมมุติว่า 100 คน 80 คนตากฝนมาแล้วเป็นหวัดที่เหลือมาจากสาเหตุอื่น คุณหมอสร้าง pattern นะครับ สร้าง predictive model ได้ว่าใครก็ตามที่ ตากฝนมามีแนวโน้มที่จะเป็นวัตต์เท่าไรครับ 80% แสดงว่าคุณหมอนี่นะครับ สร้าง Algorithm ของตัวเองและสร้าง Predictive Model ของตัวเอง ใช้ข้อมูลที่คุณหมอวินิกส์ใช้มาซ้ำๆๆกันเนี่ยนะครับ สามารถใช้ข้อมูลและมาใช้ Prediction ได้และใช้ Value จากข้อมูลนี้ 75% ซึ่งตัวนี้มันสามารถที่จะเริ่ม Predict Future ได้แล้ว ก็จะเป็นตัวนี้ จะเป็น Predictive Analytics ที่ทุกคนได้ยินกัน แต่สิ่งสำคัญคืออะไรครับ คือการที่คุณหมอใช้ทั้งหมด ไปทำ Prescriptive Analytics ซึ่งมาจากคำว่า Prescribe ก็คือ หน้าที่ของหมอนั่นแหละ ก็คือทำยังไงให้สิ่งที่คุณหมอเนี่ย Predict ไม่เป็นจริง หมายความว่าไงครับ หมายความว่าคือคุณหมอคนนี้ ดูแนวโน้มของคนไข้ แล้วสามารถพิดิกว่าคนคนนี้จะเป็นหวัด แล้วทำยังไงไม่ให้เขาเป็นหวัดนะครับ สมมุติคนไข้คนที่ 101 เข้ามา เข้ามาปุ๊บเขาบอกว่าเขาไปตากฝนมา ถูกไหมครับ ก็ไปตากฝนมา หมอก็พรีดิกได้ทันทีด้วยแอคเกอร์เรซี่ที่แปดสิบเปอร์เซ็นต์ว่าคนคนนี้จะเป็นหวัด ถูกไหม หมอก็ต้องทําอะไรสักอย่างหนึ่ง นะครับ ที่ไม่ทําให้เขาเป็นหวัด หมอทํายังไงครับ คุณหมอบอกว่า เอ้ย คนนี้นานมจะเป็นหวัดนะ คุณหมอก็ให้ยานั่นเอง เห็นไหม เป็นการ take action เพื่อที่จะไม่ให้สิ่งที่คุณหมอ predict เป็นจริง อันนี้ถือว่าคุณหมอใช้ค่อมูล ใช้ value จากค่อมูลครบ 100% เห็นไหมครับ บางคนเนี่ยบอกว่าฉันแค่ prediction ได้ ฉันแค่ predict ตรงนี้ได้ก็พอแล้ว แต่ไม่ใช่ธุรกิจหรือในคุณหมอคนนี้เขาต้องการไปถึง 100% ตรงนี้ บางคนพรีดิกได้ว่าลูกค้าจะไปใช้บริการที่อื่น บางคนพรีดิกได้ว่าลูกค้าจะมาที่ร้านอาหารแค่นั้นมันไม่พอ มาที่ซื้อของงั้นไม่พอ มันต้องมีการ take action ให้เขาไม่ได้เลิกใช้บริการของเรา นี่เขาใหม่แล้วเขาซื้อบริการ ซื้อของของเรามากขึ้นนะครับ มันต้อง take action ได้ด้วยนะครับ ทีนี้ผมขอตัวนิดหนึ่งนะครับ ทั้งสี่ระดับ ถ้าคุณทําได้สี่ระดับ เป็นร้อยเปอร์เซ็นต์นะครับ ทําได้ เอ่อ ครึ่งหนึ่งก็ห้าสิบเปอร์เซ็นต์นะครับ ทําได้เลเวลที่หนึ่งก็เป็นยี่สิบห้าหรือเป็นเจ็ดสิบห้าตามระดับนะครับ แต่สิ่งหนึ่งที่มันจะ แยกกันนะครับ อย่างชัดเจนก็คือตรงนี้ ฝั่งซ้ายคือ Descriptive Diagnostic Analysis มันเป็นการที่เราเข้าใจอดีต การเข้าใจอดีตมี 2 อย่างคือ What Happened กับ Why It Happened อันนี้จะเป็น Future และอันนี้จะเป็น Action แล้ว เห็นไหมครับ มันจะต่างกัน เรากลับเข้าไปดูในธุรกิจเรา สมมุติเราเป็นธุรกิจเปิดร้านขายของ เรารู้ไหมเรามีลูกค้ากี่คน What Happened กับ Customer เรา เรารู้ไหมว่ายอดขายเราเป็นยังไง ถ้าอย่างนี้เราได้ 25% แล้ว แล้วเรารู้ไหมว่าที่ยอดขายเราตก ทำไมมันถึงยอดขายตก ทำไมลูกค้าถึงเข้ามาเยอะ ฝั่งนี้เป็นฝั่งที่เรียก Analytics ส่วนนี้มันเป็นแค่ Business Intelligence และมันเป็นฝั่งที่มันต้องการ ส่วนที่เราต้องการการของเรา หรือการวิเคราะห์แบบ Traditional ที่ทุกๆ บริษัทควรจะทำ แต่สิ่งหนึ่งที่มันแตกต่างกันไปคือว่าถ้าเรารู้อดีตเราหา Pattern ได้ เราต้องการรู้ Future เพื่อที่จะสร้างความ Complete advantage ให้กับธุรกิจนะครับ แล้วก็สามารถที่จะชนะกับธุรกิจ เราต้องการรู้อนาคตนะครับ ซึ่งตรงเนี้ยนะครับ มันคือศาสตร์ของ Data Science คือการทำ Predictive Analytics และ Recommend Prescriptive Analytics ได้ เห็นไหมครับ มันแยกกัน เราบอกว่า เรารู้ยอดขายมันจะตก เรารู้ยอดขายมันจะขึ้น เรารู้ว่ารูกค้าจะน้อยลง เรารู้ว่าทำไม แต่เราไม่เอามาใช้ Predict อนาคตได้เลย หรือมาใช้วางแผนในอนาคต มันก็ไม่มีประโยชน์ และที่สำคัญคือถ้าเราไม่วางแผนว่าจะ take action ยังไง ไม่ให้ลูกค้ารถ ไม่ให้ยอดขายตก มันก็ไม่มีประโยชน์ และสิ่งสำคัญของอันนี้ก็คือ ถึงแม้ว่าเราจะทำได้วิเคราะห์ Analytic ได้ เราต้องมาดูว่าเราทำแค่ Business Intelligence หรือเราทำที่เป็น Data Science เพราะฉะนั้นทุก บริษัทต้องการที่จะ Shift จาก Business Engine เป็น Data Science ให้ได้ เพื่อรู้อนาคตและสามารถ Take Action ได้ถูกต้อง ถูกตันเวลา อันนี้ก็จะเป็นระดับของ Analytics แล้วเรากลับไปดูกันว่า เอ๊ะ แล้วองค์กรของเรามันถึงขั้นนี้ไหม 100% ไหม เรามาพูดถึง Data Science Skills กันบ้างครับ Foundation ที่ Data Science ที่ทุกๆคนต้องมี เรื่องแรกเลยนะครับ คือ Business Nomain คืออะไรครับ คุณจะวิเคราะห์ข้อมูลอะไร คุณต้องมีความรู้ของข้อมูลนั้น คุณจะวิเคราะห์ข้อมูลของโรงพยาบาล คุณต้องเข้าใจระบบโรงพยาบาล ระบบการจ่ายยา ระบบการตรวจคนไข้ ถ้าคุณต้องการความรู้ ต้องการวิเคราะห์ข้อมูล เพราะทางด้านการเงินคุณต้องรู้ว่าฝากเงินมันทำยังไง Business Domain ของธุรกิจธนาคารเป็นยังไง ซึ่งแต่ละธุรกิจแต่ละ Domain ไม่เหมือนกัน คุณจะเอาความรู้ทางด้านโรงพยาบาล มาวิเคราะห์ข้อมูลของการเงินการธนาคาร ได้ไหม ในช่วงแรกอาจจะไม่ได้นะครับ เพราะว่ามันไม่เหมือนกันนะครับ คุณก็ต้องปรับตัวเรียนรู้วิจิเนตโดเมนใหม่ เพราะฉะนั้นสิ่งสําคัญของ Data Science หรือ Data Scientist ในปัจจุบันคือ คุณต้องมีความรู้ทางด้านข้อมูลนะครับ วิจิเนตโดเมนนะครับ หรือบางชั้นคุณต้องเป็น subject matter expert ในเรื่องนั้นๆนะครับ หรืออย่างเช่นการเงินก็จะมีการเงิน การฝากเงิน การบัตรเครดิตคาร์ด การทำสินเชื่อนะครับ มีรายละเอียดเยอะๆไปหมดเลยนะครับ ทีนี้คุณก็ต้องเป็น subject matter expert ในด้านของข้อมูลตรงนั้น อันที่ 2 เมื่อคุณรู้แล้ว ว่าข้อมูลเป็นยังไง คุณก็ต้องวิเคราะห์ข้อมูลเป็น ใช้วิทยาศาสตร์เข้ามาช่วย ซึ่งพื้นฐานของวิทยาศาสตร์ในการวิเคราะห์ข้อมูลมีสองประเภท ก็คือการใช้กรณิกษาและสถิตินะครับ เพราะฉะนั้นเนี่ยคุณต้อง เป็นตัวที่สองนะครับ รู้ข้อมูลนะครับ รู้เครื่องมือ รู้กระบวนการทางวิทยาศาสตร์ที่เป็นเลขและ อ่า คณิตศาสตร์นะครับ และสถิติ สุดท้ายนะครับ คุณต้องมี Hacking Skill Hacking Skill คืออะไรครับ คือ ทักษะในการอยากรู้อยากเห็นทักษะในการเขียนโปรแกรมทักษะในการ เอ่อ ในไทยเนี่ยบางครั้งเขาเรียกว่าเป็นเอ๊ะ นะครับผมเปรียบเทพอย่างนี้ครับ คนไทยเนี่ยจะมีสกิลสกิลหนึ่งนะครับที่ทุกทุกคนต่างชาติจะมีเขาเรียกว่า เอ่อ เป็น นักสืบพันทิพย์กะลีนไหมครับ นักสืบพันทิพย์ก็คือ เอ๊ะ hacking skill ที่คนไทยทุกคนมีนะครับเพียงแต่ว่าเราไม่ได้ใช้ hacking skill ตัวเนี้ยนะครับกับธุรกิจตัวนั้นเองเราไปใช้กับเรื่องอื่นถ้าสมมติเราสามารถดึง skill ตัวเนี้ยนะครับมาบวกกับ อ่า คณิตศาสตร์สถิตินะครับพื้นฐานแล้วก็มาวิเคราะห์ให้กับ business domain ได้นะครับก็จะสามารถ มาหา Value ของข้อมูลได้นะครับ แล้วก็เป็นพื้นฐานที่สำคัญของ Data Scientist ทีนี้นะครับ เพราะฉะนั้นนะครับ สรุปก็คือ Data Science Skills เนี่ยจะมีพื้นฐาน 3 อย่าง 1. Business No-Brain 2. ภังรู้ธนาคณิตศาสตร์และสถิติ 3. Packing Skills แต่แค่นั้นยังไม่พอครับ ถ้าคุณรู้เรื่องวิชีเน็ต รู้ว่าข้อมูลคืออะไร วิเคราะห์ข้อมูลเป็น ตั้งคําถาม ตั้งโจทย์ แล้วก็สามารถค้นหาอินไซต์ได้ แค่นั้นไม่เพียงพอครับ คุณก็จะต้องมีอย่างอื่นด้วย นั่นก็คือหนึ่ง นะครับ คอมมูลิเคชั่น หมายความว่าไงครับ โห้ คุณทํางานมาแทบตาย คุณได้อินไซต์มาเรียบร้อย คุณก็ต้องสื่อสารไปกับ audience ของคุณได้ เห็นไหม นะครับ คุณต้องสื่อสารเป็น การสื่อสาร สื่อสารเป็น เนี่ยครับ คืออะไรครับ คือคุณต้องรู้ว่าผู้รับสารต้องการอะไร บางครั้งคุณต้องพูดสรุป บางครั้งคุณต้องพูด technical บางครั้งคุณต้องพูด เอ่อ เน้นย้ำบางส่วนนะครับ ขึ้นอยู่กับ audience ของคุณ อันที่สองคืออะไรครับ จับได้ไหมครับ คุณต้องทำงานเป็นทีม คุณต้อง collaborate ได้ คือทำงานเป็นทีมได้นะครับ ก็คือทำงานเป็นทีมเวิร์คได้นะครับ งาน Data Scientist ทำเป็น One Man Show ได้แต่มันจะไม่ประสบความสำเร็จ เพราะว่าคุณจะมีเวลาที่จํากัดอย่างที่กล่าวไปแล้วในสไลด์ที่ผ่านมานะครับ เรื่องที่สามคืออะไรครับ คุณต้องมี Business ไหม Business mindset นะครับ หรือคุณต้องสามารถสร้างอะไรที่มัน actionable ได้ นะครับ บางครั้งเนี่ยคุณหา insight มา แต่ว่ามันไม่ได้ตอบโจทย์ business คุณต้องมี business mindset ด้วย คุณต้องรู้ว่า เป็น ด้วย นะครับ คือ ไม่ใช่ว่าคุณเอาข้อมูลมา คุณ เอ่อ ใช้ หลักการ นาฬิติ คุณ ได้ มา แต่ไม่ ไม่ตอบโจทย์ของ ดิสินเน็ต หรือมันไม่ได้ ช่วยวิทยาลัยเน็ตเลย มันก็ไม่มีประโยชน์นะครับ เพราะฉะนั้นเนี่ย ทุกอย่างเนี่ย ต้องเริ่มจาก ความรู้ทางธุรกิจ แล้วก็เริ่มจากวิทยาลัยเน็ต problem ก่อน เพราะว่า เราต้องการหา value ของข้อมูลนะครับ value ของข้อมูลนะครับ มันสามารถเป็นได้ทั้ง 2 ส่วนนะครับ ส่วนที่ 1 นะครับ เขาเรียกว่าเป็น fyi inside อันที่ 2 เขาเรียกเป็น x Actionable Insight หมายความว่าไงครับ Actionable Insight คือ รู้ว่าเฉยๆ ไม่ได้เอาไปทำอะไร บางครั้งไม่ได้เอาไปตัดสินใจด้วยซ้ำ นะครับ ตัวนี้นะครับ ทำแล้วไม่ค่อยมีประโยชน์เท่าไหร่ Actionable Insight คือ ทำแล้วมันสามารถที่จะไป Action ได้ทันที Make Decision, Take Action ได้ ซึ่งตัวนี้นะครับ มันจะมี แวรูจากข้อมูลมานะครับ ทีนี้ นอกจากนั้นนะครับ ก็จะมี soft skill อีกเยอะแยะนะครับ ในการสื่อสารนะครับ ในการ นะครับ ในการ ในการ ในการทํา พวกเนี้ยก็เป็น skill soft skill ที่จะมาช่วย อ่า data size skill ในการนําเสนอ inside ได้เหมือนกัน นะครับ ตัวสุดท้ายนะครับ ที่อยากจะฝากเอาไว้ก็คือเรื่องของ learning ก็คือการที่เราเรียนรู้ตลอดเวลานะครับเพราะว่าไม่ว่าจะเป็น business knowledge ก็ตามนะครับไม่ว่าจะเป็นพื้นฐานทางหน้าสถิติการประยุกต์ใช้ Maths หรือการทุรกิจกับข้อมูลนะครับหรือการที่เรามี hacking skill เนี่ยนะครับพวกนี้นะครับมันเป็นการฝึกฝน และเป็นทักษะการฝุ่นๆ และเราก็ต้องเรียนรู้ไปด้วยพร้อมกัน ลงมือทำเพื่อให้เราเก่งขึ้นทั้ง Knowledge และทำให้เราสามารถที่จะมี Skill ที่ดีขึ้นด้วยนะครับ เพราะปัญหามันไม่ได้หยุดที่ปัญหาเดิมๆทุกครั้ง ปัญหาที่เข้ามามันมีความซับซ้อน มีความท้าทาย และต้องการให้ค้นหา Time to Insight ได้รวดเร็วมากขึ้นทุกครั้งนะครับ เพราะฉะนั้นคุณต้องพัฒนาตัวเองตลอดเวลา เพราะฉะนั้นเนี่ย ก็อย่าลืมนะครับ อาจจะไม่ใช่แค่ 3 Skill ตัวนี้ แต่เป็นทั้งหมดที่กลับมาถึงนะครับ มันคือ Data Science สกิลที่จำเป็นนะครับ ในการ อ่า เป็น Data Scientist ที่ดีครับ เดี๋ยวเรามาดูภาพรวมของ Data Science กันอีกรอบหนึ่งนะครับ Data นะครับ Data Science ก็คือการที่ค้นหา Value ของข้อมูลนะครับ Value จากข้อมูลนะครับ ก็คือการที่ข้อมูลดิบนะครับ เราต้องการหา Value จากข้อมูลนะครับ เพื่อจะสร้างอะไรครับ Data Product ก็คือผลผลิตของ Data นั่นเองนะครับ ที่มันเกิดจากการสร้าง Value สร้างคุณค่าของข้อมูล ทีนี้เรามาดูกันว่าตัว Data Product เนี่ยนะครับ มันสามารถเป็นอะไรได้บ้างนะครับ ในที่เนี้ยจะสามารถเป็นไปได้สามส่วนนะครับ แดดนะ Information, Knowledge และ Data Story ยกตัวอย่างนะครับ ถ้าเรามีข้อมูลสามสิบบันทับ เราสามารถที่จะสร้างเป็นกราฟแท่งได้เห็นไหมครับ นะครับ เราก็เริ่มที่จะสร้าง Data Product ที่เรียกว่าเป็น Information แต่ถ้าเรามีข้อมูล 300 บรรทับ ข้อมูลเริ่มใหญ่ขึ้นแล้วนะครับ เราสามารถสร้างที่เป็นนักศนาของกราฟเส้นได้ หรือบางครั้งเราสามารถสร้างที่เป็นนักศนาของกราฟวงกลมได้ ถ้าเราส่งข้อมูลนะครับ ส่ง Information รวมๆ กันหลายอย่างนะครับ เราสามารถที่จะส่งไปเป็น Knowledge ได้ แต่ถ้าเรามีข้อมูล 300 ล้านล่ะ 300 ล้านบันทัศน์ล่ะ เราจะสร้าง Data Product ได้ยังไง เราก็ค้นหา Value กับข้อมูลได้เหมือนกัน แต่เราไม่ได้เพียงแค่ส่งให้เป็นลักษณะของกราฟแท่ง ไม่ได้เพียงส่งข้อมูลเป็นกราฟเส้น เพียงส่งข้อมูลเป็นกราฟวงกลมนะครับ เรารวมทั้งหมดตัวนี้นะครับ ซึ่งตัวเนี้ย รวมทั้งหมดตัวเนี้ยมันเรียกว่าเป็นลักษณะที่เป็น เนอะ นะครับ ซึ่งเป็นสิ่งของเนี้ยแหละ แต่เราเอาเนี้ย ส่งไปเป็นลักษณะตัวที่เป็น คำอธิบาย นะครับ หรือ เนี้ย มันก็จะส่งไปลักษณะของที่เรียกว่าเป็น Data Story ครับ เห็นไหมครับ หรือเทคนิคตัวเนี้ยเขาเรียกว่าเป็น Storytelling นะครับ แต่เราส่งไปลักษณะเนี้ยนะครับ ไม่ใช่เป็น Dashboard และ ซึ่ง Data Product ตัวเนี้ยทุกๆคน ถ้าจะคุ้นเคยกันอยู่เขาเรียกว่าเป็น Info Graphic มันคืออะไรครับ มันคือการส่ง Knowledge นั่นแหละนะครับ แต่ Knowledge ที่เราเน้นย้ำว่าเราอยากจะเน้นอะไร เรามีคำอธิบายเพื่อให้คนเนี่ยเข้าใจ Story ของข้อมูลมากขึ้น บางครั้งเนี่ยเราส่ง dashboard ไปตัวนึง เราส่งข้อมูลไปชุดนึงนะครับ เราอาจจะมีบางจุดที่เราอยากจะเน้น เราไม่ต้องการให้เขาดูทั้งหมด เรามีจุดเด่นบางจุดที่เราอยากจะอธิบายให้เขาฟัง เห็นไหมครับ แค่การสร้าง value ของข้อมูลสามารถสร้างได้ทั้งสามระดับ ไม่ว่าจะเป็นระดับที่เป็น information เป็น knowledge และเป็น data story ครับ แต่ในปัจจุบันเนี่ยครับ มันมีความท้าทายมากขึ้น เพราะว่าอะไรรู้ไหมครับ เพราะว่าความต้องการของ data product นะครับ ก็มีมากขึ้น แต่สิ่งสําคัญคือฝั่งซ้ายครับ เมื่อสมการมันฝั่งซ้ายเนี่ยนะครับ มันมีมากขึ้น มันมีมากขึ้นเพราะอะไรครับ เพราะปรากฏการณ์หลายหลายอย่าง เช่น วิกเดตา ปรากฏการณ์สามวีที่เราคุยกัน ก็คือข้อมูลมี วอลลูมที่มากขึ้นเห็นไหม มีขนาดใหญ่มากขึ้น ข้อมูลมีความหลากหลายมากขึ้น ปรากฏการณ์ที่ข้อมูลมีความเกิดขึ้นอย่างรวดเร็ว มันทําให้ข้อมูลเดตาตัวเนี้ยมันเกิดขึ้นอย่างรวดเร็ว และจํานวนมา มีความหลากหลายด้วยนะครับ อินเทอร์เน็ต ออฟติ้ง ข้อมูลที่มาจาก Machine นะครับ มันก็ทําให้ข้อมูลตรงเนี้ยนะครับ มีความขนาดใหญ่มากขึ้น มีความซับซ้อนมากขึ้น Cloud Competing นะครับ ตัวนี้ มันก็ทําให้ Data ใหญ่มากขึ้น เพราะอะไรครับ เรามีที่เก็บที่ใหญ่มากขึ้น เรามี Processing ในการช่วยให้เราประมวลผลมากขึ้น ข้อมูลมันก็เพิ่มมากขึ้นไปเรื่อยเรื่อย สุดท้ายมันเรียกว่า มี ปรากฏการณ์ที่เรียกว่า Data Fixation Data Fixation คืออะไรครับ คือเราทุกคนนี่แหละสร้างข้อมูลเข้าไปในอินเตอร์เน็ต เราตื่นเช้ามาเราก็เอาข้อมูลใส่เข้าไปในอินเตอร์เน็ต เพราะฉะนั้นเนี่ยมันก็ทําให้ฝั่งซ้ายเนี่ย ในสรรพาการของเราเนี่ยมันมีมากขึ้น การหาของข้อมูล ก็ยากมากขึ้น มันก็เลยเป็นโอกาสของอาชีพอาชีพใหม่ที่เราคุยกัน ก็คือ Data Scientist Data Scientist ก็คือคนที่ หา จาก ข้อมูล เห็นไหม ครับ แล้วก็ สร้าง เป็น ได้ ใน ระยะ เวลา ที่ จํากัด นะครับ หรือ ประโยชน์ ที่ แท้ จริง ก็คือ การ หา จาก ข้อมูล เพื่อ ลด ทาม ทู หรือ ทาม to inside นะครับ นั่นอีก หมายความว่าไงครับ คุณอาจจะสร้าง dashboard ได้ แต่คุณใช้เวลาสองปี ไม่ทันล่ะครับ องค์กรต้องการข้อมูล ต้องการแวะ data product ได้ทันที่ทันเวลา เพื่อการตัดสินใจและแข่งขันกับธุรกิจ เพราะฉะนั้นนะครับ data science เนี้ย ไม่เพียงแค่ สร้าง จาก ข้อมูล ได้ ยังต้อง ลด ทาง ทาง หรือ ให้ น้อย ที่สุด ด้วย มันก็ กลับ มาที่ ถ้า อย่าง งั้น เนี้ย คน คน เนี้ย ก็ต้อง มี เครื่อง มือ เนอะ มี เครื่อง มือ เนี้ย ในการ ในการที่ช่วยเขาหา จากข้อมูลได้รวดเร็วมากขึ้น เครื่องมีมีอะไรบ้างครับ นะครับ เครื่องขุดเจาะข้อมูลขนาดใหญ่ ดึงข้อมูลเข้ามา ประมวลผลข้อมูลเข้ามา แล้วค้นหา ค้นหา ได้ มี นะครับ เอา มาช่วยเรียนรู้ ข้อมูลขนาดใหญ่ ทําให้ค้นหา เสนอคำที่สองมาระบบ recommender อาจจะบอกว่าเราพิมพ์เอกสารตัวนี้มา มาแนะนําเอกสารที่ใกล้เคียง เราพิมพ์โปรดักต์ขึ้นมา มาแนะนําโปรดักต์ที่ใกล้เคียง มันก็ทําให้ data scientist เนี่ยนะครับ มีเวลาในการทํางาน อ่า ค้นหาแบรนด์ของข้อมูลได้ใช้เวลาน้อยลง เพราะมันมี recommendation เข้ามาช่วย สุดท้ายเนี่ย การประมวลผล data scientist ไม่ต้องรอประมวลผลสิ้นวันสิ้นเดือนอีกแล้ว มันเป็นการประมวลผลตามที่เกิดขึ้น ข้อมูลเกิดขึ้นเมื่อไหร่ เราประมวลผลเมื่อนั้น และข้อมูลทับซ้อนที่เกิดขึ้น เราก็ประมวลผลได้ มันก็เป็นเครื่องมือที่ช่วย Data Scientist ในการประมวลผล เพราะฉะนั้น สรุปก็คือ Data Scientist เนี่ย ทําเป็นทุกอย่าง ค้นหา Value ของข้อมูล เข้าใจ Big Data เข้าใจ IoT เข้าใจทุกอย่างในฝั่งซ้าย ใช้เครื่องมือทุกอย่างเป็น และแปลงทุกอย่างเป็น Data Product ได้ทันที่ทันเวลา เห็นไหมครับ ปรากฏว่า ตําแหน่งเนี้ย ก็เลยเป็นตําแหน่งที่ ทุกๆคนสนใจและอยากที่จะเป็นนะครับ โดย เอ่อ ยังบอกด้วยซ้ําว���าเป็น ดาตราที่ เอ่อ เป็นอาชีพที่ที่สุด นะครับ ในศตวรรษที่ ยี่สิบเอ็ด นะครับ เพราะว่าอะไรครับ เป็นอาชีพที่ถ้าใครเห็นก็อยากจะทํางานด้วย เป็นใครเห็นก็อีกน่าชิ้นชม เพราะมีความสามารถมากมาย แต่จริงจริงแล้วอะครับ เทรนด์ตอนเนี้ยนะครับ เทรนด์ตอนนี้ทั้งที่ไทยและต่างประเทศ เอ่อ ทั้งที่ เอ่อ ไทยและที่อเมริกา เปลี่ยนไปนิดหนึ่ง เพราะว่าคนคนนี้นะครับ มีเวลาจํากัด ไม่สามารถทําทุกอย่างได้ ก็เลยกลายเป็นว่า งั้นเรามาสร้าง DataSign Team กัน DataSign Team คืออะไรครับ คือทีมที่ยังไม่ใช่บุคคลเนอะ ไม่ใช่คนคนเดียว ที่สามารถที่จะสร้าง Value จากข้อมูลได้ โดยหนึ่งคนเนี่ยอาจจะเป็น expert ในด้านหนึ่ง เช่น machine learning engineer อาจจะเป็น อ่า อ่า หรืออาจจะเป็น data analyst เราเอาทั้งสี่หรือห้าคนนี้มารวมกันนะครับ ให้มีความสามารถเท่ากับการที่มี Data Scientist คนเดียวแล้วช่วยกันทำ ซึ่งแน่นอนครับ 5 คนช่วยแทน 1 คนดีกว่าอยู่แล้วนะครับ แล้วก็สามารถสร้าง Data Product ที่ตอบโจทย์ Organization ได้ เพราะฉะนั้นในโครงของเราคนที่เริ่มใหม่คืออย่างไรครับ 1. ก็คือพยายามพัฒนาตัวเอง เตรียมพร้อมตัวเองให้เข้าทีมให้ได้ โดยการสร้าง Foundation นะครับ ของ Data Science ทั้งหมด ไม่ว่าจะเป็น Programming, Data Mining, Machine Learning หรือการทำ Data Storytelling นะครับ เพื่อให้เข้าไปอยู่ในทีมได้ และสองคืออะไรครับ เมื่อเข้าไปได้แล้ว เราก็ต้องฝึกฝนและ Contribute ให้กับทีม เพื่อให้เราเรียนรู้ และพัฒนา เห็นไหมครับ แล้วก็จะทําให้ทีมเนี้ยนะครับ สามารถสร้างโปรดักต์และลดทํา to inside มีประโยคกับธุรกิจนะครับ อันนี้ก็จะเป็นภาพคร่าวคร่าวนะครับ ของ อ่า ภาพรวมของ data side ทั้งหมดครับ เรามาดู Data Science Process กันนะครับ Data Science Process มันคือกระบวนการที่ Data Scientist ใช้ในกระบวนการที่เราพัฒนา Data Science Product หรือ Data Product นะครับ ซึ่งจริงๆ แล้วเนี่ยมันเป็นกระบวนการของ กระบวนการวิทยาศาสตร์นะครับ ซึ่งกระบวนการที่วิทยาศาสตร์เนี่ยมี กระบวนการที่แน่นอน แต่ว่าเราใช้ Data ความมาช่วยนะครับ จริงๆแล้ว Data Science เนี่ยนะครับ Science and วิทยาศาสตร์เนี่ยนะครับ มันใช้ Data ทุกอันแหละ แต่ที่เราจะพูดถึง มันเรียกว่าเป็น Big Data นะครับ ก็คือเป็นกระบวนการของการทํา Data Science Process เนี่ย ที่ใช้ข้อมูลที่มันมากกว่าเดิมนะครับ หรือเป็นข้อมูลขนาดใหญ่ Process ที่เราพูดถึงเนี่ย มันประกอบด้วยส่วนส่วนหลักหลักสามส่วน ที่เรียกว่าเป็นส่วนที่เป็นความเข้าใจนะครับ หรือ Understanding ส่วนที่เป็น Experiment หรือการทดลอง ส่วนที่เป็นการของการ Implementation หรือเอาผลทดลองที่สำเร็จ นำไปใช้ นี่แค่ 3 ส่วนเอง เข้าใจ ทดลอง นำไปใช้ แค่นี้เองครับ ง่ายๆ ถ้าเราพูดถึง Understanding ตัวแรกก่อน Understanding มีจะมี 2 ส่วน ก็คือส่วนที่เรียกว่า Business Understanding แล้วก็เป็น Data Understanding ทุกครั้งที่เราทำ เราต้องการที่จะทำ Data Science สำหรับ Business เพราะฉะนั้นต้องเข้าใจก่อนว่า คำถามคือ ปัญหาทางธุรกิจคืออะไร Business Problem คืออะไร อันที่ 2 คือ ปัญหา Can data health มันแก้ด้วยข้อมูลได้ไหม ถ้ามันแก้ด้วยข้อมูลได้ เราก็มาเริ่มในการทำ experiment แต่ก่อนที่เราจะเริ่ม experiment เราต้องทำอะไรครับ do you have data ครับ ถ้า yes คุณก็มาทำ experiment ได้ แต่ถ้า no ต้องทำยังไงครับ ถ้า No คุณก็ไปทำที่เรียกว่าเป็น Data Collection ก่อน กระบวนการเก็บข้อมูล ซึ่งถ้าเป็นโปรเจ็ดใหญ่ อาจจะมีกลยุทธ์ในการเก็บ อย่างเช่น การซื้อข้อมูลนะครับ การจากแหล่งอื่นอื่นนะครับ ไม่ว่าจะเป็นภายในหรือภายนอกนะครับ หรือการข้อมูลนะครับ สามารถทําหลายอย่าง แต่สมมุติว่าคุณมีข้อมูลและนะครับ กระบวนการทดลองเนี้ย มันก็จะเป็นกระบวนการทดลองที่ตายตัว อันที่หนึ่งคือคุณตั้งก่อน อันที่สองคุณก็เตรียมข้อมูลนะครับ อันที่ 3 คืออะไรครับ คุณก็เริ่มพัฒนา Model Development ซึ่งหรือต้องการหา Pattern ของข้อมูลนี่แหละนะครับ ส่วนใหญ่เราก็จะใช้ Machine Learning เป็นเครื่องมือสำคัญของ Data Scientist เมื่อเราพัฒนา Model เสร็จแล้วเราต้องทำยังไงครับ ต้องการ Big Evaluate แล้วก็ Test มันคืออะไรครับ บางครั้งเนี่ย คุณสร้างโมเดลมากกว่าหนึ่งตัวนะครับ หา ในหลายแบบคุณก็ต้องมาวัดว่า สรุปสุดท้ายแล้วเนี่ย โมเดลไหนเนี่ย ที่เป็นโมเดลที่ คุณจะนําไปใช้ไหมครับ มันก็ต้องมีการวัดการทางวิทยาศาสตร์ อาจจะใช้ accuracy อาจจะใช้ performance อะไรก็แล้วแต่ สุดท้ายก็คือกระบวนการที่คุณสรุปผล และคุณก็ discussion ว่า model ของคุณมีข้อดียังไง มี limitation ยังไง แล้วต่อยอดไปมันทำอะไรได้บ้าง เมื่อคุณทำกระบวนการนี้เสร็จ คุณก็จะมาส่วนต่อไปคือเรื่องของการ communicate ตัว result ให้กับทาง business ซึ่งมันจะเป็นลักษณะนี้ ว่ามันสามารถที่ไปแก้ปัญหาทาง business ได้ไหม communicate ตัวนี้เป็นสิ่งสำคัญ มันคืออะไรครับ มันคือ communicate ให้ audience หรือ business เข้าใจ มันจะต่างกันยังไงครับกับคอมมินิเคทที่อยู่ในการทำ Experiment การที่คุณบอกว่าคุณคอมมินิเคทหรือถ้าในทีมคุณมักจะใช้คำว่า Collaborate มากกว่า คือทำยังไงก็ได้ให้คุณตัวคุณเองหรือให้คนในทีมคุณเข้าใจ แต่การคอมมินิเคท คือทำให้ลูกค้าหรือ audience คุณเข้าใจ ทักษะในการ communicate ในการสื่อสารของเขาจะไม่เหมือนกัน อันนี้อาจจะ technical นิดนึง อันนี้จะ business domain นิดนึง เน้นผลอันนี้อาจจะเน้น experiment ในกระบวนการทำวิทยาศาสตร์ ในหลายๆครั้งถ้า model ที่คุณทำมัน work แล้วมันสามารถไปใช้จริง มันก็จะต้องเอากลับ implement การทำ implement อาจจะกลับไปที่ระบุเดิม หรือเป็นระบบที่เป็นระบบเสริมนะครับในการใช้งานหรือต้องกลับไปที่ Process ใด Process หนึ่ง นะครับ ใน ใน ธุรกิจ เพื่อจะเอากลับไปใช้ และสามารถที่จะไปแก้ปัญหาทางธุรกิจได้ เห็นไหมครับ Process ข้างข้างมันก็จะเป็นลักษณะนี้ นะครับ ซึ่งอันเนี้ย Step นะครับ มันจะเป็น Cycle หรือเป็น Process คือมันจะวนเวียนอยู่เรื่อยๆ หรือมันจะเป็นในลักษณะที่ ตอนแรกเนี้ยนะครับ เราเข้าใจธุรกิจก่อน เรามีปัญหามาแล้ว ข้อมูลสามารถแก้ได้ เรามาทำ Experiment ได้ Model Version 1 ออกมาแล้ว สื่อสารให้กับธุรกิจ ธุรกิจบอกว่าโอเค เราก็เอากลับมา Implement ทดใช้จริงไป 2 เดือนกับลูกค้าจริงๆ แล้วเราก็เห็นมีการ Monitor มีการทำ Enhancement แล้วอาจจะเกิดปัญหาใหม่ หรือปัญหาเดิม แต่เราต้องการที่จะเข้าใจมันและพัฒนาให้มันดีขึ้นไปอีกขั้นหนึ่ง เราก็มาทำ experiment อีกรอบหนึ่งนะครับ experiment อีกรอบหนึ่งซึ่ง experiment ก็จะมีรายละเอียดของมัน เสร็จแล้วเรา communicate result นะครับ แล้วเราก็อธิบายให้กับ Business Implement แล้วก็กลับมา Monitor อีกรอบหนึ่ง มาเข้าใจอีกทีหนึ่ง แล้วก็เป็น Experiment แล้วก็มา Communicate Results ให้กับธุรกิจ อาจจะมี Implement อีกรอบ แล้วก็เป็น Cycle อย่างนี้ต่อไป ซึ่งเราจะเห็นได้ว่า จุดสำคัญคืออะไรครับ Value ของข้อมูล หรือประโยชน์ทางธุรกิจ มันก็จะสูงขึ้นเรื่อยๆ แต่แน่นอนครับมันก็ใช้เวลาในการทำเรื่อยๆ อันนี้ก็จะเป็นคร่าวๆ ของกระบวนการทาง Data Science นะครับ เรามาดูของ Data Science Use Case กันบ้างครับ ก็คือการที่บริษัทมี Data Scientist ทำงานอยู่ เขา Data Scientist มาทำประโยชน์ไร้กับทางธุรกิจบ้าง ธุรกิจบ้างนะครับ เริ่ม เริ่มแรกเลยนะครับ อ่า บริษัทที่พูดถึงการทํา มากมากนะครับ ก็คือบริษัทที่เรียกว่า สตาร์บัคซ์นะครับ ก็คือบริษัทขายกาแฟนี่แหละนะครับ เราลองมาดู ยุคเคสที่หนึ่งเลยนะครับ ยูสเคสที่หนึ่งนะครับ นะครับ ของ DataSign นะครับ เอ่อ ที่ Starbucks นะครับ Starbucks อันเนี้ยนะครับ Starbucks ใช้ข้อมูลอะไรบ้าง นะครับ โอเค Starbucks มีข้อมูลอะไรบ้างครับ มียอดขาย นะครับ มีข้อมูลที่เกี่ยวกับลูกค้าถูกไหมครับ แล้วเขาก็มี เอ่อ ด้วย นะครับ มีบัตร นะครับ จะ หรือจะ ก็แล้วแต่ นะครับ แล้วเขาก็มีข้อมูลที่เป็น นะครับ โอ้โห เอาข้อมูลสามอย่างเนี้ย มาทําอะไรได้เยอะแยะไปหมดเลย นะครับ ทีนี้มียูสเคสแรกนะครับที่จะแชร์ให้ฟังก็คือยูสเคสที่ สามารถรู้ว่าลูกค้านะครับ ซื้อกาแฟซื้อผลิตภัณฑ์อะไรในแต่ละสาขาได้ ครับในทุกๆสาขาของสตบัตร สามารถรู้ว่าสาขาไหนนะครับ ขายกาแฟดี สาขาไหนขายกาแฟไม่ดีนะครับ บางสาขาเนี่ยยอดขายของกาแฟไม่ดีเลย แต่ขายชาดีกว่า บางสาขาขายอาหารเช้าดีกว่านะครับ ทีนี้ไม่แต่บางสาขานะครับ ขายชากาแฟไม่ดีเลย แต่ขายของจนด้วยดีนะครับ เป็นเพราะอะไรครับ เป็นเพราะว่าอาจจะเป็นที่ที่มี เอ่อ นักท่องเที่ยวยเยอะนะครับ หรือเป็นแหล่งท่องเที่ยว ก็อาจจะเป็นขายอย่างอื่นนะครับ ที่ไม่ใช่กาแฟ ทีนี้ เอ่อ สตาร์บัค เอาข้อมูลนี้ไปใช้ประโยชน์อะไรนะครับ ที่สตาร์บัสเราไปใช้คืออะไรทราบไหมครับ กับยุทธเคสอันนี้ ลูกเคสนี้นะครับ เป็นยุทธเคสที่เกี่ยวกับ SCM SCM คือ Supply Chain Management นะครับ หรืออะไรครับ หรือเขาต้องการดูสามารถบริหารวัตถุดิบ วัตถุดิบคืออะไรครับ วะเล็ดกาแฟนะครับ แก้วกาแฟนะครับ อาหารเช้านะครับ ของชำร่วยทุกอย่างนะครับ ที่ จําเป็นจะ จะต้องมีการเตรียมนะครับให้กับลูกค้า สามารถที่จะรู้ได้ว่ากาแฟต้นนี้ ส่งไปที่สาขาไหน แก้วน้ําชุดเนี้ยที่จะทําจะส่งไปที่สาขาไหนนะครับ ใบชาใบเนี้ยนะครับจะส่งไปที่สาขาไหน ซึ่งยังไงครับ มันจะทําให้ เพิ่มรายได้เพราะว่ากาแฟมาถึงที่ร้านปุ๊บก็ขายได้เลย ชามาถึงที่สาขาปุ๊บก็ขายได้เลย เห็นไหมครับ ใช้ข้อมูลในการเพิ่มคุณค่า เพิ่ม กําไรให้กับทางชุดละกาย ทีนี้เรามาดูยูสเคสที่สองของสตาร์บัคนะครับ ถ้าสมมุติข้อมูลชุดเดิมเลย รู้ยอดขาย รู้โลเคชั่นนะครับ รู้พฤติกรรมของลูกค้านะครับ เรารู้ว่าลูกค้าเนี้ย นะครับ ใช้บัตร ชอบกินหนึ่งแก้ว ชอบกินสองแก้ว นะครับ เป็นคนจ่ายเงิน แล้วกินหนึ่งแก้ว หรือเป็นคนจ่ายเงิน แล้วไม่เคยกินเลย นะครับ ใช่ไหมครับ เพราะเขาเป็นคนเติมเงินไง นะครับ หรือ เป็นคนใช้เงินอย่างเดียวไม่เคยเติมเงินเลยนะครับ หรือเป็นพฤติกรรมที่ชอบมาทีเดียวเนี่ย กินกาแฟทีแล้วหลายหลายแก้��มาเป็นแก๊งเลยใช่ไหม นะครับ เพราะฉะนั้นเนี่ยนะครับ สตาร์บัคสามารถเข้าใจลูกค้าได้ และนําเสนอ ลักษณะที่เรียกว่าเป็น เอ่อ เมนูให้กับลูกค้าได้หรือ ได้ถูกต้อง เห็นไหมครับ ก็ได้ นะครับ หรือจะทํา มีเมนูก็ได้ เห็นไหมครับ เอามาใช้ได้นะครับ เพื่อตอบโจทย์ลูกค้าคลุมต่างๆได้ เห็นไหมครับ นี่คือ use case ที่ 2 use case ที่ 3 ครับ เมื่อเรารีวิวยอดขาย เรารู้ location เราทำอะไรได้ครับ เราก็ใช้ในการที่คิดว่าเราจะเปิดสาขาใหม่ที่ไหนดี หรือเราจะสาขาไหนดีเห็นไหมครับ บังก์อ่านะครับ แล้วเรายังสามารถดีไซน์ สาขาได้ด้วย นะครับ เห็นไหมครับ อันนี้มี drive to เห็นไหม เห็นไหมครับ มีการนั่งข้างนอกด้วย เห็นไหมครับ เราไม่เพียงจะรู้ว่า จะเป็นยังไง จะรู้ว่า ที่แต่ละสาขาต้องการเป็นยังไง นะครับ ถ้าสาขาไหนขายดีนะครับ เราดูซิว่า เอ๊ะ มันมีลักษณะรอบข้างของสาขาเป็นยังไง Environment เป็นยังไง แล้วไปหาสถานที่คล้ายๆกันเพื่อมาเปิด News Location สาขาไหนที่ขายไม่ดีนะครับ เราก็ปิดตัวลงหรือเราจะนำเสนอ Product ใหม่ๆ ก็ได้ เห็นมั้ยครับ พวกนี้ใช้ Data หมดนะครับ Data เนี่ย แต่ไม่ได้ใช้ Data มุมมองเดียวเนาะ เราไม่ได้ใช้ Transaction ที่เป็น Sales อย่างเดียวแล้ว เราใช้ข้อมูล Customer นะครับ Member เข้ามาด้วย หรือใช้ Location เข้ามาด้วย นะครับ ในขณะเดียวกันข้อมูล Location ข้อมูลยอดขาย ก็เอามาใช้ในอีกยุคเคสได้ ไม่ว่าจะเป็นยุคเคสที่เรียกว่าเป็น Location Analytics นะครับ ยูสเคสที่เป็นมาร์เก็ตติ้ง หรือยูสเคสที่เป็นสปรายเชนด์นะครับ อันนี้เป็นเบสิกนะครับ ที่ทุกๆ ธุรกิจสามารถทําได้นะครับ เรามาดูอีกยูสเคสนะครับ ยูสเคสนี้เป็นยูสเคสที่น่าสนใจมากๆเลย เป็นยูสเคสของรถฟอร์มูล่าวัน ฟอร์มูล่าวันเขาแข่งกับเวลา แข่งกับความเร็ว คุณปีเตอร์ คนที่เป็นหัวหน้าทีม พูดในเท็จท้องว่าปี 2013 ว่าหน้าที่ของแกเนี่ยคือทำให้รถเนี่ยดีขึ้น รถเนี่ยเร็วขึ้นยังไงก็ได้นะครับ ซึ่งแน่นอนครับ แกก็ต้องใช้ข้อมูลนะครับ ซึ่งการวิเคราะห์สมัยใหม่เนี่ย แกเอาเซ็นเซอร์ไปติดไว้ที่อุปกรณ์ของรถ ข้อมูลต่างๆ ส่งมาหาแกเยอะแยะไปหมด แกบอกว่าข้อมูลที่แกวิเคราะห์ เยอะกว่าข้อมูลที่คนๆ หนึ่งจะพูดในทั้งชีวิตเขาอีก แกมีความท้าทายมากๆ ในการที่ทำยังไงก็ได้ว่า ข้อมูลอะไรชิ้นนั้น จะต้องไปแทนอุปกรณ์ชิ้นนี้ อุปกรณ์ที่จะเสีย ทุกอย่างแข่งกับเวลา เพราะว่าธุรกิจของแก งานที่แกทำคือแข่งกับ การที่ทำให้รถวิ่งเร็วที่สุด รถ Improve และเสียน้อยที่สุด ซึ่งตรงนี้แกยังพูดอยู่ในเท็จโต้ของแกว่า หน้าที่ของแกคือ make it better นะครับ แล้วก็ make it faster นะครับ ซึ่งรถตัวเนี้ยก็คือ F1 เนอะ รถ F1 นะครับ ทีนี้สิ่งที่น่าสนใจมากมากก็คือว่า ข้อมูลที่มันวิ่งมามหาศาลเนี้ยนะครับ มันถูกจัดเก็บนะครับ เข้าไปในระบบนะครับ แล้วแกก็บอกว่า เอ่อ สิ่งหนึ่งที่แกเน้นย้ำเสมอก็คือว่า ข้อมูลที่จะจัดเก็บเนี่ยนะครับมันจะไม่มีประโยชน์เลย ถ้าเราไม่ได้เทิร์นเป็น information เทิร์นเป็น no late แล้วเทิร์นเป็น action แกเล่าว่าในในช่วงระยะเวลาการแข่งรถสองชั่วโมงเนี่ยนะครับ ข้อมูลเข้ามาหาแกมาหาสารเลย แต่แกต้องวิเคราะห์ให้ทันที่ ทันเวลา เพื่อที่จะรู้ว่า เอ๊ะ อุปกรณ์ไหนเนี้ย มันต้องเปลี่ยนนะ เมื่อไหร่เนี้ย ที่เราจะต้องหยุดจอดรถนะ แล้วเปลี่ยนล้อรถนะ ต้องใช้เวลา เปลี่ยนกี่ล้อนะครับ ต้องเปลี่ยนเวลาไหน เปลี่ยนรอบที่เท่าไหร่ เพราะแกต้องแข่ง นอกจากที่แกต้องแข่งกับเวลาแล้ว แกยังมีแข่งกับ คู่แข่งกันด้วย ถูกไหมครับ เพราะฉะนั้นเนี้ย แกแข่งกับทั้งเวลา เอ่อ แข่งกับคู่แข่งและแกแข่งกับ เวลา แต่สิ่งที่น่าสนใจมากกว่านั้นนะครับ ใน ที่แกพูด เนี้ย มันคืออะไรรู้ไหมครับ มันคือการที่ มันมีโฟนคอครับ มันมีคนโทรมานะครับ มีคนโทรมาจากโรงพยาบาลบอกว่า แกมีทีมไหม แกมาช่วย ทําให้ คนไข้เนี่ยหายจากป่วยได้ไหม เขารู้ก่อนได้ไหมว่าจะไม่ป่วยนะครับ เอ่อ แผนกที่โทรมาเนี่ยเป็นแผนกโรงพยาบาลเด็ก โรงพยาบาลเด็กเนี่ยนะครับ โทรมาบอกว่าเนี่ย มีเด็กนอนอยู่ใน ยกแช่ๆ ไปหมดเลย แกช่วยมาวิเคราะห์ได้ไหมว่าเด็กคนนี้กําลังจะโคมาร์ เด็กคนนี้มีแนวโน้มที่จะไม่รอดนะครับ แกเอาความรู้ความสามารถที่แกมีเนี่ย มาช่วยได้ไหม เอาทีนมาช่วยได้ไหม turning point ของเรื่องนี้นะครับ ก็คือว่าคุณพิเตอร์เนี่ยนะครับ แกก็เอาขนมาช่วยนะครับ ก็เปลี่ยนจากเอาเซ็นเซอร์ไปติดไว้ที่รถ มาเป็นเอาเซ็นเซอร์นะครับ มาติดไว้ที่อุปกรณ์การแพทย์ แกเอาข้อมูลเซ็นเซอร์ต่างๆ ส่งข้อมูลมาที่ศูนย์ของแกเนี่ย แล้วแกหาแพทเทิร์น แกรู้ว่า 5 วินาทีก่อนที่เด็กจะเกิดโคม่าเนี่ย มีสิกแนลอะไร แกดีลกับเวลาอีกแล้ว แต่แกไม่ได้วิวเวลากับความเร็ว แต่แกดีลกับเวลาและชีวิตของเด็ก งาน งาน เนี้ย เป็น งาน ที่ แก พ ัก ภูมิ ใจ มากกว่า ที่ แก ทํา ให้ รถ เด ็ ว ขึ้น แต่ แก บอกว่า เนี้ย ไม่ เพียง แค่ แก สามารถ ที่ ทําให้ รู้ว่า เด็ก เนี้ย จะ ป่วย มา ไหร่ เด็ก เนี้ย จะมี อาการ โค มา มา ไหร่ แก อยากจะ เอา เนี้ย เอา ความ รู้ของแก เอาหลักการวิเคราะห์ใน Data Science ที่แกเคยทํามาเนี้ย มาทําให้เด็กคนนี้แข็งแกร่งขึ้นทุกทุกสองอาทิตย์ เหมือนที่แกทํากับรถของแก ทําให้เด็กคนนี้นะครับ คอมูลของเด็กคนนี้ทําให้เขาเก่งขึ้น ฉลาดขึ้นนะครับ และมีชีวิตที่มีความสุขมากขึ้น ยูสเคสนี้นะครับ มันไม่เพียงแต่บอกว่า มันมีงานบางงานนะครับ ที่เราทำ แล้วมันทำให้ เราธุรกิจได้กำไร แต่มันมีงานอีกหลายๆงานนะครับ ที่ทำให้นอกจากคำว่ากำไร มันทำให้เราได้ความสุข ทำให้เราสุขภาพที่ดีขึ้น ทำให้เด็กสุขภาพที่ดีขึ้น หรือว่าทำแล้วภูมิใจ อันนี้ก็ฝากเอาไว้นะครับ เป็นอีก 2 ยูสเคสทั้งในร่างของเทอร์เลเมติกที่เอาเซ็นเซอร์ไปติดไว้ที่รถ กับงานที่เกี่ยวกับ Healthcare Analytics หรืองานที่เป็น Data Science ที่ช่วยเหลือชีวิตคน อันนี้ก็ฝากเอาไว้ด้วยครับ ทีนี้หลังจากที่ได้เล่าหลายหลาย use case ไปแล้วครับ อยากจะสรุปนิดนึงว่า Modern Data Science หรือ Modern Data Scientist มันต้องทำยังไงบ้าง สิ่งหนึ่งที่ท้าทายมากๆตอนนี้ก็คือว่ามันเหมือนกับว่า It is important to remember that มันเหมือนกับทุกทุก ทุกทุก นะครับว่า งานของ เนี้ยนะครับ มันไม่ได้เหมือนกับว่า เอ๊ะ เราเดินไปที่ แล้วมันก็เปลี่ยน ได้ทันที แต่คนที่สนใจ นะครับ ต้องเรียนรู้ ทฤษฎีใหม่ๆนะครับไม่ว่าจะเป็นการเขียนโปรแกรมนะครับแล้วก็อ่า รวมถึงการหลักสถิติหลักคณิตศาสตร์รวมถึงการที่เราได้ทํากับข้อมูลจริง นะครับอย่างที่กลับไปแล้วนะครับ เป็นสิ่งที่ อ่า เป็นทักษะนะครับ เราจะจ้องมองข้อมูลเฉยๆแล้วจะเก่งขึ้นมาอย่างงี้เป็นไปไม่ได้นะครับ เพราะฉะนั้นเราต้อง ด้วยนะครับ และ นะครับ และมันแน่นอนครับ มันไม่ใช่เริ่มครั้งเดียวแล้ว Practice คือมันต้องเริ่มไปด้วย Practice แล้วเริ่มไปด้วยนะครับ แล้วทำให้เราเก่งขึ้นเรื่อยๆ และที่สำคัญคืออะไรครับ คุณจะต้องใช้เวลาใช้ Effort นะครับ และคุณต้องลงทุนกับมัน แต่แน่นอนครับ ถ้าคุณเป็น Data Scientist ได้นะครับ มันจะ ก็คือว่ามันจะเกิดประโยชน์กับคุณ คุณจะมีความภาคมุมใจว่าคุณได้ช่วยธุรกิจ คุณได้ช่วยชีวิตคน คุณได้ช่วยทำให้มันเกิดประโยชน์กับสังคม แต่มันมีอะไรที่มากกว่านั้นนิดนึงที่อยากจะฝากไว้ก็คือว่า DataSign มันสามารถที่จะเป็นสิ่งที่ได้มากกว่าแบบนั้น ก็คือว่าเราอาจจะต้องทำ DataSign ในด้านของสิ่งที่ เป็นสิ่งที่ดีเนอะครับ แล้วเราอย่าลืมที่ Pay it forward หมายความว่าไงครับ หมายความว่าอย่างเช่นคุณพีเตอร์เนี่ย เขาทำงานของเขาสำเร็จแล้ว เขาทำให้รถสามารถวิ่งได้รวดเร็วมากขึ้นแล้ว เขาสามารถทำให้รถเนี่ย มันเก่งขึ้นนะครับ มันดีขึ้น เขาเอาความรู้นั้นมาช่วยชุมชน มาช่วย Society มาช่วยทำให้เกิดสิ่งดีๆขึ้นในชีวิตของพวกเรา มันเลยมีองค์การหนึ่งที่จะฝากเอาไว้ ถ้าสมมุติมีเวลา ชื่อองค์การที่เรียกว่า Datacite คือ Datacite for Doing Good ซึ่งก็มีหลายคำหนึ่งที่น่าสนใจมากๆก็คือ The same algorithm and techniques that companies use to boost profit.
Technique ต่างๆ algorithm ต่างๆที่ทุกๆคนเนี่ยนะครับ ใช้ในการทำให้คนกดคลิกทำให้คนซื้อของทำให้คนมาเช่ารถทำให้คนมาจ้องที่พักมากขึ้น ทำให้คนมาซื้อ อับจ่ายใช้สอยมากขึ้นนะครับ จริงจริงแล้วเนี้ย มันสามารถที่จะมา improve the world ได้ นะครับ มันสามารถจะมาลดทําให้คนเนี้ย ไม่หิวโหยได้นะครับ แล้วมันช่วยเด็กเด็ก ทําให้มีสุขภาพดีดีได้ด้วยนะครับ และสามารถช่วยหลายหลายหลายอย่างนะครับ ที่เป็น อันนี้ก็จะฝากไว้ ใครที่เป็น Data Scientist แล้ว ได้เป็น Data Scientist ในหลายๆ องค์กรแล้ว Next Step เป็น Data Science Doing Good ขอให้ทำช่วยเหลือทุกๆคน เอาความรู้ของเรา ที่ที่เราทักษะต่างๆ ที่เราฝึกฝนมา Do Good Things เรามาถึง Section 2 แล้ว Data Science Workshop Section นี้นะครับ จะเป็นการที่เราจะมาร่วมทำ First Data Science Project กันนะครับ หลังจากที่เราได้เรียน Concept มา เรียน Process เรียนเครื่องมือต่างๆ เรียน Use Case นะครับ เราจะมาเริ่มลงมือทำ Data Science Project แรกของเรากัน โดย โอปเจคตีฟของการทำนี้นะครับ การเลือกโปรเจค 1. จะต้องเป็นโปรเจคที่ทุกๆคนสามารถเข้าใจปัญหาได้ จะต้องเป็น โปรเจคนี้จะสามารถใช้เทคนิคในการเข้าใจข้อมูลได้ ทุกคนจะได้สามารถ Run Experiment ได้ 1 รอบ จากข้อมูลที่มีอยู่และเครื่องมือที่มีอยู่ และก็สามารถ Deploy Model ได้ และก็ Have Fun ด้วยนะครับ แต่ก็มี challenge อยู่ครับ เอ๊ะ แล้วเราจะทํายังไงให้มันเสร็จไปในหนึ่งชั่วโมงนะครับ แล้วก็ทํายังไงให้ทุกคนเข้าใจนะครับ แล้วก็ อ่า เข้าใจมันแล้วก็ familiar ที่จะทําโปรเจคไปด้วยกันนะครับ ซึ่งก็เป็นสิ่งที่ท้าทายมากมากนะครับ แล้วเรามาดูว่า เราจะทําให้ทุกทุกคนทําได้หรือเปล่านะครับ เรามาเริ่ม explore กันเลยครับ ก่อนที่เราจะไปเริ่ม explore projectual ว่าโปรเจคเราจะทําอะไรบ้างนะครับ ขอย้อมกลับไปนิดนึงนะครับ ว่าการที่เราจะทําโปรเจคได้เนี่ยนะครับ มันจะมี process อยู่สามส่วนนะครับ ส่วนที่หนึ่งคือเรื่องของความเข้าใจนะครับ ความเข้าใจจะเป็น ประกอบไปด้วยความเข้าใจทางด้าน Business หรือ Knowledge ของปัญหาที่เราจะแก้ และความเข้าใจของข้อมูล Experiment คือกระบวนการทางวิทยาศาสตร์ ที่มีกระบวนการที่แน่นอน ทั้งการที่เราตั้งสมมติฐาน การเตรียมข้อมูล การวิเคราะห์ข้อมูล การสรุปผล และการคอมเบนิเครตข้อมูล communicate result นะครับ เมื่อเรา communicate result เสร็จนะครับ มันก็จะกลับไปแก้ปัญหาที่เรา พยายามที่จะแก้นะครับ ถ้าสมมุติว่ามีการนําโมเดลของเราออกไป implement นะครับ มันก็จะไป deploy และ implement ที่ระบบนะครับ ขั้นตอนนี้ก็จะเป็นการ process ในการทํา data science นะครับ เรามาเลิกกันเลยดีกว่านะครับ ทีนี้เราจะทำอะไรที่ทุกคนเข้าใจ ทำอะไรที่ทุกคนมีพื้นฐานอยู่แล้วนะครับ ขอเริ่มที่ link ไปที่ use case ที่เราเคยคุยกันนะครับ ว่าสิ่งที่ทุกคนเข้าใจ สิ่งที่ทุกคนมีพื้นฐานอยู่แล้วนะครับ น่าจะเป็นอะไรที่เกี่ยวกับตัวเราเองนะครับ ทีนี้นะครับ จากภาพนี้ครับ มันจะลิงก์ไปถึงว่าเราจะทำยังไงนะ ที่เราจะสามารถทำอะไรที่เกี่ยวกับความสุขได้ไหม สุขภาพที่ดีได้ไหม หรืออะไรที่เป็นประโยชน์ได้ไหม เพื่อให้เรื่องรูประยะ เราลองมาดูกันที่ตัวแรกก่อน เอ๊ะ ว่า ไว้ We happy เราเริ่มที่คำถามเนาะ เราจะทำยังไงนะครับ เราจะหา ทำไมคนเราถึงมีความสุขนะครับ ทำไมคนเราถึง happy เราหาคอร์สได้ไหม Five course of happiness หรือว่าเราจะทำ หากทำอะไรดีครับ เราจะ identify who happy หรือเราจะ understand how to be happy หรือเราจะ predict When people happy โห เยอะแยะเลยครับ เห็นมั้ยครับ ถ้าเราจะทำอะไรที่เกี่ยวกับ happiness เราทำได้เยอะแยะเลย ทีนี้เรามากลับมาดู data บ้าง ถ้าเราจะดูว่าใครมีความสุขหรือเปล่า เราสามารถดูได้จากอะไรบ้าง สามารถดูได้จากรูปภาพเขาเนาะ ว่าเขายิ้มหรือเปล่า สามารถดูได้จากวีดีโอ ครับ ก็คือรูปภาพหลายหลายภาพนะครับ ที่เขา ทำกิจกรรมอะไรนะครับ หรือเราอาจจะรู้จากคําพูดของเขา นะครับ หรือจะเป็นการส่ง ไอคอนนะครับ ส่งสติ๊กเกอร์นะครับ หรือจะเป็นส่งสติ๊กเกอร์นะครับ ในการแชท ก็ได้เหมือนกัน นะครับ แล้วเรามาดู เอ๊ แล้ว เขาแฮปปี้เพราะอะไรนะครับ อืม เราลองมานั่งดู หรือว่าเราจะทำอะไรที่เกี่ยวกับการ Predict Happy ดีนะครับ จริงๆ นะครับ โปรเจคที่เราสามารถทำได้นะ อันนี้นะครับ ที่เอารูปภาพ มา Predict ว่าคนเนี่ยกำลัง Happy หรือเปล่า อันนี้ก็ทำได้เหมือนกันนะครับ นี่ทำได้นะครับ เอาสิ่งที่คนพูดถึงนะครับ เอาที่คนพูดถึงนะครับ แล้วก็มาดูว่าเขาแฮปปี้หรือเปล่า ก็ได้เหมือนกันนะครับ หรือเอา ที่คนคุยกันแล้วดูว่าเขา หรือเปล่า นะครับ ก็สามารถทำได้เหมือนกัน นะครับ สามตัวนี้นะครับ หรือ เราจะดูลักษณะที่เป็น Happy Moment ของเขานะครับ ก็ได้นะครับ ทีละลงมาดูว่า เอ๊ะ ถ้าเรามีไอเดียประมาณเนี้ยนะครับ ข้อมูลมันก็น่าจะมีข้อมูลของ Data รูปภาพนี้มันหาได้อยู่แล้ว ข้อมูล Text น่าจะหาได้ Conversation นี่น่าจะยากนะครับ อาจจะต้องตัดตัดเยอะไปก่อนนะครับ เราอาจจะเป็นแนวแนวเนี้ยครับ เอาข้อมูลที่เกี่ยวกับคําพูดนะครับ หรือข้อมูลที่เกี่ยวกับ Text มาใช้นะครับ เพื่อจะพรีดิกว่า เอ๊ะ แฮปปี้โมเมนต์เนี้ยนะครับ มันเกิดขึ้นได้ยังไงนะครับ เพราะฉะนั้นเนี่ยเดี๋ยวเราไป เพราะฉะนั้นเนี่ยผมมีไอเดียอยู่อันหนึ่งนะครับ ซึ่งอันเนี้ย เอ่อ ได้คุยกับทางทีมแล้วนะครับ ก็อยากจะใช้ ที่เกี่ยวกับแฮปปี้โมเมนต์เนี่ยนะครับ อยากให้ทุกคนลองดูว่า เอ๊ะ แฮปปี้โมเมนต์ของแต่ละคนเนี่ยนะครับ มันเกิดขึ้นมาได้อย่างไร โดยข้อมูลที่จะเอามาเนี่ยครับเป็นข้อมูล Data เราจะเอามาจากไหนเนาะ ข้อมูลตรงเนี่ยครับเป็นข้อมูลที่ทาง Amazon นะครับ เขาได้รวบรวมเอาไว้ รวบรวมเอาไว้คำพูดนะครับ เป็นคำพูด หรือเป็นคําถาม ต่างต่างของแต่ละคนนะครับว่า เมื่อไหร่ที่เขาแฮปปี้เนี่ยนะครับ เขามีความสุขแค่ไหน นะครับ แล้วเขาพูดคําพูดอะไรออกมา ทีนี้เรามาดูกันเลยนะครับโปรเจคของเรา โปรเจคแรกนะครับ สโขของโปรเจคก็คือเราจะ predict cost of happiness based on the creation express that user express นะครับ ก็คือ amazon เนี่ยครับ เขาให้คนแต่ละคน นะครับ พิมพ์รายใสเข้าไป แล้วบอกว่า นี้ happy เพราะอะไร นะครับ ข้อมูลตัวเนี้ยนะครับ ของทาง amazon ก็เรียกว่า happy db นะครับ เดี๋ยวเราจะเอาตัวนี้มา ซึ่งมันมีข้อมูลอยู่ประมาณหนึ่งแสนนะครับ record นะครับ ทีนี้อาวุธที่เราสนใจนะครับเราอยากได้ก็คือเราต้องการสร้าง Data Product ที่ User สามารถใส่อะไรเข้าไปแล้วเรามี Algorithm ที่บอกว่า Predict ว่า Count Cost of Happy Moment ใหม่ครับ เรามีเวลาทําหนึ่งชั่วโมงนะครับ เราใช้เครื่องมือที่ทุกคนมีก็คือ excel โอเคนะครับ เดี๋ยวพอ เอ่อ ถึง เอ่อ ตอนจบเดี๋ยวจะมีลิงก์นะครับ เพื่อให้ดาวน์โหลด excel นะครับ ทีนี้เรามาเริ่มกันเลยครับ ข้อมูล HappyDB นะครับ ข้อมูลแฮปปี้ดีบีนะครับ สามารถดาวน์โหลดได้จาก ทั้งล่างนะครับ หรือเราจะเซิร์ชในกูเกิ้ลก็มีเหมือนกัน แฮปปี้ดีบี เลย มันไป เอ่อ คือ มันจะมีประมาณหนึ่งแสน แฮปปี้โมเมนต์ ที่คนเข้าไป ก็คือคน เอ่อ จะตั้งเป็นเว็บไซต์ขึ้นมา ชื่อเมศรแมคคอร์เนคโคทัก นะครับ ที่คน คน หมายความว่าใครสมัครใจนะครับ ข้าไปพิมพ์ว่า What made you happy today? บางคนก็บอกเนี่ย ฉันไปกินข้าวกับเพื่อนมา บางคนก็บอกว่าฉันไปดูหนังกับเพื่อนมา บางคนก็บอกฉันไปยิมมา อะไรพวกเนี้ยครับ ซึ่งอันเนี้ย happy moment ก็จะเก็บนะครับ ทั้งหมดประมาณแสน แสนกว่า record นะครับ ซึ่งแค่นั้นไม่พอนะครับ เขามีเก็บเรื่องเกี่ยวกับ Demographic ด้วยว่า กลุ่มนักทำงานเป็นประเภทอะไรนะครับ แล้วก็เก็บ Information ต่างๆ ของคนที่ ของคนที่ Volunteer ที่ไปใส่ข้อมูลออกมา ยกตัวอย่างนะครับ อย่างเช่นอันนี้ เห็นไหมครับ คนที่ คืออะไรครับ ว่าฉัน บางคน ฉันไป บางคนกินครับ เห็นไหม ฉัน บางคนบอก อุ้ย เนี่ย ฉันดูทีวี เห็นไหมครับ บางคนบอกว่าเนี่ย ฉัน ครบ รอบ เก็บ ปี กับ ภรรยา ของ ฉัน เห็นไหม ครับ อ่า บางคน บอกว่า ไอ้ เนี่ย ดู รูป นะครับ เล่น แล้วก็ ไม่ ส ล ะ กัน แค่ เนี้ย ฉัน ก็ แฮ ป ป ี้ แหละ อันเนี้ย คือ ตัว อย่าง ของ ข้อมูล นะครับ ที่ เราจะ มา วิ เค รา ะ แล้ว เอามา สร้าง โม เด ล แล้วก็ ว่า คน ว่า คน ที่ พูด คํา พูด แบบ เนี้ย นะครับ เขา มี ความ สุข เพราะ อะไร นะครับ โอเค เรา เอา ข้อมูล นะครับ แฮ ป ป ี้ ดี บี ซึ่งเป็นเทค แล้วเทคมี label อยู่แล้วนะครับ ว่ามันมาจากสาเหตุอะไร ด้านซ้ายนะครับ เขาบอกว่าสาเหตุของคนที่มี happy moment ฝั่งซ้ายนะครับ มาจากการที่ได้อยู่กับครอบครัว การที่ได้อยู่กับเพื่อนนะครับ หรืออยู่กับอาเตอร์ ถ้าเราลองดูดีดีเห็นไหมครับ อยู่กับเพื่อน อยู่กับแฟมมิลี่นะครับ อยู่กับเพื่อน อยู่กับสามีนะครับ หรือว่าอยู่กับลูกสาวเห็นไหมครับ อยู่กับภรรยา อันนี้คือเป็น moment ที่เขาอยู่กับ family friend หรือ after ในอีกส่วนหนึ่งนะครับ เขาเรียกว่าเป็น happy from action activity คืออะไรครับ ดู เห็นไหมครับ watch ดู movie เล่นเกม เห็นไหม เล่นเกม นะครับ play หรือว่าจะเป็นลักษณะของ มันจะมี Wash มีเล่นเกม มันจะมียิ้มด้วยนะครับ มียิ้มด้วยเห็นไหมครับ สำหรับสิ่งที่สองอย่างเนี่ยต่างกันนะครับ อันนี้มันเรียกว่าเป็นลักษณะของ Bonding Being Together อันนี้เขาเรียกว่าเป็น Activity Action หรือ Exercise ครับ ฉะนั้น เนี่ย เดี๋ยว ใน อนาคต เนี่ย นะครับ เดี๋ยว ที่เรา ทําไปเรื่อยเรื่อย เนี่ย อันนี้จะเป็น ที่เกี่ยวกับ อันนี้จะเป็น ที่เกี่ยวกับ นะครับ ทีนี้ สรุป นะครับ สิ่งที่เราจะทําใน อ่า เวิร์คชอปนี้ คืออะไร คือเราต้องการ แฮปปี้ โมเมนต์ ครับ ข้อมูลเป็น เทค นะครับ วิ่งเข้าไปนะครับ เราจะสร้างโมเดลอะไรทุกอย่างหนึ่งนะครับ สร้างโมเดลขึ้นมานะครับ และเราจะพิดิกว่า คนคนคนนี้นะครับ เขาแฮปปี้เพราะว่า เอ่อ แอคทิวิตี้แอคชั่นหรือเอ็กซอสไซด์หรือคนคนนี้นะครับ เขา เอ่อ แฮปปี้เพราะว่าบอนดิ้งหรือเรชั่นชิป นะครับ คร่าวคร่าวก็จะเป็นลักษณะนี้ ทีนี้เราลองมาดูกันนะครับว่า Data Science Project เนี่ย เรา Design เป็นยังไงบ้าง ขั้นตอนแรกนะครับ เอาข้อมูลทั้งหมดนะครับ เอาข้อมูลเนี่ยมาสร้าง Label ก่อนนะครับ มาดูเฉลยก่อน เฉลยเราเนี่ยนะครับ ก็คือเราจะทําเป็น เฉลยที่เป็น Class ก็คือจะเป็นว่า A หรือ B เนาะ A คือ Happy มาจาก Activity B Happy มาจาก Bonding แล้วเราก็จะ Clean ข้อมูลนะครับ แล้วเราก็นำ words และ sentence นะครับ ในแต่ละอันเนี่ยมาแยกคําแล้วมาดู pattern นะครับ ซึ่งเราก็จะมา develop model เพื่อจะ predict นะครับ เมื่อเราได้ model เสร็จแล้วเราก็จะ test evaluate ว่า model ของเราแม่นยําแค่ไหนนะครับ เรามาเริ่มกันที่ Step 1 นะครับ เราจะ Identify Class และ Label สำหรับ Happy Moment Happy Moment เรามีมาหลายประโยคเลย จริงๆ ต้องกล่าวอย่างนี้ก่อนว่าใน Database HappyDB มันมี Happy Moment เป็นแสดเลย แต่ใน Project นี้เราขอเลือกมาสัก 20 ก่อน ขอเลือกมาสัก 20 ก่อนนะครับ เพื่อมาเป็นตัวอย่างและสามารถทำกระบวนการ Data Science Process ตั้งแต่ต้นจนจบ และเข้าใจวิธีการสร้าง Model ค้นหา Pattern นะครับ เราเริ่มที่กระบวนการที่ 1 นะครับ กระบวนการที่ 1 คือการบอกว่าในแต่ละประโยคนี้นะครับ ในแต่ละเป็น Moment ที่มันเกิดมาจากอะไร ยกตัวอย่างเช่น I Play A Video Game อันนี้นะครับเป็น Happy Moment ที่เกิดมาจาก Activity, Action หรือ Exercise เห็นไหมครับ เราก็เลยจัดให้มาอยู่กลุ่มนี้ นะครับ แต่ถ้า เอ่อ แต่ถ้าสมมุติว่าเราบอกว่าเนี้ย เราไปนะครับ เจ็ดเดือนกับภรรยาของ ฉัน เห็นไหมครับ อันเนี้ย มันอาจจะไม่ใช่เป็น และแต่เป็น ใช่ไหมครับ เพราะว่ามันไม่ได้ทําคนเดียว มันมีการทําร่วมกับ เอ่อ คนที่มีกับเรา หรือว่าเป็นแฟนของเรานะครับ หรือเป็นเพื่อนของเรา เห็นไหมครับ หรือว่า เป็นลูกของเรา เห็นไหมครับ เพื่อนของเรา ถ้าอย่างเงี้ย เราจะเรียกว่าเป็น bonding, being, to gather หรือ relationship นะครับ อันเนี้ยผมขอเรียกสั้นสั้นว่าเป็น คลาสที่เป็นเรียกว่าเป็น Type B นะครับ คืออะไรครับ เดี๋ยวเราจะทำคนเดียว เราไปทานอาหารจีน เห็นไหมครับ เรา มุฒวี่ เห็นไหมครับ เรากินพิซซ่า เราไปซื้อ ทิเกตบอร์ดเวย์ เห็นไหมครับ เราไปวัด เห็นไหมครับ พวกเนี้ยครับ ขอให้ใช้เป็น เอ เพราะฉะนั้นเนี้ยครับ ในข้อมูลที่เราเอามาเนี้ยครับ เราเอาข้อมูลมาทั้งหมดยี่สิบแปด ประโยค โดยแต่ละประโยค เราก็ให้คลาสมัน คลาสที่ 1 ก็คือคลาส A คลาสที่ 2 เป็นคลาส B A คืออะไรครับ Activity Action หรือ Exercise แสดงว่าเป็น Happy โมเมนท์ที่เกิดจากการกระทำ แต่อีกอันหนึ่งเป็น Happy โมเมนท์ที่เกิดจากความรู้สึก หรือความรู้สึกที่มี bonding กัน เกี่ยวข้องกัน Being together หรือ relationship กัน นะครับ อันนี้เป็นขั้นตอนแรก เราแยกก่อน เราแยกเพื่ออะไรครับ เราแยกเพื่อเดี๋ยวเราจะให้ Math Sheen เนี่ย มาเรียนรู้ เอ๊ะ ว่ามันต่างกันยังไงนะครับ เมื่อ Math Sheen เรียนรู้มันแตกต่างกันยังไง มี ประโยคใหม่เข้ามา Math Sheen ก็หาแพทเทิร์นว่า เอ๊ะ ประโยคใหม่เนี้ยมันมีแพทเทิร์นเหมือน A หรือเหมือน B มากกว่ากันนะครับ ใช้ความน่าจะเป็นคํามาช่วยแค่นี้เองนะครับ อย่างที่สองนะครับ เอ่อ ที่เราทําครับ แน่นอนครับ ประโยคเนี้ยมันจะมี นะครับ ไม่ว่าจะเป็นจุด เป็น capital letter นะครับ มีเครื่องหมายตกใจอะไรพวกเนี้ยครับ หรือว่ามี comma นะครับ หรือว่ามี semicolon นะครับ เราก็จะใช้ฟังก์ชันนะครับใน excel เนี้ย เพื่อที่จะ remove พวกนี้ออกไปนะครับ เห็นไหมครับ เราก็จะเริ่มตั้งแต่เรา เอ่อ ใส่ฟังก์ชันเข้าไปเพื่อทําให้ทุกตัวเป็นตัวเล็กหมดนะครับ เรา remove จูด หรือ colon ครับ remove เครื่องหมายตกใจ ใน semi-comlun หรือ comma นะครับ ซึ่งจริงจริงพวกนี้นะครับ สามารถทําได้ทั้งหมดในนี้นะครับ แล้วเราก็จะได้ เอ่อ ประโยคนะครับ ที่เราเรียกว่าเป็น clean นะครับ เป็นประโยคที่เราทําความสะอาดเรียบร้อยแล้วนะครับ เพื่อจะใช้ในการ ทำโมเดลต่อไป นะครับ ปกติขั้นตอนในการคลีนตรงเนี้ยครับ ต้องบอกว่าเป็นขั้นตอนที่ใช้เวลามากที่สุดนะครับ แต่ตรงเนี้ยนะครับ อ่า แต่ในการคลีนข้อมูลที่เป็นเนี้ย บางครั้งมันมีแพทเทิร์นพวก นะครับ เพื่อเป็นภาษา Python เนี่ยครับ เขียนไม่กี่บันทัศน์ แต่ถ้าเป็น Excel เนี่ย เราก็ต้องทําทีละอันเนอะ ไหมครับ แล้วเราก็ เอ่อ ไปทุกๆ อันนะครับ เพื่อจะ clean เพื่อให้ได้ข้อมูลพร้อมที่จะวิเคราะห์ ถูกไหมครับ อันนี้คือ raw data เรา clean ข้อมูลนะครับ เพื่อที่จะให้ข้อมูลพร้อมวิเคราะห์นะครับ เดี๋ยว Excel จะจ่ายอีกทีหนึ่งนะครับ เมื่อกี้นะครับ เราผ่านไปสองขั้นตอนแล้ว อันที่หนึ่ง สร้าง อันที่สอง ข้อมูล อันที่สามนะครับ เราจะแยกคําออกจากประโยชน์นะครับ อย่างเช่น ไอ เม็ด สาม โอ เฟรน ถูกไหมครับ หนึ่ง สอง สาม สี่ ห้า วิธีการทํานะครับ จริงจริง ต้องไปดูละเอียดใน ใน excel เนี่ย จะเป็นรูปสําเร็จแล้วนะครับ แต่คอนเซ็ปต์ก็คือว่า ในแต่ละคํา เนี่ยครับ ในแต่ละประโยค นะครับ เราจะตัดคําเห็นไหมครับ i made some old ฟรีม นะครับ แสดงว่า เราก็จะต้องหา ก่อน นะครับ ว่า ประโยค เนี้ย มันเริ่มที่ คําแรก มันเริ่มที่ ที่ไหน ครับ ประโยค แรก ที่สูง เห็นไหม นะครับ ก็เอา ไอ เข้ามาใส่ อัน คําที่สอง เว้นไป เริ่มจากสอง ก็เอามี เข้ามาใส่ ประโยคที่สาม นะครับ เอา เข้ามาใส่ อัน คํา ที่สาม นะครับ ทําอย่างงี้ไปเรื่อยเรื่อย นะครับ ในหนึ่ง ประโยค นะครับ ก็จะมีเท่ากับ จน คํา นะครับ ซึ่งอันเนี้ย นะครับ เขาเรียกว่า เป็นการตัด คํา หรือภาษาทางเรื่องของ Text Mining หรือ NLP คือ Tokenization คือตัดคำ เราต้องตัดคำทั้งข้อประโยคที่อยู่ใน Model A ซึ่งจะเป็นสีเขียว แล้วก็ Model B เช่น I had a good work out 12345 12345 เราก็ตัดคำเหมือนกัน เราตัดคำของทุกประโยคที่เรามี 28 แต่ประโยคนะครับ แล้วก็ตัดคํานะครับ โดยสูตรนะครับ ก็คือว่า อ่า ตามนี้นะครับ เดี๋ยวผมแจก Excel ไปนะครับ มันจะมีการวัดเล็งด้วย จะมีเซตค่าอันแรกเป็นศูนย์ ต่อมาเนี่ยจะเป็น if clause ที่ดูว่า อ่า หลักหลักก็คือคําคําเนี้ย เริ่มที่ Character เท่าไหร่ แล้วไปจบที่เท่าไหร่ ก็ตัดคําออกมา ทั้งนั้นเองครับ อ่ะ ทีนี้เราลองมาดูต่อนะครับ รายละเอียดก็คือว่า เราจะเอาประโยคทั้งหมดนะครับ ของแต่ละโมเดลเนี่ยมาต่อกัน นะครับ โดยโรลชุดแรกเนี่ยครับ เราใส่ ใส่ เป็นศูนย์ เห็นไหม ว่ามันเริ่มจากศูนย์ ใช่ไหมครับ แล้วก็ตัวเล็งของโทเคนี้ไม่ เล็งของ นี่คือเล็งของ ว่าว่ามีเท่าไหร่ นะครับ ว่าเล็งของคําเป็นเท่าไหร่นะครับ พอพอ พอชุดต่อมานะครับ ชุดที่สอง เราก็บอกว่า เอ๊ะ อันนี้มันเริ่มที่เท่าไรนะ เริ่มที่สองใช่ไหม ก็คือเอามาบกกัน เอาอันนี้มาบกกันนะครับ ก็จะได้ตัวนี้ แล้วไปอีกกี่ อีกเล็งอีกเท่าไรนะครับ ก็จะได้เป็นตัวนี้มา ทําอย่างงี้ไปเรื่อยเรื่อยนะครับ ก็คือตัวนี้นะครับ ทําอย่างงี้ไปเรื่อยเรื่อยจนจบประโยคนะครับ แล้วก็จะสามารถตัดคํานะครับ ของคลัสเอได้นะครับ อ่ะ ง่ายง่ายแค่นี้เองนะครับ เดี๋ยวอันนี้เดี๋ยวเราคุยกันอีกทีนึง หลังจากที่เราตัดคำเสร็จแล้วนะครับ เราจะนับคำนะครับ ก็คือว่าคอนเซ็ปต์ก็คือง่ายๆครับ ก็คือเรามีประโยชน์ยัดยากไปหมดเลย ทีนี้เราตัดคำ นี่คือวิธีการตัดคำ เราตัดมาแล้ว ทีนี้เราจะมาดูคำซ้ำๆกัน เราจะนับคำนะครับว่าคำไหนเกิด อย่างเช่น คำว่า friend เห็นไหมครับ เพราะว่าเฟรนเกิดซ้ำกันบ่อยสี่ครั้งนะครับ แสดงว่าถ้าความน่าจะเป็นที่ ข้อความที่เป็นคําว่าเฟรนเนี้ยนะครับ มีความน่าจะเป็นมากมากอะไรเพราะมีทั้งสี่ครั้ง ในการที่จะเป็น เอ่อ คลาสเอหรือ นะครับ หรือดังลักษณะของ โฮมอย่างเงี้ยครับ ก็เหมือนกันนะครับ แต่อันนี้เราต้องไปเปรียบเทียบกับอีกคลาสหนึ่งเนอะ เราต้องไปเปรียบเทียบกับคลาสบีด้วยเนอะ วิธีการทำ ทำไงครับ ง่าย เลยครับ ใช้ Pivot Table เมื่อกี้เรามี List อยู่แล้ว ว่าแต่ละคำ เป็นเท่าไหร่ เราก็ทำจาก ตรงนี้ ให้มี Pivot Table ให้มีที่สุด มันเป็น Pivot Table ซะ มันก็จะรวมคำว่า คำว่า Birthday มี 1 คำ คำว่า Buying มี 1 คำ นะครับ ถ้าเป็น Family มี 3 คำ ก็แสดงว่า มีการซ้ำ 3 ครั้ง เห็นไหมครับ ทำอย่างนี้ 1 คลักษณ์ เออ ทำเป็นตารางซะ เหมือนเป็น Dictionary ว่า การที่จะเกิด Class A เนี่ยนะครับ มักจะมีคำ คำไหน เกิดขึ้นใน Class A บ้างนะครับ แล้วเดี๋ยวเราจะเอาอันเนี้ยนะครับ ไปเป็น Model ของเรานะครับ ก็คือเป็นโมเดลเอนะครับ โมเดลเอ ครับ อ่ะ นะครับ ทีนี้หลังจากที่เราได้ตัว คําซ้ํามาเรียบร้อยแล้วนะครับ เราทําอะไรต่อนะครับ เราเพิ่ม อืมครับ อันนี้เป็นสูตรเนอะ อันนี้เราบวกหนึ่งเข้าไป ทุกตัวบวกหนึ่งเข้าไปนะครับ เพื่อไม่ให้มันเป็นสูตรแล้วมัน เพราะว่าถ้าเป็นสูตรเนี้ย ถ้าไปหารอะไรเนี้ย เราหาความน่าจะเป็นที่คําคําเนี้ยจะเกิดขึ้นนะครับ เพื่อที่จะ class a นะครับ หรือเขาเรียกว่าเป็น word probability นะครับ ความน่าจะเป็นที่เกิดเนอะ ก็จะได้ความน่าจะเป็นขึ้นมา ก็คือเอาตัวมันเนี้ยแหละครับ ไปหารของ total นะครับ ทั้งหมดนะครับ ก็จะได้ความน่าจะเป็นมา เราจะได้ความน่าจะเป็นแล้วว่า ถ้าประโยคที่ของคลาสเอเนี่ย ความน่าจะเป็นของคำศัพท์แต่ละคำ ที่มันเกิดขึ้นจะประมาณเท่าไหร่ แต่เนื่องด้วยตรงนี้มันเป็นกฤตภิกษโศนยมเดอะมากๆเลยนะครับ เขาก็เลยบอก งั้น ขอ ซะ นะครับ เพราะว่า Excel มันรับไม่ไหว จุดเยอะขนาดนี้นะครับ ขอ ซะ นะครับ อันนี้ก็จะเป็น ก็จะเป็น แรกที่เราทํา ก็คือเป็น นะครับ ทีนี้เราก็ทําซ้ํา กัน ทําซ้ําไปนะครับ ทําซ้ํากับ นะครับ โมเดล บีก็ทําเหมือนกัน นะครับ ก็คือ อ่า เราก็เอาคํา เอารายละเอียดของ ประโยคในโมเดลบีเนี่ยนะครับ มานะครับ แล้วก็ใส่สูตรเหมือนเดิมนะครับ copy and paste พอเสร็จปุ๊บ เราตัดคําเรียบร้อย อันนี้คือเรื่องของตัดคํา ตัดคํา เราก็มานับคํานะครับ มานับคํา แล้วก็ไปใส่ มานับคําก่อน เห็นไหมครับ นับคํา ใส่ แล้วก็ นะครับ ก็จะได้เป็นตัวนี้นะครับ เหมือนกัน เห็นไหมครับ ก็จะเสร็จแล้วนะครับ เป็น repeat same process with class b พอเสร็จปุ๊บ นะครับ เราก็จะได้มาสองโมเดลแล้วนะครับ อันนี้คือโมเดลที่ predict a อันนี้คือโมเดลที่ Pbxb ครับ เมื่อเราได้แบบนี้เสร็จปุ๊บนะครับ เมื่อเรามีเทคเข้ามา นะครับ เราจะเอาเทควิ่งไปที่ A กับวิ่งไปที่ B นะครับ แล้วดูซิว่า B เนี่ยนะครับ ความน่าจะเป็นที่มันเกิดคํา Word ต่างต่างเนี่ยครับ เท่ากับเท่าไหร่ และความน่าจะเป็นที่เกิด Word ในนี้เป็นเท่าไหร่ แล้วมาดูว่า 2 ตัวนี้ตัวไหนมากกว่ากัน ถ้าความน่าจะเป็นของ B สมมุติว่าเป็น ลบ 0.15 ความน่าจะเป็นของ A เป็นลบ 0.88 ถูกไหม แสดงว่า 0.15 มากกว่า 0.88 เนอะ แสดงว่าเราจะ predict เป็น b นะครับ เป็นแค่นี้เองนะครับ ก็คือตอนแรกนะครับ ตัวนะครับ คือเราเอาเวิร์ดก่อน ความน่าจะเป็นของเวิร์ดแต่ละเวิร์ด แล้วเอาเวิร์ดเนี่ยมาบวกกันนะครับ ก็จะได้ความน่าจะเป็นของ sentence นะครับ ก็คือของ model a แล้วก็ทำเหมือนกันนะครับ กลับนั้นจะเป็นใน Sentence เหมือนกัน แต่เป็นของ B นะครับ แล้วก็เอาสองตัวเนี้ยมา compare กันนะครับ ก็จะสามารถได้ Prediction อ่ะ ทีนี้เรามาดูกันว่า เอ๊ะ เราจะ test ยังไงนะครับ วิธีการ test ก็คืออย่างนี้ครับ Select testing record อ่ะ สมมุติเรา sampling testing record มา แล้วก่อนที่เรา แล้วเราก็ต้อง transform the into the format that can fit to the model คืออะไรครับ ข้อมูล record ที่เราได้มาเนี่ยครับ มันต้องมีการ cleaning นิดหนึ่ง มันก็เลยกลายเป็นว่า อันนี้คือ select testing record ของเรา เราต้องตัดคําก่อนเห็นไหมครับ ตัดคําก่อน ก่อนที่จะมาเข้า Model เพราะฉะนั้นอะไรที่เรา Clean อะไรที่เรา Transform ตอนที่เราพัฒนาโมเดล เราเอากลับมา Apply กับข้อมูลอีกรอบนึง พอเสร็จปุ๊บ เราก็เอามาใส่ในโมเดลของเรา โดยเรามีโมเดล A กับโมเดล B เมื่อเราได้โมเดล A กับ B โมเดล A มันจะคำนวณค่าป๊อปมา โมเดล B ก็จะคำนวณค่าป๊อปมา แล้วเราก็มาเปรียบเทียบกันนะครับ อันไหนมากกว่ากันเราก็เลือกตัวนั้นนะครับ โดยที่เราก็จะใส่มาเป็น prediction ตรงนี้นะครับ ดูอีกทีนะครับ ก็คือว่าข้อมูลตรงนี้นะ วิ่งเข้าไปเป็น word segmentation ตัดคำนะครับ ตัดคำเสร็จนะครับ เอาสิ่งที่ตัดคำไปลูกอัพในโมเดลของเรา กับโมเดลบี แล้วดูความน่าจะเป็นว่าอันไหนมากกว่ากัน นะครับ ถ้าบีมากกว่าก็ตอบบี ถ้าเอมากกว่าก็ตอบเอ เห็นไหมครับ อ่ะ เรามาดูตรงนี้ อันนี้คือ actual เช่น ประโยชน์ที่ 1 จริงๆ แล้วเป็น A เขาพิธีกริกเป็น B อันนี้เราผิด ประโยชน์ที่ 2 พิธีกริกเป็น A เราพิธีกริกเป็น B อ้าว ผิดอีกแล้ว ประโยชน์ที่ 3 เราพิธีกริกเป็น A ได้ 1 แต่ง ประโยคที่ 4 ได้ 2 แตมเห็นไหม ประโยคที่ 5 ได้อีก 1 แตม ประโยคที่ 6 ปริดิกต์ Actual เป็น B ปริดิกต์ A ผิดแล้ว ประโยค 7, 8, 90 เป็น B ปริดิกต์เป็น B ถูกหมด ถูก 1, 2, 3, 4, 5, 6, 7 ถูก 7 จาก 10 เพราะฉะนั้น Accuracy ก็คือ 70% เห็นไหมครับ อ่ะนะครับ ตัวอีกครั้งหนึ่งเห็นไหมครับ ข้างล่างเนี่ยเป็นวิธีการทํา model เนาะ อันนี้เป็น input อันนี้เป็น input นะครับ อันนี้เป็นการตัดคำนะครับ ส่งข้อมูลมาที่ เอ่อ คาล์คูเลตว่า ของ word เป็นยังไง แล้วรวมเป็น ของ ได้เป็นตัวเลขนะครับ ในการ เอ่อ ออกมานะครับ เอาตัวเลขเนี้ยนะครับ มาเปรียบเทียบกันนะครับ แล้วก็เป็นค่า นะครับ ก็จะได้เป็นตัวนี้ ครับ อ่า ก็คราว ก็จะเป็นอย่างนี้นะครับ สูตรอย่างล่าง นะครับ สรุปนิดหนึ่งนะครับ สรุปว่าเริ่มตั้งแต่การที่หนึ่ง เรื่องที่หนึ่งคือเราเข้าใจ เราเข้าใจว่าเราจะทําเรื่อง happiness เนอะ นะครับ เอ๊ะ มันเกิดมาจากสาเหตุอะไร ทําไมมันถึง เรามันมี แล้วเราก็ไปดู Data มันมี Data พอดีจาก Amazon นะครับ เราก็เลยเอามาใช้ แต่เนื่องด้วยเวลาจํากัดเราก็เลยแชมปลิ้ง ข้อมูลมาแค่ 28 ตัวนะครับ เพื่อจะทํา จริงๆ ทําได้เป็นแสนตัวนะครับ พอเสร็จรูปเราก็มาออกแบบ ออกแบบ Experiment ว่าเราจะวิเคราะห์เรื่องอะไร ว่าเราจะทำยังไงตั้งแต่ตัดคำ ตั้งแต่นับคำ เอามาหา Popularity แล้วก็มาหาความน่าจะเป็น ทำ Model A และ Model B แล้วเราก็นำตัวนี้ไป Evaluate Test แล้วก็ Evaluate ถ้าเราจะไปใช้จริงก็ทําได้เหมือนกัน ก็เอา Excel ตัวเดิมเนี่ยนะครับ ไปแล้วก็เปลี่ยน เปลี่ยนตัว entry นะครับ ให้เป็นประโยคที่เราต้องการ ก็สามารถทําได้นะครับ โมเดลที่เราทําเนี่ยครับ โมเดลที่เราทำนี่เรียก Naive Bay นะครับ เป็นโมเดลที่ใช้ความน่าจะเป็นนะครับ ความน่าจะเป็น สูงตามนี้เนอะ นะครับ นะครับ เป็น เอ่อ โมเดลที่เกี่ยวกับใช้ความน่าจะเป็นนะครับ เริ่มต้นในการทําตัว นะครับ แล้วก็มีลักษณะของ ข้อมูลทำเป็น label แล้วก็มา clean ข้อมูล แล้วก็มีการตัดคำ การนัดคำ การหาความน่าจะเป็น ที่เรียกว่า Naive Bay แล้วก็ได้ Model ขึ้นมา แล้วก็เปรียบเทียบความน่าจะเป็น สุดท้าย Model ของเราทั้ง 2 ตัวนี้ ก็จะไป to implement ได้ใน Excel เหมือนกัน อ่ะ ทีนี้ อ่า เราก็น่าจะได้ทําโปรเจ็คแรกของเราไปเนอะ ทีนี้ถ้าเราสนใจที่จะทําโปรเจ็คต่อเนื่องนะครับ ด้วยข้อมูลตัวเนี้ย เราสามารถไปดูที่ไหนได้บ้างนะครับ อ่า มันมีเว็บหนึ่งนะครับ ชื่อ paper with code ครับ คือเว็บที่เป็นงานวิจัยแล้วก็ ถ้าแถงโค้ดมาด้วยนะครับ ถ้าเราไป search paper with code และ happy db เนี่ย ก็จะมีอยู่เป็น 10 งานวิจัยเลยที่ใช้ข้อมูลชิดด้วยกับเรา หรือเราจะเข้าไปที่ CACO ก็ได้ CACO ก็จะมี CACO ก็คือเป็น free platform ที่มีคนเอาข้อมูลไปให้เราเล่นแล้วก็แข่งขันกัน หรือเราจะไปที่ของเล็กเตอร์เซ็ตที่ฮาวัดทำไว้ ก็เป็นการเอาข้อมูล HappyDB มาคลีน เพื่อที่เราจะไปทำงานต่อ แล้วก็มีระบิวให้เรียบร้อย มันจะมีการเช็คคำผิดให้ มีอะไรให้ หรือว่าเราต้องการที่จะเท็จอันลักษณะของ R-Programming มันก็จะมีที่คุณแวง ดร.แวง เตรียมไว้ให้ เป็นเทคนิคในการทำเทคโมนิงกับข้อมูลเช็ดเดียวกัน แล้วก็แน่นอน KBTG ก็ได้เช็คคำผิดให้ จะมี การอบรมหรือการต่างต่างครับนะครับที่สามารถที่จะวิเคราะห์ข้อมูลชุดนี้นะครับหรือข้อมูลชุดอื่นอื่นนะครับที่ในเชิงลึกมากขึ้นนะครับนำเสนอในโอกาสต่อไปนะครับ คำถามที่น่าสนใจครับ ว่าเราจะเริ่มได้ยังไง อย่างแรกเราต้องเข้าใจก่อนว่า นอกจากคอนเซ็ปต์ของ Data Science ที่เราเรียนกันมา เราต้องเข้าใจว่า Data Science เป็น Skill การวิเคราะห์ข้อมูลเป็นทักษะ เราไม่สามารถ มองข้อมูลแล้วเราเก่งการวิเคราะห์ได้นะครับ เหมือนกับฟุตบอลนะครับ ถ้าเรามองลูกฟุตบอลไปเรื่อยเรื่อยเราไม่เก่งขึ้นนะครับ การเตะฟุตบอลหรือการวิเคราะห์ข้อมูลเป็นทักษะ เพราะฉะนั้นการที่เป็นทักษะเราต้องทําไงครับ ต้องฝึกฝน เราทักษะต้องฝึกฝน แต่เราจะฝึกฝนยังไงได้บ้าง อย่างแรกเลยเราสามารถฝึกฝนด้วยตัวตัวเอง เอาข้อมูลมานั่งวิเคราะห์ดูผล และที่สำคัญอย่าลืมฝึกคอมมูลิเคท เราสามารถฝึกฝนจากการเรียน ไม่จำเป็นจะต้องไปเรียนที่ในโรงเรียน หรือในคลาส เราสามารถเรียนออนไลน์ได้ นะครับ จะเรียนเป็นคอร์สสั้นๆนะครับ หรือจะเรียนเป็นคอร์สยาวๆนะครับ ที่ต่างประเทศหรือจะเรียนในยูทูปก็ได้นะครับ จะเรียนคอร์สภาษาไทยก็ได้นะครับ เยอะแยะไปหมดนะครับ ขอให้เราได้เรียน ขอให้เราได้ฝึกฝน และที่สําคัญเมื่อเราเรียน เราจะมีโอกาสฝึกฝนและอย่าลืม เห็นไหมครับ ต้องเรียนและฝึกฝน เรียนอย่างเดียวไม่ได้ ฝึกฝนอย่างเดียวไปไม่ถูกทางก็ไม่ได้ ที่สําคัญคืออะไรครับ คือเราจะต้องทดสอบตัวเองด้วย เห็นไหมครับ คนเล่นหมักลุก ยังมีการแข่งขันนะครับ เราเล่นเราก็แข่งขันได้ เพื่ออะไรครับ เพื่อทําให้เราฝึกฝนทักษะไอดีขึ้น แต่แค่นั้นยังไม่พอนะครับ การฝึกฝนที่ดี การที่จะพัฒนาสกิลที่ดีคืออะไรครับ คือการฝึกฝนเป็นทีมนะครับ คุณอาจจะฝึกฝนคนเดียวได้นะครับ คุณก็เก่งระดับหนึ่ง แต่ถ้าคุณฝึกฝนกันเป็นทีมนะครับ ลองจับทีมกับเพื่อนเพื่อนนะครับ เป็นดาตาไซน์ทีมเล็กเล็ก นะครับ พัฒนาการเรียนรู้ด้วยกันนะครับ แล้วไปแข่งขันด้วยกันนะครับ เราจะได้แข่งขันกัน เราจะได้เก่งขึ้นได้นะครับ เพราะว่าอะไรครับ เพราะว่าถ้าเราแข่งคนเดียวเราสู้ ไม่ได้ แต่ถ้าเราแข่งด้วยกันนะครับ ช่วยกันนะครับ เป็น collective effort นะครับ เรามีสิทธิ์ที่จะชนะกับ machine ครับ เพราะฉะนั้นวันนี้นะครับ เริ่มการฝึกฝน เริ่มการเรียนรู้ และ อ่า ทดสอบการแข่งขันนะครับ และ เก่งไปด้วยกันกับเพื่อนเพื่อนในทีมครับ สุดท้ายอยากจะฝากเอาไว้นะครับ ถ้าใครสนใจงานด้าน Data Science ก็สามารถเข้ามาเป็นเพื่อนร่วมงานกับเราได้นะครับ เราก็ Hiring ตลอดนะครับ ขอบคุณครับ