Kuliah Tamu: Data Scientist dan Data Analyst di Industri
Pembuka
- Pengantar dari dosen, mengapresiasi semangat dan kehadiran mahasiswa.
- Narasumber: Pak Gunawan Lumban Gawo dari Home Credit Indonesia.
- Fokus pada topik data scientist dan data analyst yang semakin populer.
Perkenalan Pak Gunawan Lumban Gawo
- Data Scientist di Home Credit Indonesia sejak 2019.
- Latar belakang di mobile development dan electrical engineering dari ITB.
- Pengalaman mengerjakan proyek-proyek data science, termasuk data science academy di Home Credit.
Pengantar Data Science
- Data science membantu dalam decision-making dengan data-driven approach.
- Pentingnya data collection dan accessibility.
- Flow untuk decision-making dan automation untuk decision yang berulang seperti credit scoring.
Pentingnya Data Visualization
- Statistik dan interpretasi data perlu visualisasi yang tepat untuk menghindari kesalahan dalam pengambilan keputusan.
- Contoh kesalahan dalam visualisasi: tidak ada sumbu, data yang tidak di-label, dan misleading correlations.
Kategorisasi Data Analytics
- Descriptive Analytics: Melihat apa yang terjadi berdasarkan data historis. (Contoh: frekuensi penjualan, rata-rata umur customer, dsb).
- Diagnostic Analytics: Menentukan penyebab terjadinya sesuatu. (Contoh: issue tree, breakdown analysis, dsb).
- Predictive Analytics: Memprediksi apa yang akan terjadi berdasarkan data historis. (Contoh: forecasting, churn prediction, dsb).
- Prescriptive Analytics: Memberikan rekomendasi berdasarkan prediksi. (Contoh: campaign strategy, customer targetting, dsb).
Contoh Kasus Data Analytics
- Credit Scoring: Penilaian risiko kredit secara otomatis dengan machine learning.
- Modeling: Logistic regression, decision trees, ensemble methods.
- Analisis Data: Menggunakan tools seperti Python (Pandas, Scikit-learn), R, Excel.
Workflow Data Analytics
- Business Understanding: Definisikan masalah bisnis dan objektifnya.
- Data Understanding: Eksplorasi dan pemahaman data yang ada, validasi asumsi data, akses ke data yang relevan.
- Data Preparation: Data cleaning, transformation, feature engineering.
- Modeling: Pilih dan aplikasikan model machine learning yang sesuai.
- Evaluation: Evaluasi model dengan metric yang sesuai (ROC AUC, accuracy, dsb).
- Deployment: Implementasi model dalam lingkungan produksi.
Best Practices dalam Data Analytics
- Iterasi cepat dan terus menerus (fail quickly, iterate fast).
- Memahami dan memilih tools yang tepat untuk pekerjaan yang tepat (misalnya tidak overkill menggunakan Spark untuk data kecil).
- Komunikasi dengan stakeholder untuk memahami kebutuhan bisnis dan mendapatkan feedback.
Toolset dalam Data Analytics
- Infrastructure: Oracle, Spark/Flink, Cloud services (AWS, Azure, Google Cloud).
- Visualization Tools: Tableau, Power BI, Excel.
- Programming Languages: Python (Pandas, Scikit-learn), R (lebih banyak di akademik dan biologi).
- Cloud Services: Integrated solutions for data storage, analytics, and deployment (AWS, Google Cloud, Azure).
- Selecting Right Tools: Sesuaikan tools dengan kebutuhan dan data size.
Kasus Sample: Credit Scoring
- Objective: Akurasi assessment risiko pinjaman dengan data demografi.
- Data Preparation: Explorasi data, feature engineering, handling missing values.
- Modeling: Gunakan model-model seperti logistic regression, decision trees, dan ensemble methods.
- Evaluation and Iteration: Evaluasi model dan iterasi berdasarkan feedback dan hasil.
Penutup dan Kesempatan yang Ada
- Informasi dari Bu Sanya tentang program magang dan kampus merdeka di Home Credit.
- Program ini memberi kesempatan untuk merasakan langsung peran data analyst dan data scientist di industri.
- Buka lowongan magang lebih dari 70 posisi, detil dapat diakses melalui situs kampus merdeka atau LinkedIn Home Credit Indonesia.
Q&A Highlights
- Pertanyaan tentang tools programming: Belajar dasar computational thinking lebih penting daripada mastering specific tools.
- Pertanyaan tentang iterasi dalam modeling: Iterasi penting dalam memahami dan menyempurnakan model, bisa beberapa kali hingga optimal.
- Pertanyaan tentang pemilihan machine learning model: Fokus pada model yang sesuai dengan kebutuhan masalah, tidak harus mencoba semua model.
Terima kasih kepada Pak Gunawan dan Bu Sanya atas waktunya dan informasi yang telah diberikan.