Kuliah Tamu: Data Scientist dan Data Analyst di Industri

Jul 23, 2024

Kuliah Tamu: Data Scientist dan Data Analyst di Industri

Pembuka

  • Pengantar dari dosen, mengapresiasi semangat dan kehadiran mahasiswa.
  • Narasumber: Pak Gunawan Lumban Gawo dari Home Credit Indonesia.
  • Fokus pada topik data scientist dan data analyst yang semakin populer.

Perkenalan Pak Gunawan Lumban Gawo

  • Data Scientist di Home Credit Indonesia sejak 2019.
  • Latar belakang di mobile development dan electrical engineering dari ITB.
  • Pengalaman mengerjakan proyek-proyek data science, termasuk data science academy di Home Credit.

Pengantar Data Science

  • Data science membantu dalam decision-making dengan data-driven approach.
  • Pentingnya data collection dan accessibility.
  • Flow untuk decision-making dan automation untuk decision yang berulang seperti credit scoring.

Pentingnya Data Visualization

  • Statistik dan interpretasi data perlu visualisasi yang tepat untuk menghindari kesalahan dalam pengambilan keputusan.
  • Contoh kesalahan dalam visualisasi: tidak ada sumbu, data yang tidak di-label, dan misleading correlations.

Kategorisasi Data Analytics

  1. Descriptive Analytics: Melihat apa yang terjadi berdasarkan data historis. (Contoh: frekuensi penjualan, rata-rata umur customer, dsb).
  2. Diagnostic Analytics: Menentukan penyebab terjadinya sesuatu. (Contoh: issue tree, breakdown analysis, dsb).
  3. Predictive Analytics: Memprediksi apa yang akan terjadi berdasarkan data historis. (Contoh: forecasting, churn prediction, dsb).
  4. Prescriptive Analytics: Memberikan rekomendasi berdasarkan prediksi. (Contoh: campaign strategy, customer targetting, dsb).

Contoh Kasus Data Analytics

  • Credit Scoring: Penilaian risiko kredit secara otomatis dengan machine learning.
  • Modeling: Logistic regression, decision trees, ensemble methods.
  • Analisis Data: Menggunakan tools seperti Python (Pandas, Scikit-learn), R, Excel.

Workflow Data Analytics

  • Business Understanding: Definisikan masalah bisnis dan objektifnya.
  • Data Understanding: Eksplorasi dan pemahaman data yang ada, validasi asumsi data, akses ke data yang relevan.
  • Data Preparation: Data cleaning, transformation, feature engineering.
  • Modeling: Pilih dan aplikasikan model machine learning yang sesuai.
  • Evaluation: Evaluasi model dengan metric yang sesuai (ROC AUC, accuracy, dsb).
  • Deployment: Implementasi model dalam lingkungan produksi.

Best Practices dalam Data Analytics

  • Iterasi cepat dan terus menerus (fail quickly, iterate fast).
  • Memahami dan memilih tools yang tepat untuk pekerjaan yang tepat (misalnya tidak overkill menggunakan Spark untuk data kecil).
  • Komunikasi dengan stakeholder untuk memahami kebutuhan bisnis dan mendapatkan feedback.

Toolset dalam Data Analytics

  • Infrastructure: Oracle, Spark/Flink, Cloud services (AWS, Azure, Google Cloud).
  • Visualization Tools: Tableau, Power BI, Excel.
  • Programming Languages: Python (Pandas, Scikit-learn), R (lebih banyak di akademik dan biologi).
  • Cloud Services: Integrated solutions for data storage, analytics, and deployment (AWS, Google Cloud, Azure).
  • Selecting Right Tools: Sesuaikan tools dengan kebutuhan dan data size.

Kasus Sample: Credit Scoring

  • Objective: Akurasi assessment risiko pinjaman dengan data demografi.
  • Data Preparation: Explorasi data, feature engineering, handling missing values.
  • Modeling: Gunakan model-model seperti logistic regression, decision trees, dan ensemble methods.
  • Evaluation and Iteration: Evaluasi model dan iterasi berdasarkan feedback dan hasil.

Penutup dan Kesempatan yang Ada

  • Informasi dari Bu Sanya tentang program magang dan kampus merdeka di Home Credit.
  • Program ini memberi kesempatan untuk merasakan langsung peran data analyst dan data scientist di industri.
  • Buka lowongan magang lebih dari 70 posisi, detil dapat diakses melalui situs kampus merdeka atau LinkedIn Home Credit Indonesia.

Q&A Highlights

  • Pertanyaan tentang tools programming: Belajar dasar computational thinking lebih penting daripada mastering specific tools.
  • Pertanyaan tentang iterasi dalam modeling: Iterasi penting dalam memahami dan menyempurnakan model, bisa beberapa kali hingga optimal.
  • Pertanyaan tentang pemilihan machine learning model: Fokus pada model yang sesuai dengan kebutuhan masalah, tidak harus mencoba semua model.

Terima kasih kepada Pak Gunawan dan Bu Sanya atas waktunya dan informasi yang telah diberikan.