1. Pengenalan: Apa itu Data Scientist?
Data Scientist adalah profesional yang menggunakan keahlian statistik, pemrograman, dan domain knowledge untuk menganalisis data, menemukan pola tersembunyi, dan memberikan insight yang mendukung pengambilan keputusan bisnis. Profesi ini sering disebut sebagai "sexiest job of the 21st century" oleh Harvard Business Review.
Di era digital ini, setiap interaksi pengguna menghasilkan data โ dari klik di website, transaksi belanja online, riwayat kesehatan, hingga pergerakan transportasi. Data Scientist berperan mengubah data mentah menjadi actionable insights yang membantu bisnis tumbuh, berinovasi, dan bersaing.
Berdasarkan data World Economic Forum 2025, Data Scientist dan AI Specialist termasuk dalam 10 profesi dengan pertumbuhan tercepat di dunia. Di Indonesia, permintaan Data Scientist meningkat 40-50% per tahun sejak 2023, didorong oleh pertumbuhan startup fintech, e-commerce, dan digital health.
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ EKOSISTEM DATA SCIENCE โ โ โ โ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โ โ โ DATA โโโโถโ DATA โโโโถโ DATA โโโโถโ BUSINESS โ โ โ โ COLLECTIONโ โCLEANING โ โ ANALYSIS โ โ INSIGHT โ โ โ โ โ โ& WRANGLINGโ โ& MODELINGโ โ โ โ โ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โ โ โ โ โ โ โ โ โผ โผ โผ โผ โ โ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โ โ โ SQL, โ โ Pandas, โ โScikit- โ โTableau, โ โ โ โ APIs, โ โ NumPy, โ โlearn, โ โPower BI, โ โ โ โ Web โ โ PySpark โ โTensorFlowโ โLooker โ โ โ โScraping โ โ โ โ,PyTorch โ โ โ โ โ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โโโโโโโโโโโโ โ โ โ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ โ โ FOUNDATION: Matematika & Statistik โ โ โ โ Linear Algebra โ Probability โ Statistics โ Calculusโ โ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
Perbedaan Data Scientist, Data Analyst & Data Engineer
| Aspek | Data Analyst | Data Scientist | Data Engineer |
|---|---|---|---|
| Fokus Utama | Analisis deskriptif & reporting | Prediktif & preskriptif | Data pipeline & infrastruktur |
| Tools Utama | Excel, SQL, Tableau, Power BI | Python, R, ML frameworks | Spark, Airflow, dbt |
| Skill Kunci | SQL, visualisasi, bisnis | ML, statistik, programming | ETL, cloud, distributed systems |
| Output | Dashboard, laporan | Model, insight, rekomendasi | Pipeline, data warehouse |
| Matematika | Descriptive statistics | Advanced statistics & ML | Data architecture |
| Gaji ID (mid) | Rp 8-18 juta | Rp 15-35 juta | Rp 15-30 juta |
2. Skills yang Dibutuhkan Data Scientist
Data Scientist membutuhkan kombinasi unik dari skill teknis, matematika, dan bisnis. Berikut breakdown lengkap skills yang harus dikuasai:
๐ง Hard Skills
1. Programming (Python & R)
Python adalah bahasa #1 untuk Data Science karena ekosistem library yang kaya:
- Python dasar: Variabel, data types, loop, function, OOP, list comprehension
- Python untuk data: Pandas, NumPy, data wrangling, file I/O
- R: Alternatif untuk analisis statistik (tidyverse, ggplot2, caret)
- Jupyter Notebook: Interactive coding environment untuk eksplorasi data
- Best practices: Clean code, version control (Git), testing, documentation
2. SQL & Database
Data Scientist harus sangat menguasai SQL karena sebagian besar data bisnis tersimpan di database:
- Basic queries: SELECT, WHERE, GROUP BY, ORDER BY, JOIN
- Advanced: Window functions, CTE (Common Table Expressions), subqueries
- Database management: PostgreSQL, MySQL, SQLite, BigQuery, Snowflake
- NoSQL basics: MongoDB, Redis untuk data yang tidak terstruktur
- Performance: Indexing, query optimization, EXPLAIN
3. Data Wrangling & Cleaning
Rata-rata 60-80% waktu Data Scientist dihabiskan untuk membersihkan data:
- Pandas: DataFrame manipulation, merge, groupby, pivot, melt
- Data quality: Missing values handling, outlier detection, data validation
- Feature engineering: Encoding, scaling, binning, text processing
- ETL basics: Extract, Transform, Load process
- Data pipeline: Airflow, Luigi, Prefect untuk orchestration
4. Data Visualization
Kemampuan menyajikan data secara visual sangat penting:
- Python libraries: Matplotlib, Seaborn, Plotly, Altair
- BI Tools: Tableau, Power BI, Looker, Metabase
- Storytelling with data: Memilih chart yang tepat, annotation, color theory
- Dashboard creation: Streamlit, Dash, Grafana
5. Machine Learning
Inti dari Data Science โ membangun model yang bisa belajar dari data:
- Supervised learning: Regression (Linear, Polynomial), Classification (Logistic, SVM, Random Forest, XGBoost)
- Unsupervised learning: Clustering (K-Means, DBSCAN), Dimensionality Reduction (PCA, t-SNE)
- Model evaluation: Cross-validation, confusion matrix, ROC-AUC, precision-recall
- Feature selection: Feature importance, regularization (L1/L2), dimensionality reduction
- AutoML: Auto-sklearn, TPOT, H2O, Google AutoML
6. Deep Learning & NLP
Untuk problem yang lebih kompleks seperti image recognition dan text analysis:
- Frameworks: TensorFlow, Keras, PyTorch
- CNN: Image classification, object detection
- RNN/LSTM: Time series, sequential data
- Transformers: BERT, GPT, large language models
- NLP: Text classification, sentiment analysis, named entity recognition
๐ง Soft Skills
| Soft Skill | Kenapa Penting | Cara Mengembangkan |
|---|---|---|
| Business Acumen | Memahami masalah bisnis dan menerjemahkannya ke analisis | Baca laporan bisnis, ikuti rapat stakeholder |
| Komunikasi | Menjelaskan temuan teknis ke non-teknis | Latihan presentasi, tulis blog |
| Critical Thinking | Berpikir kritis terhadap data dan model | Question assumptions, check biases |
| Storytelling | Menyajikan data dalam narasi yang compelling | Belajar data storytelling, lakukan presentasi |
| Problem Solving | Merumuskan dan memecahkan masalah dengan data | Kaggle competitions, case studies |
| Kolaborasi | Bekerja dengan stakeholder lintas departemen | Tim proyek, pair programming |
3. Tools & Teknologi Data Scientist
Berikut toolkit lengkap Data Scientist, dikategorikan berdasarkan fungsi:
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ DATA SCIENCE TOOL STACK โ โ โ โ โโโโโโโโโโโโโโโโ PRESENTATION โโโโโโโโโโโโโโโ โ โ โ Tableau โ Power BI โ Streamlit โ Plotly โ โ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ โ โโโโโโโโโโโโโโโโ MODELING โโโโโโโโโโโโโโโโโโโ โ โ โ Scikit-learn โ TensorFlow โ PyTorch โ XGB โ โ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ โ โโโโโโโโโโโโโโโโ ANALYSIS โโโโโโโโโโโโโโโโโโโ โ โ โ Pandas โ NumPy โ SciPy โ Statsmodels โ โ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ โ โโโโโโโโโโโโโโโโ DATA LAYER โโโโโโโโโโโโโโโโโ โ โ โ SQL โ PostgreSQL โ BigQuery โ Spark โ โ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ โ โโโโโโโโโโโโโโโโ ENVIRONMENT โโโโโโโโโโโโโโโโ โ โ โ Jupyter โ VS Code โ Git โ Docker โ Cloud โ โ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
| Kategori | Tools | Fungsi | Prioritas |
|---|---|---|---|
| Bahasa | Python, R, SQL | Data manipulation & modeling | โญโญโญโญโญ |
| Notebook | Jupyter, JupyterLab, Google Colab | Interactive analysis | โญโญโญโญโญ |
| Data Wrangling | Pandas, NumPy, PySpark | Data cleaning & transform | โญโญโญโญโญ |
| Visualization | Matplotlib, Seaborn, Plotly | Chart & graph creation | โญโญโญโญโญ |
| ML Library | Scikit-learn, XGBoost, LightGBM | Traditional ML | โญโญโญโญโญ |
| Deep Learning | TensorFlow, PyTorch, Keras | Neural networks | โญโญโญโญ |
| NLP | NLTK, spaCy, HuggingFace | Text processing & LLM | โญโญโญโญ |
| BI Tools | Tableau, Power BI, Looker | Dashboard & reporting | โญโญโญโญ |
| Database | PostgreSQL, BigQuery, Snowflake | Data storage & query | โญโญโญโญ |
| Pipeline | Airflow, Prefect, dbt | Workflow orchestration | โญโญโญ |
| Experiment Tracking | MLflow, Weights & Biases, DVC | Model versioning | โญโญโญ |
| Deployment | FastAPI, Flask, Docker, Streamlit | Model serving | โญโญโญ |
| Cloud | AWS SageMaker, GCP Vertex AI, Azure ML | ML platform cloud | โญโญโญ |
| AutoML | H2O, Auto-sklearn, TPOT | Automated modeling | โญโญ |
4. Matematika & Statistik untuk Data Science
Matematika adalah fondasi Data Science. Tanpa pemahaman matematika yang baik, kamu hanya bisa menggunakan tools tanpa memahami mengapa suatu model bekerja atau tidak.
๐ Topik Matematika yang Wajib Dipelajari
| Topik | Sub-topik | Relevansi Data Science |
|---|---|---|
| Linear Algebra | Vektor, matriks, eigenvalue/eigenvector, SVD, PCA | Dimensi reduksi, recommender systems |
| Calculus | Derivatif, gradient, partial derivatives, chain rule | Gradient descent, backpropagation, optimization |
| Probability | Bayes theorem, distributions, conditional probability | Probabilistic models, A/B testing |
| Statistics | Hypothesis testing, confidence intervals, correlation | Significance testing, feature selection |
| Optimization | Gradient descent, convex optimization, regularization | Model training, hyperparameter tuning |
| Discrete Math | Graph theory, combinatorics, logic | Network analysis, recommendation systems |
๐ Konsep Statistik yang Harus Dikuasai
- Descriptive Statistics: Mean, median, mode, standard deviation, variance, quartiles, percentiles
- Inferential Statistics: Hypothesis testing (t-test, chi-square, ANOVA), p-value, confidence intervals
- Probability Distributions: Normal, binomial, Poisson, uniform, exponential
- Bayesian Statistics: Prior, posterior, likelihood, Bayesian inference
- A/B Testing: Experiment design, sample size calculation, statistical significance
- Regression Analysis: Linear regression, logistic regression, assumptions checking, residual analysis
- Time Series: Trend, seasonality, stationarity, ARIMA, Prophet
Tidak perlu menjadi ahli matematika untuk jadi Data Scientist. Fokus pada intuition โ mengapa metode tertentu bekerja, kapan menggunakannya, dan apa asumsinya. Banyak kursus online mengajarkan matematika Data Science tanpa terlalu teknis. Mulai dari statistik, lalu lanjut ke linear algebra dan calculus sesuai kebutuhan.
5. Machine Learning & AI
Machine Learning adalah inti dari Data Science. Kamu harus memahami berbagai jenis ML dan kapan menggunakannya:
๐ค Jenis Machine Learning
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ JENIS MACHINE LEARNING โ โ โ โ โโโโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโโโ โ โ โ SUPERVISED โ โ UNSUPERVISED โ โ REINFORCEMENT โ โ โ โ LEARNING โ โ LEARNING โ โ LEARNING โ โ โ โ โ โ โ โ โ โ โ โ โข Regression โ โ โข Clustering โ โ โข Q-Learning โ โ โ โ โข Classificationโ โ โข Dimensionalityโ โ โข Policy โ โ โ โ โข SVM โ โ Reduction โ โ Gradient โ โ โ โ โข Random Forestโ โ โข Association โ โ โข Deep Q-Networkโ โ โ โ โข XGBoost โ โ Rules โ โ โข Actor-Critic โ โ โ โ โข Neural Net โ โ โข Anomaly Det. โ โ โ โ โ โโโโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโโโ โโโโโโโโโโโโโโโโโโ โ โ โ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ โ โ DEEP LEARNING (subset ML) โ โ โ โ CNN (image) โ RNN/LSTM (sequence) โ Transformer (text)โ โ โ โ GAN (generative) โ Autoencoder โ Diffusion Models โ โ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
| Algoritma | Jenis | Use Case | Kompleksitas |
|---|---|---|---|
| Linear Regression | Supervised | Prediksi harga, trend | Pemula |
| Logistic Regression | Supervised | Binary classification | Pemula |
| Decision Tree | Supervised | Klasifikasi, aturan bisnis | Pemula |
| Random Forest | Supervised | General purpose, tabular data | Menengah |
| XGBoost / LightGBM | Supervised | Kompetisi, production ML | Menengah |
| K-Means Clustering | Unsupervised | Customer segmentation | Pemula |
| PCA | Unsupervised | Dimensi reduksi, visualisasi | Menengah |
| CNN | Deep Learning | Image classification, detection | Lanjutan |
| Transformers (BERT/GPT) | Deep Learning | NLP, text generation, chatbot | Lanjutan |
๐ ML Lifecycle
Data Scientist profesional harus memahami seluruh lifecycle ML:
- Problem Definition: Memahami masalah bisnis dan merumuskan sebagai problem ML
- Data Collection: Mengumpulkan data dari berbagai sumber
- EDA (Exploratory Data Analysis): Memahami distribusi, korelasi, dan pola data
- Feature Engineering: Membuat fitur yang informatif untuk model
- Model Selection: Memilih algoritma yang tepat
- Training & Tuning: Training model dengan hyperparameter tuning
- Evaluation: Mengukur performa model dengan metrics yang tepat
- Deployment: Deploy model ke production (MLOps)
- Monitoring: Memantau model di production (drift detection, retraining)
6. Gaji Data Scientist di Indonesia
Data Scientist adalah salah satu profesi dengan gaji tertinggi di IT. Berikut data gaji terkini:
| Level | Pengalaman | Gaji/Bulan (IDR) | Gaji/Bulan (USD) |
|---|---|---|---|
| Junior Data Analyst | 0-2 tahun | Rp 6 - 12 juta | $380 - $760 |
| Data Scientist | 2-4 tahun | Rp 15 - 30 juta | $950 - $1,900 |
| Senior Data Scientist | 4-7 tahun | Rp 30 - 55 juta | $1,900 - $3,470 |
| Lead / Manager | 7+ tahun | Rp 50 - 85 juta | $3,150 - $5,370 |
| Head of Data / VP | 10+ tahun | Rp 80 - 150 juta | $5,050 - $9,470 |
Faktor yang Mempengaruhi Gaji
- Industri: Fintech, e-commerce, dan consulting membayar tertinggi
- Tipe perusahaan: Startup > Corporate > Government (umumnya)
- Spesialisasi: NLP dan CV (computer vision) premium di atas rata-rata
- Kemampuan deploy model: Data Scientist yang bisa deploy ke production (MLOps) bernilai lebih tinggi
- Remote work: Perusahaan luar negeri membayar 2-5x lipat standar Indonesia
7. Job Market & Peluang Karir Data Science
Job market Data Scientist di Indonesia sangat menjanjikan. Berikut analisis lengkap:
๐ Pertumbuhan Permintaan
- Pertumbuhan 40-50% per tahun: Berdasarkan data LinkedIn dan Jobstreet, permintaan Data Scientist meningkat pesat sejak 2020
- Supply gap: Jumlah Data Scientist yang qualified masih jauh di bawah permintaan
- Banyak startup butuh: GoTo, Traveloka, Bukalapak, Blibli, dan startup lainnya aktif merekrut Data Scientist
- Non-tech juga butuh: Bank (BCA, Mandiri), healthcare (Halodoc), pertanian (eFishery) juga mulai membangun team data
๐ข Perusahaan yang Aktif Merekrut
| Kategori | Contoh Perusahaan | Fokus Data Science |
|---|---|---|
| Big Tech Indonesia | GoTo, Grab, Traveloka | Recommendation, pricing, fraud detection |
| E-commerce | Tokopedia, Shopee, Blibli | Search, personalization, demand forecasting |
| Fintech | BCA Digital, Kredivo, Dana, OVO | Credit scoring, risk, fraud |
| Consulting | McKinsey, BCG, Deloitte | Analytics, strategy |
| MNC | Google, Microsoft, Meta | ML research, products |
| Telecom | Telkomsel, XL Axiata | Churn prediction, network optimization |
| Healthcare | Halodoc, Alodokter | Medical image, prediction |
๐ฎ Tren Data Science 2026
- Generative AI & LLM: Permintaan engineer yang bisa fine-tune dan deploy LLM (ChatGPT-like) meningkat drastis
- MLOps: Integrasi ML ke production pipeline menjadi skill wajib
- Responsible AI: Fairness, explainability, dan ethics dalam AI semakin penting
- Edge AI: Deploy model ke edge devices (IoT, mobile) untuk inference real-time
- AI-as-a-Service: Banyak perusahaan membutuhkan Data Scientist yang bisa membangun dan mengelola AI platform
- Domain-Specific AI: Healthcare AI, fintech AI, agritech AI โ spesialisasi domain menjadi nilai jual
8. 10 Proyek Portofolio Data Science
Proyek portofolio adalah cara terbaik untuk menunjukkan kemampuan Data Science kamu. Berikut 10 proyek yang relevan dan impactful:
๐ข Proyek Pemula
Proyek 1: Exploratory Data Analysis (EDA) Dataset Indonesia
- Deskripsi: Analisis dataset seperti data kemiskinan, penduduk, atau COVID-19 Indonesia
- Skills: Pandas, Matplotlib, Seaborn, data cleaning
- Deliverable: Jupyter notebook dengan insight dan visualisasi yang compelling
- Data source: BPS.go.id, data.go.id, Kaggle
Proyek 2: Dashboard Penjualan E-commerce
- Deskripsi: Buat dashboard interaktif untuk menganalisis data penjualan e-commerce
- Skills: Streamlit/Dash, Plotly, SQL, Pandas
- Deliverable: Dashboard web interaktif dengan filter, charts, dan KPI metrics
- Deploy: Streamlit Cloud atau Heroku
Proyek 3: Sentiment Analysis Review Produk
- Deskripsi: Analisis sentimen dari review produk (Tokopedia, Shopee, Traveloka)
- Skills: NLP, TextBlob, NLTK, web scraping
- Deliverable: Model + visualisasi word cloud dan sentimen distribution
๐ก Proyek Menengah
Proyek 4: Customer Churn Prediction
- Deskripsi: Prediksi customer yang akan berhenti menggunakan layanan (telecom/SaaS)
- Skills: Scikit-learn, feature engineering, XGBoost, SHAP
- Deliverable: Model + feature importance analysis + deployment API
Proyek 5: Recommendation System
- Deskripsi: Sistem rekomendasi untuk film, buku, atau produk
- Skills: Collaborative filtering, content-based filtering, matrix factorization
- Deliverable: API recommendation + web UI sederhana
Proyek 6: Time Series Forecasting
- Deskripsi: Prediksi harga saham, demand forecasting, atau prediksi cuaca
- Skills: ARIMA, Prophet, LSTM, time series decomposition
- Deliverable: Model + dashboard forecasting + model comparison
๐ด Proyek Lanjutan
Proyek 7: End-to-End ML Pipeline dengan MLOps
- Deskripsi: Pipeline ML lengkap dari data ingestion sampai model monitoring
- Skills: Airflow, MLflow, Docker, FastAPI, monitoring
- Deliverable: Production-grade ML pipeline dengan CI/CD
Proyek 8: Object Detection untuk Identifikasi Sampah
- Deskripsi: Deteksi dan klasifikasi jenis sampah dari gambar
- Skills: CNN, YOLO, transfer learning, data augmentation
- Deliverable: Model + web app / mobile app demo
Proyek 9: Chatbot Bahasa Indonesia dengan LLM
- Deskripsi: Chatbot customer service berbasis LLM yang di-fine-tune untuk bahasa Indonesia
- Skills: Transformers, HuggingFace, fine-tuning, RAG
- Deliverable: Chatbot yang bisa menjawab pertanyaan spesifik domain
Proyek 10: A/B Testing Framework
- Deskripsi: Framework A/B testing untuk product analytics
- Skills: Statistics, hypothesis testing, Bayesian methods, visualization
- Deliverable: Tool + tutorial penggunaan + case study
9. Roadmap Belajar Data Science dari Nol
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ BULAN 1 2 3 4 5 6 7 8 9 10 11 12 โ โ โ โ Python โโโโโโโโโโโโ โ โ SQL โโโโโโโโ โ โ Statistics โโโโโโโโ โ โ Pandas/NumPy โโโโโโโโ โ โ Visualization โโโโโโโโ โ โ ML Basics โโโโโโโโ โ โ Advanced ML โโโโโโโโ โ โ Deep Learning โโโโโโโโ โ โ MLOps/Deploy โโโโโโโโ โ โ Portfolio โโโโโโโโ โ โ โ โ MILESTONE: โ โ โฒ โฒ โฒ โฒ โ โ First First ML Model in Job Ready โ โ Script Model Production + Kaggle โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
๐ Bulan 1-2: Programming & SQL
- โ Python fundamentals (data types, loops, functions, OOP)
- โ SQL fundamentals (queries, joins, aggregation)
- โ Basic statistics (descriptive, distributions)
- โ Version control (Git & GitHub)
- ๐ฏ Proyek: Analisis dataset sederhana dengan Python dan SQL
๐ Bulan 3-4: Data Wrangling & Visualization
- โ Pandas (DataFrame manipulation, cleaning, transformation)
- โ NumPy (array operations, linear algebra basics)
- โ Visualization (Matplotlib, Seaborn, Plotly)
- โ Exploratory Data Analysis (EDA) methodology
- ๐ฏ Proyek: EDA komprehensif dataset real Indonesia
๐ Bulan 5-6: Machine Learning Fundamentals
- โ Scikit-learn (classification, regression, clustering)
- โ Model evaluation metrics dan cross-validation
- โ Feature engineering techniques
- โ Hyperparameter tuning
- ๐ฏ Proyek: Customer churn prediction + deployment ke Streamlit
๐ Bulan 7-9: Advanced ML & Deep Learning
- โ Advanced ML (XGBoost, LightGBM, ensemble methods)
- โ Deep Learning basics (CNN, RNN/LSTM)
- โ NLP fundamentals (text classification, sentiment analysis)
- โ Time series forecasting
- ๐ฏ Proyek: Recommendation system atau time series forecasting
๐ Bulan 10-12: MLOps & Portfolio
- โ Model deployment (FastAPI, Docker, cloud)
- โ MLOps basics (MLflow, experiment tracking)
- โ Kaggle competition participation
- โ Portfolio GitHub dengan 5+ proyek
- โ Resume optimization dan interview prep
- ๐ฏ Target: Siap melamar posisi Junior Data Scientist
10. Jalur Karir Data Science
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โ JALUR KARIR DATA SCIENCE โ โ โ โ โโโโโโโโโโโโโโโโ โ โ โ Junior Data โ โ โ โ Analyst/Sci. โ โ โ โโโโโโโโฌโโโโโโโโ โ โ โ โ โ โโโโโโโโโโโโโโโผโโโโโโโโโโโโโโ โ โ โผ โผ โผ โ โ โโโโโโโโโโโโโ โโโโโโโโโโโโโ โโโโโโโโโโโโโ โ โ โ Data โ โ ML โ โ Data โ โ โ โ Scientist โ โ Engineer โ โ Architect โ โ โ โ โ โ โ โ โ โ โ โโโโโโโฌโโโโโโ โโโโโโโฌโโโโโโ โโโโโโโฌโโโโโโ โ โ โ โ โ โ โ โผ โผ โผ โ โ โโโโโโโโโโโโโ โโโโโโโโโโโโโ โโโโโโโโโโโโโ โ โ โ Senior โ โ Senior ML โ โ Solutions โ โ โ โ Data Sci โ โ Engineer โ โ Architect โ โ โ โโโโโโโฌโโโโโโ โโโโโโโฌโโโโโโ โโโโโโโฌโโโโโโ โ โ โ โ โ โ โ โโโโโโโโโโโโโโโผโโโโโโโโโโโโโโ โ โ โผ โ โ โโโโโโโโโโโโโโโโ โ โ โ Head of Data โ โ โ โ / VP of AI โ โ โ โโโโโโโโโโโโโโโโ โ โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
| Role | Fokus | Skill Kunci | Gaji Mid (IDR) |
|---|---|---|---|
| Data Scientist | Modeling, insight, prediction | ML, statistics, Python | Rp 15-35 juta |
| ML Engineer | Deploy & maintain ML systems | MLOps, Docker, K8s, API | Rp 18-40 juta |
| Data Analyst | Reporting, dashboards, BI | SQL, Tableau, Excel | Rp 8-20 juta |
| Data Engineer | Data pipeline & infrastructure | Spark, Airflow, SQL | Rp 15-35 juta |
| NLP Engineer | Text processing, LLM, chatbot | Transformers, PyTorch | Rp 20-45 juta |
| CV Engineer | Image/video processing | CNN, YOLO, OpenCV | Rp 20-45 juta |
11. Tips Sukses Karir Data Scientist
๐ก Untuk Pemula
- Mulai dengan Python, bukan tools: Kuasai Python fundamentals sebelum langsung ke TensorFlow atau PyTorch.
- Banyak praktik, sedikit teori: Belajar sambil mengerjakan proyek nyata lebih efektif daripada hanya membaca buku.
- Kaggle competition: Ikut kompetisi Kaggle untuk melatih skill dan mendapatkan exposure ke berbagai problem.
- GitHub adalah resume kamu: Aktif push proyek ke GitHub. Recruiters sering melihat GitHub profile.
- Jangan takut matematika: Pelajari matematika secara gradual, sambil langsung dipraktikkan ke kode.
- Domain knowledge penting: Pelajari industri tertentu (fintech, healthcare, e-commerce) untuk menjadi Data Scientist yang bernilai tinggi.
๐ก Untuk Interview
- Siapkan 3-5 proyek yang bisa dijelaskan dengan detail: Problem, approach, hasil, dan learning.
- Latihan SQL interview questions: Hampir semua interview Data Science ada SQL test.
- Pahami trade-offs model: Kenapa memilih XGBoost daripada Neural Network? Kapan menggunakan ensemble?
- Siapkan case study bisnis: Bagaimana kamu mengukur kesuksesan model? Bagaimana presentasi ke stakeholder?
- Tunjukkan business impact: Jangan hanya bicara accuracy โ bicara tentang impact ke bisnis.
๐ Sumber Belajar Rekomendasi
| Topik | Sumber Belajar | Tipe |
|---|---|---|
| Python | Python for Data Analysis (McKinney), Kaggle Learn | Freemium |
| SQL | SQLBolt, Mode Analytics SQL Tutorial, LeetCode | Gratis |
| Statistics | Khan Academy, StatQuest (YouTube) | Gratis |
| ML | Andrew Ng (Coursera), Scikit-learn Docs | Freemium |
| Deep Learning | Fast.ai, Deep Learning Specialization (Coursera) | Freemium |
| NLP | HuggingFace Course, NLP Specialization (Coursera) | Freemium |
| MLOps | MLOps Zoomcamp (DataTalksClub) | Gratis |
12. Quiz Pemahaman
1. Bahasa pemrograman yang paling populer untuk Data Science adalah?
2. Berapa persen waktu Data Scientist yang dihabiskan untuk data cleaning?
3. Algoritma yang termasuk unsupervised learning adalah?
4. Perbedaan utama Data Scientist dan Data Analyst adalah?
5. Framework yang digunakan untuk deploy model ML ke production?