4 jenis utama ensemble methods yang wajib diketahui dalam machine learning
Dalam Machine Learning, ensemble methods adalah pendekatan yang menggabungkan beberapa model (biasanya model prediktif seperti decision trees) untuk meningkatkan akurasi, stabilitas, dan generalization dari prediksi. Ensemble biasanya lebih kuat dibandingkan model tunggal.
Berikut detail tentang 4 jenis utama ensemble methods:
✅ 1. Bagging (Bootstrap Aggregating)
🔹 Konsep:
Bagging adalah metode ensemble yang membangun beberapa model independen dari subsets data pelatihan yang berbeda (diambil dengan bootstrap sampling, yaitu pengambilan sampel dengan pengembalian), lalu menggabungkan hasil prediksinya — biasanya dengan voting (klasifikasi) atau averaging (regresi).
🔹 Tujuan:
Mengurangi variance dari model (mencegah overfitting).
🔹 Ciri khas:
-
Model dilatih secara paralel.
-
Dataset pelatihan tiap model sedikit berbeda (karena bootstrap).
-
Sangat cocok untuk algoritma dengan high variance (misalnya: decision trees).
🔹 Contoh algoritma:
-
Random Forest (bagging dari decision trees)
-
Bagged Decision Trees
✅ 2. Boosting
🔹 Konsep:
Boosting membangun model secara berurutan, di mana setiap model baru berusaha memperbaiki kesalahan dari model sebelumnya. Bobot diberikan lebih besar kepada data yang sulit diprediksi, agar model berikutnya lebih fokus ke situ.
🔹 Tujuan:
Mengurangi bias dan variance, meningkatkan akurasi model.
🔹 Ciri khas:
-
Model dibangun secara berurutan.
-
Model baru fokus pada kesalahan model sebelumnya.
-
Memiliki risiko overfitting jika tidak diatur dengan baik.
🔹 Contoh algoritma:
-
AdaBoost (Adaptive Boosting)
-
Gradient Boosting
-
XGBoost (Extreme Gradient Boosting)
-
LightGBM
-
CatBoost
✅ 3. Stacking (Stacked Generalization)
🔹 Konsep:
Stacking menggabungkan prediksi dari berbagai model (disebut base learners) dan menggunakannya sebagai input ke model meta-learner (atau blender) yang bertugas memberikan prediksi akhir.
🔹 Tujuan:
Memanfaatkan kekuatan beragam jenis model untuk saling melengkapi.
🔹 Ciri khas:
-
Menggunakan berbagai algoritma (misal: SVM, Decision Tree, Logistic Regression, dll).
-
Model base learners bisa heterogen.
-
Model meta-learner mempelajari bagaimana menggabungkan output dari base learners.
-
Biasanya dibagi menjadi:
-
Level-0 models (base learners)
-
Level-1 model (meta learner)
-
🔹 Contoh algoritma:
-
Kombinasi RandomForest, GradientBoosting, dan SVM → digabungkan oleh Logistic Regression.
✅ 4. Blending
🔹 Konsep:
Blending mirip dengan stacking, tetapi proses pembelajaran meta-learner dilakukan menggunakan validation set (bukan cross-validation seperti pada stacking).
🔹 Tujuan:
Mendapatkan kinerja stacking dengan proses yang lebih sederhana dan cepat.
🔹 Ciri khas:
-
Memecah dataset menjadi:
-
Train set (melatih base models)
-
Holdout/validation set (melatih meta-learner)
-
-
Lebih mudah diterapkan, tapi bisa kurang general dibanding stacking.
🔄 Perbandingan Stacking vs Blending
Aspek | Stacking | Blending |
---|---|---|
Data untuk meta-learner | Cross-validation | Validation set |
Akurasi | Lebih tinggi | Sedikit lebih rendah |
Risiko overfitting | Lebih rendah | Lebih tinggi (karena sedikit data untuk meta-learner) |
Implementasi | Lebih kompleks | Lebih sederhana |
🔚 Kesimpulan: Ensemble Methods
Metode | Sifat Model | Kombinasi | Tujuan | Contoh Algoritma |
---|---|---|---|---|
Bagging | Paralel | Voting/Averaging | Kurangi variance | Random Forest |
Boosting | Berurutan | Weighted sum | Kurangi bias & variance | XGBoost, AdaBoost |
Stacking | Paralel | Meta-learner | Kombinasi model heterogen | Sklearn Stacking |
Blending | Paralel | Meta-learner | Simpler stacking | Manual blending |
Comments
Post a Comment