4 jenis utama ensemble methods yang wajib diketahui dalam machine learning

June 21, 2025

Dalam Machine Learning, ensemble methods adalah pendekatan yang menggabungkan beberapa model (biasanya model prediktif seperti decision trees) untuk meningkatkan akurasi, stabilitas, dan generalization dari prediksi. Ensemble biasanya lebih kuat dibandingkan model tunggal.

Berikut detail tentang 4 jenis utama ensemble methods:

✅ 1. Bagging (Bootstrap Aggregating)

🔹 Konsep:

Bagging adalah metode ensemble yang membangun beberapa model independen dari subsets data pelatihan yang berbeda (diambil dengan bootstrap sampling, yaitu pengambilan sampel dengan pengembalian), lalu menggabungkan hasil prediksinya — biasanya dengan voting (klasifikasi) atau averaging (regresi).

🔹 Tujuan:

Mengurangi variance dari model (mencegah overfitting).

🔹 Ciri khas:

Model dilatih secara paralel.
Dataset pelatihan tiap model sedikit berbeda (karena bootstrap).
Sangat cocok untuk algoritma dengan high variance (misalnya: decision trees).

🔹 Contoh algoritma:

Random Forest (bagging dari decision trees)
Bagged Decision Trees

✅ 2. Boosting

🔹 Konsep:

Boosting membangun model secara berurutan, di mana setiap model baru berusaha memperbaiki kesalahan dari model sebelumnya. Bobot diberikan lebih besar kepada data yang sulit diprediksi, agar model berikutnya lebih fokus ke situ.

🔹 Tujuan:

Mengurangi bias dan variance, meningkatkan akurasi model.

🔹 Ciri khas:

Model dibangun secara berurutan.
Model baru fokus pada kesalahan model sebelumnya.
Memiliki risiko overfitting jika tidak diatur dengan baik.

🔹 Contoh algoritma:

AdaBoost (Adaptive Boosting)
Gradient Boosting
XGBoost (Extreme Gradient Boosting)
LightGBM
CatBoost

✅ 3. Stacking (Stacked Generalization)

🔹 Konsep:

Stacking menggabungkan prediksi dari berbagai model (disebut base learners) dan menggunakannya sebagai input ke model meta-learner (atau blender) yang bertugas memberikan prediksi akhir.

🔹 Tujuan:

Memanfaatkan kekuatan beragam jenis model untuk saling melengkapi.

🔹 Ciri khas:

Menggunakan berbagai algoritma (misal: SVM, Decision Tree, Logistic Regression, dll).
Model base learners bisa heterogen.
Model meta-learner mempelajari bagaimana menggabungkan output dari base learners.
Biasanya dibagi menjadi:
- Level-0 models (base learners)
- Level-1 model (meta learner)

🔹 Contoh algoritma:

Kombinasi RandomForest, GradientBoosting, dan SVM → digabungkan oleh Logistic Regression.

✅ 4. Blending

🔹 Konsep:

Blending mirip dengan stacking, tetapi proses pembelajaran meta-learner dilakukan menggunakan validation set (bukan cross-validation seperti pada stacking).

🔹 Tujuan:

Mendapatkan kinerja stacking dengan proses yang lebih sederhana dan cepat.

🔹 Ciri khas:

Memecah dataset menjadi:
- Train set (melatih base models)
- Holdout/validation set (melatih meta-learner)
Lebih mudah diterapkan, tapi bisa kurang general dibanding stacking.

🔄 Perbandingan Stacking vs Blending

Aspek	Stacking	Blending
Data untuk meta-learner	Cross-validation	Validation set
Akurasi	Lebih tinggi	Sedikit lebih rendah
Risiko overfitting	Lebih rendah	Lebih tinggi (karena sedikit data untuk meta-learner)
Implementasi	Lebih kompleks	Lebih sederhana

🔚 Kesimpulan: Ensemble Methods

Metode	Sifat Model	Kombinasi	Tujuan	Contoh Algoritma
Bagging	Paralel	Voting/Averaging	Kurangi variance	Random Forest
Boosting	Berurutan	Weighted sum	Kurangi bias & variance	XGBoost, AdaBoost
Stacking	Paralel	Meta-learner	Kombinasi model heterogen	Sklearn Stacking
Blending	Paralel	Meta-learner	Simpler stacking	Manual blending

Search This Blog

GoCoding