Perbandingan Metode Ensemble Machine Learning untuk Klasifikasi Tenaga Kerja di Indonesia dengan Random Forest, XGBoost, dan CatBoost

1Politeknik Statistika STIS, Indonesia

2Politeknik Statistika STIS, Jl. Otto Iskandardinata 64C Jakarta Timur, Indonesia

Received: 28 Dec 2020; Published: 24 Sep 2024.
Survei Angkatan Kerja Nasional (Sakernas) adalah survei periodik yang besar sehingga membutuhkan pengolahan data  kompleks serta validasi benar untuk menjaga kualitas data. Salah satu pertanyaan Sakernas yang pengisian dan validasinya secara manual yaitu lapangan pekerjaan utama. Untuk memberikan validasi, Machine Learning dapat diterapkan dengan memanfaatkan informasi pada isian lain. Penelitian ini menggunakan metode Random Forest, XGBoost, dan CatBoost untuk klasifikasi lapangan pekerjaan utama pada Sakernas Agustus 2019. Berdasarkan hasil, ketiga model memiliki performa yang hampir sama baik dari presisi, recall, dan f1 yaitu untuk sektor primer dan tersier diatas 90 % dan sektor sekunder sebesar 80%. Model dari Random Forest, XGBoost, dan CatBoost memiliki akurasi sebesar 91,80%; 90,88%; dan 91,84%. Nilai Area Under Curve (AUC) dari ketiga model relatif tinggi dengan CatBoost memiliki nilai tertinggi pada klasifikasi sektor primer, sekunder, dan tersier masing-masing sebesar 1,00; 0,97; dan 0,98.

Keywords: sakernas; random forest; xgboost; catboost

