skip to main content

Prapemrosesan pada Klasifikasi Status Mutu Air Sungai Menggunakan Random Oversampling dan Outlier Remover Clustering

1Department of Informatics Magister, Universitas Islam Negeri Sunan Kalijaga Yogyakarta. Jl Marsda Adisucipto No 1 Depok Sleman Yogyakarta 55281, Indonesia

2Department of Biology, Universitas Islam Negeri Sunan Kalijaga, Indonesia

3Department of Informatics Magister UIN Sunan Kalijaga Yogyakarta, Indonesia

Received: 16 Apr 2022; Published: 24 Sep 2024.
Open Access Copyright (c) 2024 Shofwatul Uyun
Creative Commons License This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Citation Format:
Abstract
Ketidakseimbangan jumlah data pada setiap kelasnya serta adanya data outlier seringkali menjadi masalah dalam proses klasifikasi, hal tersebut tentu akan mempengaruhi performa kinerja pembelajaran mesin yang menurun. Oleh karena itupada penelitian ini diusulkan penggunaan teknik Random Oversampling (ROs) untuk mengatasi ketidakseimbangan data serta teknik Outlier Removal Clustering (ORC) untuk mengatasi data outlier pada penentuan status mutu air. Kedua teknik tersebut digunakan pada tahapan prapemrosesan. Penelitian ini terdiri dari beberapa tahapan, yaitu penentuan kelas status mutu air menggunakan teknik indeks pencemaran, prapemrosesan, pembagian data, klasifikasi serta evaluasi kinerja. Ada tiga algoritma klasifikasi yang digunakan sebagai perbandingan, yaitu KNN, CART dan random forest. Berdasarkan hasil penelitian menunjukkan peningkatan rerata akurasi dari penggunaan ketiga algoritma klasifikasi tersebut dengan tanpa dilakukan prapemrosesan, penggunaan ROs serta integrasi ROs dan ORC secara berurutan sebagai berikut 83,81%; 94,87% dan 95,51%. Jadi penggunaan teknik Ros dan ORC terbukti meningkatkan performa kinerja pada machine learning. 
Fulltext Email colleagues
Keywords: klasifikasi; prapemrosesan; RoS; OCR; mutu air.

Article Metrics:

  1. Cascio, F. Fauci, and G. Raso, “Fuzzy technique for microcalcifications clustering in digital mammograms,” BMC Medical Imaging, vol. 14, no. 1, pp. 1–18, 2014, doi: 10.1186/1471-2342-14-23
  2. Nabiel Makarim, “Keputusan Menteri Negara Lingkungan Hidup Tentang Pedoman Penentuan Status Mutu Air,” 2003
  3. O. Salim and E. Budhiarti, “Biased support vector machine and weighted-SMOTE in handling class imbalance problem,” vol. 4, no. 1, pp. 21–27, 2018
  4. A. Wijaya, S. Tinggi, I. Kesehatan, I. Maju, and R. S. Wahono, “Two-Step Cluster based Feature Discretization of Naïve Bayes for Outlier Detection in Intrinsic Plagiarism Detection,” Article in Journal of Intelligent Systems, vol. 1, no. 1, 2015, [Online]. Available: http://journal.ilmukomputer.org
  5. M. Iacomi, D. Cascio, F. Fauci, and G. Raso, “Mammographic images segmentation based on chaotic map clustering algorithm,” BMC Medical Imaging, vol. 14, no. 1, pp. 1–11, 2014, doi: 10.1186/1471-2342-14-12
  6. V. B. Bora, A. G. Kothari, and A. G. Keskar, “Robust Automatic Pectoral Muscle Segmentation from Mammograms Using Texture Gradient and Euclidean Distance Regression,” Journal of Digital Imaging, vol. 29, no. 1, pp. 115–125, 2016, doi: 10.1007/s10278-015-9813-5
  7. R. N. Rithesh, R. Vignesh, and M. R. Anala, “Autonomous traffic signal control using decision tree,” International Journal of Electrical and Computer Engineering, vol. 8, no. 3, pp. 1522–1529, 2018, doi: 10.11591/ijece.v8i3.pp1522-1529
  8. T. Jiang, J. L. Gradus, and A. J. Rosellini, “Supervised Machine Learning: A Brief Primer,” 2020. [Online]. Available: www.elsevier.com/locate/bt
  9. T. A. Assegie and P. S. Nair, “Handwritten digits recognition with decision tree classification: A machine learning approach,” International Journal of Electrical and Computer Engineering, vol. 9, no. 5, pp. 4446–4451, 2019, doi: 10.11591/ijece.v9i5.pp4446-4451
  10. T. Akter et al., “Water Quality Index for measuring drinking water quality in rural Bangladesh: A cross-sectional study,” Journal of Health, Population and Nutrition, pp. 1–12, 2016, doi: 10.1186/s41043-016-0041-5
  11. S. Sugriyono and M. U. Siregar, “Preprocessing kNN algorithm classification using K-means and distance matrix with students’ academic performance dataset,” Jurnal Teknologi dan Sistem Komputer, vol. 8, no. 4, Oct. 2020, doi: 10.14710/jtsiskom.2020.13874

Last update:

No citation recorded.

Last update: 2024-09-26 20:48:34

No citation recorded.