Evaluasi Model Random Forest dengan Teknik SMOTE dan RUS untuk Klasifikasi Kerusakan Motor di Bengkel PLAVIX
DOI:
https://doi.org/10.52436/1.jpti.880Kata Kunci:
machine learning, random forest, klasifikasi kerusakan motor, TF-IDF, SMOTEAbstrak
Diagnosis kerusakan motor di bengkel konvensional masih sangat bergantung pada intuisi dan pengalaman subjektif mekanik, yang dapat menyebabkan inkonsistensi dan potensi kesalahan dalam penanganan kendaraan. Untuk mengatasi permasalahan tersebut, penelitian ini mengevaluasi kinerja algoritma Random Forest dalam mengklasifikasikan jenis kerusakan motor menggunakan dataset dari Bengkel PLAVIX. Data gejala diolah menggunakan Term Frequency-Inverse Document Frequency (TF-IDF), sedangkan fitur kategorikal dienkode dengan Label Encoding. Ketidakseimbangan data ditangani menggunakan Synthetic Minority Over-sampling Technique (SMOTE) dan Random Under-Sampling (RUS). Hasil menunjukkan bahwa Random Forest dengan SMOTE mampu meningkatkan akurasi dari 72,73% menjadi 77,27%, dengan peningkatan signifikan pada presisi sebesar 67,42%, serta recall sebesar 77,27% dan F1-Score sebesar 70,91% . Kombinasi SMOTE dan RUS juga memberikan keseimbangan yang lebih baik antara presisi dan recall. Studi ini membuktikan bahwa pendekatan machine learning dapat meningkatkan akurasi dan objektivitas diagnosis kerusakan motor, serta membantu bengkel dalam memberikan layanan perawatan kendaraan yang lebih andal dan efisien.
Unduhan
Referensi
L. Epriliani, Mayadi, and R. W. P. Pamungkas, “Implementasi Algoritma Naïve Bayes Untuk Memprediksi Kerusakan Sepeda Motor Pada Bengkel Citra Djaya Motor,” J. Inform. Inf. Secur., vol. 3, no. 1, pp. 59–72, 2022, doi: 10.31599/jiforty.v3i1.1268.
M. L. T. Alfianti and R. Supriyanto, “Perbandingan Kinerja Algoritma Random Forest, AdaBoost, dan XGBoost Dalam Memprediksi Resiko Penyakit Osteoporosis,” J. Ilmu Komput. dan Agri-Informatika, vol. 11, no. 2, pp. 172–184, Nov. 2024, doi: 10.29244/jika.11.2.172-184.
U. Sunarya and T. Haryanti, “Perbandingan Kinerja Algoritma Optimasi pada Metode Random Forest untuk Deteksi Kegagalan Jantung,” J. Rekayasa Elektr., vol. 18, no. 4, pp. 241–247, 2022, doi: 10.17529/jre.v18i4.26981.
M. I. Arisani and M. Muljono, “Peningkatan Kinerja K-Nearest Neighbor menggunakan Bagging pada Permasalahan Ragam Kelas terhadap Pemeliharaan Prediktif Permesinan,” JUSTIN (Jurnal Sist. dan Teknol. Informasi), vol. 12, no. 2, pp. 373–379, 2024, doi: 10.26418/justin.v12i2.78503.
M. A. Rayadin, M. Musaruddin, R. A. Saputra, and I. Isnawaty, “Implementasi Ensemble Learning Metode XGBoost dan Random Forest untuk Prediksi Waktu Penggantian Baterai Aki,” BIOS J. Teknol. Inf. dan Rekayasa Komput., vol. 5, no. 2, pp. 111–119, 2024.
A. Kurniawan, “Sistem Pakar Diagnosa Kerusakan Mesin Sepeda Motor dengan Menggunakan Metode Forward Chaining,” J. Ilmu Komputer, Tek. dan Multimed., vol. 1 No 2, no. 2, p. 446, 2023.
B. E. S. Dewi, S. Haikal, H. . Sulistyowati, R. Fitriani, and D. Pranowo, “Penerapan Machine Learning Menggunakan Algoritma Random Forest untuk Prediksi Harga Mobil Bekas,” Jurbal Tridi, vol. 2, no. 1, pp. 20–31, 2024.
T. Hasanin, T. M. Khoshgoftaar, J. L. Leevy, and R. A. Bauder, “Investigating class rarity in big data,” J. Big Data, vol. 7, no. 1, 2020, doi: 10.1186/s40537-020-00301-0.
S. K. Narayanasamy, Y. C. Hu, S. M. Qaisar, and K. Srinivasan, “Effective Preprocessing and Normalization Techniques for COVID-19 Twitter Streams with POS Tagging via Lightweight Hidden Markov Model,” J. Sensors, vol. 2022, 2022, doi: 10.1155/2022/1222692.
P. Cerda, G. Varoquaux, P. Cerda, and G. Varoquaux, “Encoding high-cardinality string categorical variables To cite this version?: Encoding high-cardinality string categorical variables,” 2020.
E. Saputro and D. Rosiyadi, “Penerapan Metode Random Over-Under Sampling Pada Algoritma Klasifikasi Penentuan Penyakit Diabetes,” Bianglala Inform., vol. 10, no. 1, pp. 42–47, 2022, doi: 10.31294/bi.v10i1.11739.
N. Istiqamah and M. Rijal, “Klasifikasi Ulasan Konsumen Menggunakan Random Forest dan SMOTE,” J. Syst. Comput. Eng., vol. 5, no. 1, pp. 66–77, 2024, doi: 10.61628/jsce.v5i1.1061.
R. Aryanti, T. Misriati, and A. Sagiyanto, “Analisis Sentimen Aplikasi Primaku Menggunakan Algoritma Random Forest dan SMOTE untuk Mengatasi Ketidakseimbangan Data,” J. Comput. Syst. Informatics, vol. 5, no. 1, pp. 218–227, 2023, doi: 10.47065/josyc.v5i1.4562.
L. Dube and T. Verster, “Enhancing classification performance in imbalanced datasets: A comparative analysis of machine learning models,” Data Sci. Financ. Econ., vol. 3, no. 4, pp. 354–379, 2023, doi: 10.3934/DSFE.2023021.
L. Xiang, “Application of an Improved TF-IDF Method in Literary Text Classification,” Adv. Multimed., vol. 2022, 2022, doi: 10.1155/2022/9285324.
G. Dudek, “A Comprehensive Study of Random Forest for Short-Term Load Forecasting,” Energies, vol. 15, no. 20, 2022, doi: 10.3390/en15207547.
V. Rupapara, F. Rustam, H. F. Shahzad, A. Mehmood, I. Ashraf, and G. S. Choi, “Impact of SMOTE on Imbalanced Text Features for Toxic Comments Classification Using RVVC Model,” IEEE Access, vol. 9, pp. 78621–78634, 2021, doi: 10.1109/ACCESS.2021.3083638.
H. Hairani, A. Anggrawan, and D. Priyanto, “Improvement Performance of the Random Forest Method on Unbalanced Diabetes Data Classification Using Smote-Tomek Link,” Int. J. Informatics Vis., vol. 7, no. 1, pp. 258–264, 2023, doi: 10.30630/joiv.7.1.1069.
T. Fulazzaky, A. Saefuddin, and A. M. Soleh, “Evaluating Ensemble Learning Techniques for Class Imbalance in Machine Learning?: A Comparative Analysis of Balanced Random,” vol. 11, no. 4, pp. 969–980, 2024, doi: 10.15294/sji.v11i4.15937.
A. A. G. W. S. Erlangga, I. G. A. Gunadi, and I. M. G. Sunarya, “Kombinasi Oversampling dan Undersampling dalam Menangani Class Imbalanced dan Overlapping pada Klasifikasi Data Bank Marketing,” J. Resist. (Rekayasa Sist. Komputer), vol. 7, no. 1, pp. 32–42, 2024, doi: 10.31598/jurnalresistor.v7i1.1515.
N. Suryana, P. Pratiwi, and R. T. Prasetio, “Penanganan Ketidakseimbangan Data pada Prediksi Customer Churn Menggunakan Kombinasi SMOTE dan Boosting,” IJCIT (Indonesian J. Comput. Inf. Technol., vol. 6, no. 1, pp. 31–37, May 2021, doi: 10.31294/ijcit.v6i1.9545.
T. O. Omotehinwa and D. O. Oyewola, “Hyperparameter Optimization of Ensemble Models for Spam Email Detection,” Appl. Sci., vol. 13, no. 3, 2023, doi: 10.3390/app13031971.
Jubeile Mark Baladjay, Nisce Riva, Ladine Ashley Santos, Dan Michael Cortez, Criselle Centeno, and Ariel Antwaun Rolando Sison, “Performance evaluation of random forest algorithm for automating classification of mathematics question items,” World J. Adv. Res. Rev., vol. 18, no. 2, pp. 034–043, 2023, doi: 10.30574/wjarr.2023.18.2.0762.
M. H. Ibrahim, “Klasifikasi Kerusakan Mesin Sepeda Motor menggunakan Metode Neural Network Backpropagation,” J. GEEJ, vol. 7, no. 2, 2024.
Anggi Priliani Yulianto and S. Darwis, “Penerapan Metode K-Nearest Neighbors (kNN) pada Bearing,” J. Ris. Stat., vol. 1, no. 1, pp. 10–18, 2021, doi: 10.29313/jrs.v1i1.16.
N. Hafidhoh, A. P. Atmaja, G. N. Syaifuddiin, I. B. Sumafta, S. M. Pratama, and H. N. Khasanah, “Machine Learning untuk Prediksi Kegagalan Mesin dalam Predictive Maintenance System,” J. Masy. Inform., vol. 15, no. 1, pp. 56–66, 2024, doi: 10.14710/jmasif.15.1.63641.
S. Widodo, H. Brawijaya, and S. Samudi, “Stratified K-fold cross validation optimization on machine learning for prediction,” Sinkron, vol. 7, no. 4, pp. 2407–2414, 2022, doi: 10.33395/sinkron.v7i4.11792.
S. Maldonado, J. López, and A. Iturriaga, “Out-of-time cross-validation strategies for classification in the presence of dataset shift,” Appl. Intell., vol. 52, no. 5, pp. 5770–5783, 2022, doi: 10.1007/s10489-021-02735-2.
C. Cahyaningtyas, Y. Nataliani, and I. R. Widiasari, “Analisis Sentimen Pada Rating Aplikasi Shopee Menggunakan Metode Decision Tree Berbasis SMOTE,” Aiti, vol. 18, no. 2, pp. 173–184, 2021, doi: 10.24246/aiti.v18i2.173-184.
J. E. Br Sinulingga and H. C. K. Sitorus, “Analisis Sentimen Opini Masyarakat terhadap Film Horor Indonesia Menggunakan Metode SVM dan TF-IDF,” J. Manaj. Inform., vol. 14, no. 1, pp. 42–53, 2024, doi: 10.34010/jamika.v14i1.11946.
T. Wongvorachan, S. He, and O. Bulut, “A Comparison of Undersampling, Oversampling, and SMOTE Methods for Dealing with Imbalanced Classification in Educational Data Mining,” Inf., vol. 14, no. 1, 2023, doi: 10.3390/info14010054.
M. Samantri and Afiyati, “Perbandingan Algoritma Support Vector Machine dan Random Forest untuk Analisis Sentimen Terhadap Kebijakan Pemerintah Indonesia Terkait Kenaikan Harga BBM Tahun 2022,” J. JTIK (Jurnal Teknol. Inf. dan Komunikasi), vol. 8, no. 1, pp. 1–9, 2024, doi: 10.35870/jtik.v8i1.1202.
A. H. Sial, S. Yahya, and S. Rashdi, “Comparative Analysis of Data Visualization Libraries Matplotlib and Seaborn in Python,” Int. J. Adv. Trends Comput. Sci. Eng., vol. 10, no. 1, pp. 277–281, 2021, doi: 10.30534/ijatcse/2021/391012021.
Sukamto, Hadiyanto, and Kurnianingsih, “KNN Optimization Using Grid Search Algorithm for Preeclampsia Imbalance Class,” E3S Web Conf., vol. 448, 2023, doi: 10.1051/e3sconf/202344802057.
H. Xu and J. A. Prozzi, “Effect of Data Imbalance on the Performance of Pavement Deterioration Models,” Transp. Res. Rec., vol. 2677, no. 12, pp. 201–211, 2023, doi: 10.1177/03611981231167427.
Venkata Mahesh Babu Batta, “Human Language Data Processing using NLTK,” Int. J. Adv. Res. Sci. Commun. Technol., pp. 628–634, 2024, doi: 10.48175/ijarsct-17685.
J. H. M. Daniel Jurafsky, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Pearson, 2023.
M. Alden, N. Anargya, W. Ghozi, and F. A. Rafrastara, “Optimizing IoV Attack Detection using Random Under Sampling Techniques,” vol. 10, no. 1, pp. 11–19, 2025, doi: 10.30591/jpit.v10i1.8034.
N. I. Yaman, A. R. Juwita, S. Arum, P. Lestari, and S. Faisal, “Perbandingan Kinerja Algoritma Decision Tree dan Random Forest untuk Klasifikasi Nutrisi pada Makanan Cepat Saji,” pp. 184–195, 2024, doi: 10.33364/algoritma/v.21-2.1649.
I. O. Muraina, “Ideal Dataset Splitting Ratios in Machine Learning Algorithms: General Concerns for Data Scientists and Data Analysts,” 7th Int. Mardin Artuklu Sci. Res. Conf., no. February, pp. 496–504, 2022.
D. Elreedy, A. F. Atiya, and F. Kamalov, “A theoretical distribution analysis of synthetic minority oversampling technique (SMOTE) for imbalanced learning,” Mach. Learn., vol. 113, no. 7, pp. 4903–4923, 2024, doi: 10.1007/s10994-022-06296-4.
C. Magnolia, A. Nurhopipah, and B. A. Kusuma, “Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter,” Edu Komputika J., vol. 9, no. 2, pp. 105–113, 2022, doi: 10.15294/edukomputika.v9i2.61854.
K. Alanne and S. Sierla, “An overview of machine learning applications for smart buildings,” Sustain. Cities Soc., vol. 76, no. July 2021, p. 103445, 2022, doi: 10.1016/j.scs.2021.103445.
M. Faaique, “Overview of Big Data Analytics in Modern Astronomy,” Int. J. Math. Stat. Comput. Sci., vol. 2, pp. 96–113, 2023, doi: 10.59543/ijmscs.v2i.8561.
M. Hafiz and B. Prayoga, “Analisis Pemilihan Jurusan pada Calon Siswa SMK Negeri 4 Palembang Pada Faktor Penentu Pemilihan Jurusan Menggunakan Association Rule dan Random Forest Analysis of Major Selection for Prospective Students of SMK Negeri 4 Palembang on Determining Factors f,” vol. 4, no. 12, pp. 537–547, 2024.
R. Yunanto and U. Budiyanto, “Implementasi XGBoost dan SMOTE untuk Meningkatkan Deteksi Transaksi Fraud di Industri Jasa Keuangan Implementing Xgboost Models For Enhanced Detection Of Fraud Transaction In Financial Services Industries,” vol. 4, no. 11, pp. 525–535, 2024.
A. Mu et al., “Optimasi Logistic Regression dan Random Forest untuk Deteksi Berita Hoax Berbasis Hyperparameter Optimization of Logistic Regression and Random Forest for Hoax News Detection Using TF-IDF Text Representation,” vol. 4, no. 8, pp. 381–392, 2024.
A. S. Asaury et al., “Prediksi Jumlah Pasien Masuk Rumah Sakit Menggunakan Metode Random Forest PREDICTION OF THE NUMBER OF PATIENTS ADMITTED TO HOSPITAL USING,” vol. 5, no. 2, pp. 447–459, 2025.
D. Ariyana, E. D. Wahyuni, and N. Sembilu, “Perbandingan Kinerja Metode Binary Relevance , Classifier Chains , dan Label Powerset dalam Klasifikasi Multi-Label Data Pengaduan Sistem Informasi , Fakultas Ilmu Komputer , Universitas Pembangunan Nasional Veteran Jawa Comparison of Evaluation Results o,” vol. 5, no. 3, pp. 615–623, 2025.
U. Hasanah, A. mohamad Soleh, and K. Sadik, “Effect of Random Under sampling , Oversampling , and SMOTE on the Performance of Cardiovascular Disease Prediction Models terhadap Kinerja Model Prediksi Penyakit Kardiovaskular,” J. Mat. Stat. dan Komputasi, vol. 21, no. 1, pp. 88–102, 2024, doi: 10.20956/j.v21i1.35552.