Lung Cancer EDA Classification Using the Decision Trees Method in Python

Authors

  • Aqila Aqila Universitas Islam Negeri Maulana Malik Ibrahim
  • Muhammad Faisal UIN Maulana Malik Ibrahim Malang

DOI:

https://doi.org/10.58777/ise.v1i1.56

Keywords:

Classification, Lung cancer, Decision Trees, Explanatory data analysis

Abstract

Cancer is the second leading cause of death worldwide. In Indonesia, it is one of the diseases with a high mortality rate. Most patients are unaware of their lung cancer condition, resulting in delayed treatment. A prediction method with high accuracy is needed for the early detection of lung cancer. This study aims to classify lung cancer using the Decision Trees method and perform Exploratory Data Analysis (EDA) using a dataset obtained from Kaggle. The research achieved a high recall value for the positive class (Yes class) but a low recall for the negative class (No class). The study utilized the Decision Trees algorithm, known for its good performance. The dataset used includes clinical and demographic information of patients. By building a Decision Trees model, the research successfully classified lung cancer with good accuracy. The EDA results also provide insights into important factors in lung cancer classification. This study has the potential to contribute to the development of predictive models for lung cancer.

 

Kanker merupakan penyebab kematian tertinggi kedua di dunia. Di Indonesia termasuk penyakit dengan tingkat kematian yang tinggi. Sebagian besar penderita tidak mengetahui bahwa dirinya terkena kanker paru sehingga penanganan menjadi terlambat. Metode prediksi dengan tingkat akurasi yang tinggi diperlukan untuk mendeteksi secara dini kanker paru. Penelitian ini untuk melakukan klasifikasi kanker paru-paru menggunakan metode Decision Trees dan melakukan Analisis Data Eksploratori (EDA) menggunakan dataset yang diperoleh dari Kaggle. Penelitian tersebut menghasilkan nilai recall yang tinggi untuk kelas positif (kelas Yes) namun rendah untuk kelas negatif (kelas No). Penelitian ini dibuat dengan algoritma Decision Trees yang dikenal memilki performa yang baik. Dataset yang digunakan berisi informasi klinis dan demografis pasien. Dengan membangun model Decision Trees, penelitian ini berhasil mengklasifikasikan kanker paru-paru dengan akurasi yang baik. Hasil EDA juga memberikan wawasan tentang faktor-faktor penting dalam klasifikasi kanker paru-paru positif dan negatif. Penelitian ini berpotensi memberikan kontribusi dalam pengembangan model prediktif untuk kanker paru-paru.

References

Adiwijaya, A. (2018). Deteksi Kanker Berdasarkan Klasifikasi Microarray Data. Jurnal Media Informatika Budidarma, 2(4), 181. https://doi.org/10.30865/mib.v2i4.1043

B. Bawono and R. Wasono, “Perbandingan Metode Random Forest dan Naive Bayes,” Jurnal Sains dan Sistem Informasi, vol. 3, no. 7, pp. 343–348, 2019, [Online]. Available: http://prosiding.unimus.ac.id

Cahyadie, R. C. R. (2016). Hubungan kebiasaan merokok dengan kejadian kanker paru Di rsud ulin banjarmasin. http://repository.unism.ac.id/395/

Charan, N., & Parthiban, S. (2023). Logistic Regression over Decision Trees For Lung Cancer Detection To Increase Accuracy. 10, 2944–2953.

D. Dablain, B. Krawczyk, and N. v. Chawla, “DeepSMOTE: Fusing Deep Learning and SMOTE for Imbalanced Data,” IEEE Trans Neural Netw Learn Syst, pp. 1–14, 2022, doi: 10.1109/TNNLS.2021.3136503.

D. H. Depari et al., “Perbandingan Model Decision Tree , Naive Bayes dan Random Forest untuk Prediksi Klasifikasi Penyakit Jantung,” vol. 4221, pp. 239–248, 2022.

Fardian, A. I., & Riana, D. (2021). Prediksi Harapan Hidup Pasien Kanker Paru-Paru Pasca Operasi Bedah Thoraks Menggunakan Boosted Neural Network Dan Smote. Jurnal Infomedia: Teknik Informatika, Multimedia, & Jaringan, 6(1), 9–15. http://archive.ics.uci.edu/ml/datasets .

Maiyanti, S. I., Zayanti, D. A., Andriani, Y., Suprihatin, B., Desiani, A., Salsabila, A., & Marselina, N. C. (2023). Perbandingan Klasifikasi Penyakit Kanker Paru-paru menggunakan Support Vector Machine dan K-Nearest Neighbor. 18(1), 54–62.

Nasrullah, A. H. (2021). Implementasi Algoritma Decision Tree Untuk Klasifikasi Produk Laris. Jurnal Ilmiah Ilmu Komputer, 7(2), 45–51. https://doi.org/10.35329/jiik.v7i2.203

Oktavianto, H., & Handri, R. P. (2020). Analisis Klasifikasi Kanker Payudara Menggunakan Algoritma

Naive Bayes. INFORMAL: Informatics Journal, 4(3), 117. https://doi.org/10.19184/isj.v4i3.14170

Purba, W., Wardani, S., Lumbantoruan, D. F., Celia, F., Silalahi, I., & Edison, T. L. (2023). Optimization Of Lung Cancer Classification Method Using Eda-Based Machine Learning. 6(2), 43–50.

Rahman, C. A., & Kudus, A. (2022). Penggunaan Metode K Nearest Neighborhood untuk Imputasi Data Tersensor Kanan pada Pasien Kanker Paru-Paru Sel Kecil. Bandung Conference Series: Statistics, 2(2), 441–448. https://doi.org/10.29313/bcss.v2i2.4615

Ramadani and B. H. Hayadi, “Perbandingan Metode Naive Bayes Dan Random Forest Untuk Menentukan Prestasi Belajar Siswa Pada Jurusan RPL (Studi Kasus SMK Swasta Siti Banun Sigambal),” Journal Computer Science and Information Technology(JCoInT) Program Studi Teknologi Informasi, no. 2, p. 2022, 2022, [Online]. Available: http://jurnal.ulb.ac.id/index.php/JCoInT/index

Sari, L., Romadloni, A., & Listyaningrum, R. (2023). Penerapan Data Mining dalam Analisis Prediksi Kanker Paru Menggunakan Algoritma Random Forest. Infotekmesin, 14(01), 155–162. https://doi.org/10.35970/infotekmesin.v14i1.1751

S. Amaliah and M. Nusrang, “Penerapan Metode Random Forest Untuk Klasifikasi Varian Minuman Kopi Di Kedai Kopi Konijiwa Bantaeng,” Variansi: Journal of Statistic and Its Application on Teaching and Research, vol. 4, no. 2, pp. 121–127, 2022, doi: 10.35580/variansiunm31.

Downloads

Published

2023-06-25

How to Cite

Aqila, A., & Faisal, M. (2023). Lung Cancer EDA Classification Using the Decision Trees Method in Python. Informatics and Software Engineering, 1(1), 8–13. https://doi.org/10.58777/ise.v1i1.56

Issue

Section

Articles
image host Views: 322 | image host Downloaded: 329