Klasifikasi Pasien Terkena Breast Cancer Menggunakan Metode Machine Learning

Main Article Content

Adryan Tjengharwidjaja
Brando Dharma Saputra
Yagyu Munenori Michael Emmanuel

Abstract

Kanker payudara adalah salah satu keganasan terbanyak dan memiliki angka kematian cukup tinggi pada wanita. Menurut data World Health Organization (WHO) pada tahun 2020, terdapat 2,3 juta wanita yang terdiagnosis kanker payudara dan 685,000 kematian secara global. Hingga akhir tahun 2020, ada 7,8 juta wanita hidup yang didiagnosis menderita kanker payudara dalam 5 tahun terakhir, menjadikannya kanker paling umum di dunia. Ada lebih banyak tahun hidup yang disesuaikan dengan disabilitas yang hilang (DALYs) oleh wanita karena kanker payudara secara global daripada jenis kanker lainnya. Kanker payudara terjadi di setiap negara di dunia pada wanita pada usia berapa pun setelah pubertas tetapi dengan tingkat yang meningkat di kemudian hari. Kematian akibat kanker payudara tidak banyak berubah dari tahun 1930-an hingga 1970-an. Perbaikan dalam kelangsungan hidup dimulai pada 1980-an di negara-negara dengan program deteksi dini yang dikombinasikan dengan berbagai cara pengobatan untuk memberantas penyakit infasif. Untuk mencari solusi supaya bisa mengurangi korban jiwa yang diakibatkan oleh kanker payudara, maka kami ingin membuat sebuah sistem yang bisa mengklasifikasi apakah seseorang terkena kanker payudara yang termasuk Benign (tumbuh perlahan, tidak menyebar) atau Malignant (ganas, dan bisa menyebar) dengan beberapa metode machine learning. Data yang digunakan untuk penelitian ini berasal dari Wisconsin yang didapat dari UCI Machine Leaning Repository. Metode yang akan digunakan adalah Logistic Regression, Random Forest dan Decision Tree. Dari ketiga metode tersebut akan dibandingkan manakah model yang memberikan nilai akurasi paling bagus. Setelah melakukan uji coba terhadap dataset test, hasil penelitian ini menunjukkan bahwa dari ketiga metode tersebut, Decision Tree memberikan nilai akurasi paling tinggi, posisi kedua adalah Random Forest, dan hasil paling kecil adalah Logistic Regression. Kesimpulan yang didapat adalah ketiga metode machine learning ini dapat digunakan dan diterapkan ke dalam kasus prediksi klasifikasi kanker payudara benign atau malignant, dan decision tree memberikan hasil paling tinggi. Dengan pengetahuan ini, orang yang terkena kanker payudara bisa mengambil keputusan mengenai cara mengatasi kanker tersebutKanker payudara adalah salah satu keganasan terbanyak dan memiliki angka kematian cukup tinggi pada wanita. Menurut data World Health Organization (WHO) pada tahun 2020, terdapat 2,3 juta wanita yang terdiagnosis kanker payudara dan 685,000 kematian secara global. Hingga akhir tahun 2020, ada 7,8 juta wanita hidup yang didiagnosis menderita kanker payudara dalam 5 tahun terakhir, menjadikannya kanker paling umum di dunia. Ada lebih banyak tahun hidup yang disesuaikan dengan disabilitas yang hilang (DALYs) oleh wanita karena kanker payudara secara global daripada jenis kanker lainnya. Kanker payudara terjadi di setiap negara di dunia pada wanita pada usia berapa pun setelah pubertas tetapi dengan tingkat yang meningkat di kemudian hari. Kematian akibat kanker payudara tidak banyak berubah dari tahun 1930-an hingga 1970-an. Perbaikan dalam kelangsungan hidup dimulai pada 1980-an di negara-negara dengan program deteksi dini yang dikombinasikan dengan berbagai cara pengobatan untuk memberantas penyakit infasif. Untuk mencari solusi supaya bisa mengurangi korban jiwa yang diakibatkan oleh kanker payudara, maka kami ingin membuat sebuah sistem yang bisa mengklasifikasi apakah seseorang terkena kanker payudara yang termasuk Benign (tumbuh perlahan, tidak menyebar) atau Malignant (ganas, dan bisa menyebar) dengan beberapa metode machine learning. Data yang digunakan untuk penelitian ini berasal dari Wisconsin yang didapat dari UCI Machine Leaning Repository. Metode yang akan digunakan adalah Logistic Regression, Random Forest dan Decision Tree. Dari ketiga metode tersebut akan dibandingkan manakah model yang memberikan nilai akurasi paling bagus. Setelah melakukan uji coba terhadap dataset test, hasil penelitian ini menunjukkan bahwa dari ketiga metode tersebut, Decision Tree memberikan nilai akurasi paling tinggi, posisi kedua adalah Random Forest, dan hasil paling kecil adalah Logistic Regression. Kesimpulan yang didapat adalah ketiga metode machine learning ini dapat digunakan dan diterapkan ke dalam kasus prediksi klasifikasi kanker payudara benign atau malignant, dan decision tree memberikan hasil paling tinggi. Dengan pengetahuan ini, orang yang terkena kanker payudara bisa mengambil keputusan mengenai cara mengatasi kanker tersebut

Article Details

Section
Articles
Author Biographies

Adryan Tjengharwidjaja, UNTAR - Universitas Tarumanagara

Mahasiswa

Brando Dharma Saputra, UNTAR - Universitas Tarumanagara

Mahasiswa

Yagyu Munenori Michael Emmanuel, UNTAR - Universitas Tarumanagara

Mahasiswa

References

[ 1 ] Prasetio, Darwin., dan Dra. Harlili, M. Sc., “Predicting Football Match Results with Logistic Regression”. International Conference On Advanced Informatics: Concepts, Theory And Application (ICAICTA), 2016.

[ 2 ] Rochmawati, Naim dkk., “Covid Symptom Severity using Decision Tree”. Third International Conference on Vocational Education and Electrical Engineering (ICVEE), 2020.

[ 3 ] Zawbaa, Hossam M. dkk., “Automatic Fruit Classification using Random Forest Algorithm”. 14th International Conference on Hybrid Intelligent Systems, 2014.

[ 4 ] Prabhat, Anjuman., and Vikat Khullar, “Sentiment classification on Big Data using Naïve Bayes and Logistic Regression”. International Conference on Computer Communication and Informatics (ICCCI), 2017.

[ 5 ] Dr. William H. Wolberg. ( 2016). Kaggle, UCI. Breast Cancer Wisconsin (Diagnostic) Data Set. Diakses pada 25 Oktober 2021, dari https://www.kaggle.com/uciml/breast-cancer-wisconsin-data.

[ 6 ] WHO. Breast Cancer. (2020). Diakses pada 01 November 2021, dari https://www.who.int/news-room/fact-sheets/detail/breast-cancer.

[ 7 ] Tampil, Yumira Adriani , Komalig, Hanny , Langi, Yohanis , “Analisis Regresi Logistik Untuk Menentukan Faktor-Faktor Yang Mempengaruhi Indeks Prestasi Kumulatif (IPK) Mahasiswa FMIPA Universitas Sam Ratulangi Manado”. JdC, Vol. 6, No. 2, September 2017.

[ 8 ] Achmad, Budanis Dwi Meilani dan Slamat, Fauzi. ” Klasifikasi Data Karyawan Untuk Menentukan Jadwal Kerja Menggunakan Metode Decision Tree”. Jurnal IPTEK Vol 16 No.1 Mei 2012.

[ 9 ] Dewi, Nariswari Karina , Syafitri, Utami Dyah , Mulyadi, Soni Yadi. “PENERAPAN METODE RANDOM FOREST DALAM DRIVER ANALYSIS”. Forum Statistika dan Komputasi, April 2011.