Saat kita membangun model untuk memprediksi sesuatu, misalkan apakah seorang pasien gangguan jantung akan meninggal (death) ataupun masih hidup (alive) dalam follow up periode tertentu, maka kita perlu mengukur seberapa baik model tersebut bekerja. Ada beberapa metrik yang digunakan untuk mengevaluasi kinerja model, yang paling umum adalah akurasi, precision, recall, dan F1-score. Metrik-metrik ini didasarkan pada confusion matrix, yaitu tabel yang mengukur hasil prediksi model terhadap data sebenarnya.
Nah, karena akurasi, precision, recall dan f1-score sangat erat kaitannya dengan confusion matrix, maka saya akan sangat menganjurkan kamu untuk memahami terlebih dahulu apa itu confusion matrix pada artikel berikut ini:
Baca Juga: Cara Membaca Confusion Matrix 2 x 2 disini
Akurasi adalah ukuran seberapa banyak prediksi yang benar dari semua prediksi yang dibuat oleh model. Akurasi adalah metrik yang paling umum digunakan karena mudah dipahami, tetapi bisa menyesatkan jika datanya tidak seimbang. Secara sederhana, rumus akurasi adalah seperti berikut:
Atau dalam confusion matrix adalah seperti berikut:
Baca Juga: Apa Itu TP, TN, FP &FN disini
Contoh:
Bayangkan kita memiliki 100 data dan model kita berhasil memprediksi dengan benar 90 di antaranya. Maka perhitungan akurasinya adalah seperti berikut:
Namun, meskipun akurasi sering digunakan, metrik ini tidak selalu menjadi metrik terbaik untuk mengevaluasi model, terutama ketika data tidak seimbang (misalnya, jika jumlah kelas positif jauh lebih sedikit daripada kelas negatif).
Precision adalah metrik yang lebih spesifik daripada akurasi untuk mengukur salah-satu label sebagai entitas terpisah. Precision mengukur: dari semua prediksi pada label tertentu (dalam hal ini label positif), berapa persen yang prediksinya benar. Atau dalam bahasa yang lebih teknis, precision adalah rasio antara prediksi positif yang benar (true positive) dengan total prediksi positif (baik yang benar maupun salah).
Rumus precision bisa dihitung dari keluaran confusion matrix. Kira-kira seperti ini:
Contoh:
Misalkan model memprediksi 50 data sebagai positif, namun hanya 40 di antaranya yang benar-benar positif (true positive), sementara 10 lainnya adalah kesalahan (false positive). Maka perhitungan precision-nya seperti berikut:
Recall mengukur seberapa banyak kasus positif dari semua data yang aktualnya beneran positif. Metrik ini penting ketika kita ingin meminimalkan kesalahan negatif (false negative), seperti pada deteksi penyakit di mana kita tidak ingin ada pasien yang sakit tetapi diklasifikasikan sebagai sehat. Secara teknis dalam confusion matrix, recall adalah rasio antara prediksi positif yang benar dengan total jumlah data yang sebenarnya positif.
Rumus precision bisa dihitung dari keluaran confusion matrix. Kira-kira seperti ini:
Contoh:
Misalkan dari 60 data yang sebenarnya positif, model hanya berhasil mendeteksi 45 di antaranya dengan benar, sementara 15 sisanya diprediksi salah sebagai negatif (false negative). Maka perhitungan recallnya adalah seperti berikut:
F1-Score adalah metrik yang menggabungkan precision dan recall. F1-score sangat berguna ketika kita menghadapi ketidakseimbangan kelas dalam dataset. Nilai F1-score adalah rata-rata harmonis antara precision dan recall, memberikan keseimbangan antara kedua metrik tersebut. F1-score memberikan keseimbangan antara precision dan recall, yang berguna ketika keduanya sama pentingnya.
Rumus f1-score bisa dihitung dari hasil precision dan recall dengan rumus seperti ini:
Contoh:
Jika precision dari model adalah 0.80 (80%) dan recall adalah 0.75 (75%), maka F1-score dapat dihitung sebagai berikut:
Misalkan kita memiliki dataset prediksi (testing) dengan 100 sampel, dan dari hasil prediksi data tersebut, confusion matrixnya adalah seperti berikut:
Dari confusion matrix diatas bisa kita simpulkan bahwa:
Berdasarkan data ini, kita bisa menghitung beberapa metrik sebagai berikut:
Memilih metrik yang tepat sangat tergantung pada tujuan dari model yang kita buat. Akurasi bisa menjadi pilihan bagus jika data seimbang, namun jika terdapat ketidakseimbangan antara kelas positif dan negatif, maka precision, recall, atau F1-score mungkin lebih relevan.
Confusion matrix adalah sebuah tabel yang digunakan untuk mengukur performa dari sebuah model klasifikasi dengan cara membandingkan hasil prediksi dari mesin dengan label yang sebenarnya. Misal kita memiliki...
Alumni Covid? Sini kumpul. Selama masa covid kemaren, kalian pasti sering banget mendengar istilah sensitifitas dan spesifitas bukan? Terutama yang berkaitan dengan alat deteksi covid atau keakurasian swab...