Jika Anda tertarik dengan algoritma machine learning, mungkin sudah sering mendengar istilah Naive Bayes. Naive Bayes adalah salah satu teknik klasifikasi yang paling sederhana dan populer dalam machine learning. Algoritma ini mudah diimplementasikan dan sering menghasilkan akurasi yang cukup baik tergantung pada data yang digunakan.
Ada beberapa jenis Naive Bayes, tapi dua yang paling sering digunakan adalah Gaussian Naive Bayes dan Multinomial Naive Bayes. Keduanya memiliki cara kerja yang cukup berbeda, dengan perbedaan kunci pada distribusi probabilitas yang digunakan dalam perhitungan. Artikel ini akan membahas perbedaan antara Gaussian Naive Bayes dan Multinomial Naive Bayes secara detail.
Gaussian Naive Bayes
Gaussian Naive Bayes (GNB) adalah jenis Naive Bayes yang paling cocok untuk data yang terdistribusi secara normal. Ketika kita ingin mengklasifikasikan data berdasarkan beberapa atribut yang kontinu, seperti tinggi badan, berat badan, atau usia, maka kita dapat menggunakan GNB.
GNB bekerja dengan menghitung mean dan variance dari setiap atribut untuk setiap kelas yang ada dalam data. Selanjutnya, GNB akan menghitung probabilitas data terhadap tiap kelas menggunakan distribusi normal. Setelah itu, GNB akan mengalikan semua probabilitas untuk mendapatkan nilai akhir yang menunjukkan kelas yang paling mungkin.
Contoh sederhana: kita ingin mengklasifikasikan apakah seorang pelanggan akan membeli produk atau tidak berdasarkan umur dan gaji. Data yang kita miliki terdistribusi secara normal dan tidak memiliki nilai yang hilang. Dengan menggunakan Gaussian Naive Bayes, kita dapat menghitung probabilitas produk dibeli (y=1) dan tidak dibeli (y=0) berdasarkan atribut umur (x1) dan gaji (x2).
Pertama, kita hitung mean dan variance dari setiap atribut pada setiap kelas:
Kemudian, kita cari probabilitas distribusi normal dari setiap atribut untuk setiap kelas:
Setelah itu, kita dapat menghitung probabilitas produk dibeli dan tidak dibeli dengan mengalikan probabilitas atribut yang terkait dengan kelas:
Dari hasil perhitungan di atas, dapat kita simpulkan bahwa pelanggan yang berumur 35 dan memiliki gaji 70.000.000 lebih mungkin membeli produk (y=1).
Multinomial Naive Bayes
Multinomial Naive Bayes (MNB) adalah jenis Naive Bayes yang paling cocok untuk data yang terdiri dari angka yang terpisah, seperti kata-kata dalam dokumen. Teknik ini sering digunakan dalam klasifikasi teks, seperti klasifikasi email spam.
Ketika kita ingin mengklasifikasikan teks, kita harus merubah kata-kata menjadi angka terlebih dahulu dengan cara yang disebut "vectorization". Setiap kata dalam dokumen diberikan nilai numerik, biasanya frekuensi kemunculan kata tersebut dalam dokumen. Dengan begitu, dokumen dapat direpresentasikan dalam bentuk vektor yang terdiri dari persebaran frekuensi masing-masing kata.
MNB bekerja dengan menghitung jumlah kemunculan setiap kata dalam setiap kelas. Setelah itu, MNB menghitung probabilitas kemunculan kata-kata tersebut dalam dokumen baru yang ingin diklasifikasikan. MNB kemudian mengalikan probabilitas kata-kata dalam dokumen tersebut untuk mendapatkan nilai akhir yang menunjukkan kelas yang paling mungkin.
Contoh sederhana: kita ingin mengklasifikasikan email spam menggunakan Multinomial Naive Bayes. Kita telah memilih beberapa dokumen yang akan digunakan sebagai sampel. Setelah proses vectorization, kita menghasilkan table frekuensi kata berikut:
Dengan menggunakan table frekuensi kata di atas, kita dapat menghitung probabilitas kata-kata tersebut muncul pada dokumen spam atau non-spam. Kemudian, kita dapat menggunakan probabilitas yang telah dihitung untuk mengklasifikasikan email baru.
Kesimpulan
Sekarang, kita telah mempelajari perbedaan antara Gaussian Naive Bayes dan Multinomial Naive Bayes. Keduanya adalah teknik klasifikasi yang sangat berguna untuk memprediksi kelas pada data. GNB cocok untuk data yang terdistribusi secara normal, sedangkan MNB cocok untuk data yang terdiri dari frekuensi kata.
Rekomendasi penggunaan Naive Bayes tergantung pada jenis data yang Anda miliki. Jadi, ketika Anda menggunakan algoritma Naive Bayes, Anda harus mempertimbangkan jenis data Anda terlebih dahulu sebelum memilih jenis kedua Naive Bayes. Jika data Anda terdiri dari atribut numerik yang kontinu, pilih Gaussian Naive Bayes. Jika data Anda terdiri dari frekuensi kata, gunakan Multinomial Naive Bayes.
Sekarang Anda telah memahami berbagai perbedaan antara Gaussian Naive Bayes dan Multinomial Naive Bayes, semoga artikel ini bermanfaat. Jangan ragu untuk mulai berlatih dan menerapkan kedua algoritma Naive Bayes ini pada data Anda.