Soal Naive Bayes

Teorema Bayes :

Tipe Data Numerik

$$ P(c|x) = \frac{P(x_i|c) P©}{P(x_i)} $$ Dimana (P©) = Prior/Probabilitas kelas dari data yang ada P(c) = Prior (Probability) P(xi) = Evidenence dari setiap fitur/Probabilitas dari setiap fitur

(P(xi|c) = Likelihood dari setiap fitur yang diperoleh dari setiap kelas dengan menggunakan rumus: $$ P(x_i|c) = \frac{1}{\sqrt{2 \pi \sigma_c}} e{-\frac{1}{2}(\frac{x_i-\mu_c}{\sigma_c})2} $$

Tipe Data Categorical

P(c|x) = \frac{P(x_i|c) P(c)}{P(x_i)}

Dimana P(xi|c) dapat diperoleh dari probabilitas berapa banyak fitur yang muncul dibagi banyak kelas yang muncul pada data yang ada

Tipe Data Campuran

Untuk tipe data campuran maka kita akan menggunakan rumus sesuai tipe dari attribut tersebut. Jika atributnya adalah numerik maka kita akan menggunakan rumus numerik akan tetapi jika attributnya categorical maka kita akan meggunakan rumus categorical

Contoh Soal:

outlook temperature humidity windy play
sunny 85 high FALSE no
sunny 80 high TRUE no
overcast 83 high FALSE yes
rainy 70 high FALSE yes
rainy 68 normal FALSE yes
rainy 65 normal TRUE no
overcast 64 normal TRUE yes
sunny 72 high FALSE no
sunny 69 normal FALSE yes
rainy 75 normal FALSE yes
sunny 75 normal TRUE yes
overcast 72 high TRUE yes
overcast 81 normal FALSE yes
rainy 71 high TRUE no
rainy 60 high FALSE ???

Untuk menentukan/menebak kelas dari data yang baru kita akan memakai teknik naive bayes. Dan didalam data baru tersebut terdapat atribut categorical dan atribut numerik maka untuk atribut categorical kita menggunakan probabilitas atribut itu muncul dalam setiap kelas dan untuk data numerik kita menggunakan rumus : $$ P(x_i|c) = \frac{1}{\sqrt{2 \pi \sigma_c}} e{-\frac{1}{2}(\frac{x_i-\mu_c}{\sigma_c})2} $$ untuk menghitung rata rata dan standart deviasi dari atribut numerik 60 kita bisa menggunakan excel dan memperoleh hasil

  • Rata - Rata = 72,66667

  • Standard Deviasi = 7,237469

  • P(60|C) = 4.027899533

untuk probabilitas kelas YES yaitu : 9/14 = 0,642857

untuk probabilitas kelas NO yaitu : 5/14 = 0,357143

untuk fitur categorical

  1. Rainy

Yes : 3/9 = 0,333333

No : ⅖ = 0,4

  1. Humidity

Yes : 3/9 = 0,333333

No : ⅘ = 0,8

  1. False

Yes : 6/9 = 0,666667

No : ⅖ = 0,4

P(Yes|x) = 0.1918044093

P(No|x) = 0.1841326237

Maka kita bisa menebak bahwa data baru tersebut memiliki kelas YES

outlook temperature humidity windy play
rainy 60 high FALSE yes