Soal Naive Bayes
Teorema Bayes :¶
Tipe Data Numerik¶
$$ P(c|x) = \frac{P(x_i|c) P©}{P(x_i)} $$ Dimana (P©) = Prior/Probabilitas kelas dari data yang ada P(c) = Prior (Probability) P(xi) = Evidenence dari setiap fitur/Probabilitas dari setiap fitur
(P(xi|c) = Likelihood dari setiap fitur yang diperoleh dari setiap kelas dengan menggunakan rumus: $$ P(x_i|c) = \frac{1}{\sqrt{2 \pi \sigma_c}} e{-\frac{1}{2}(\frac{x_i-\mu_c}{\sigma_c})2} $$
Tipe Data Categorical¶
Dimana P(xi|c) dapat diperoleh dari probabilitas berapa banyak fitur yang muncul dibagi banyak kelas yang muncul pada data yang ada
Tipe Data Campuran¶
Untuk tipe data campuran maka kita akan menggunakan rumus sesuai tipe dari attribut tersebut. Jika atributnya adalah numerik maka kita akan menggunakan rumus numerik akan tetapi jika attributnya categorical maka kita akan meggunakan rumus categorical
Contoh Soal:
outlook | temperature | humidity | windy | play |
---|---|---|---|---|
sunny | 85 | high | FALSE | no |
sunny | 80 | high | TRUE | no |
overcast | 83 | high | FALSE | yes |
rainy | 70 | high | FALSE | yes |
rainy | 68 | normal | FALSE | yes |
rainy | 65 | normal | TRUE | no |
overcast | 64 | normal | TRUE | yes |
sunny | 72 | high | FALSE | no |
sunny | 69 | normal | FALSE | yes |
rainy | 75 | normal | FALSE | yes |
sunny | 75 | normal | TRUE | yes |
overcast | 72 | high | TRUE | yes |
overcast | 81 | normal | FALSE | yes |
rainy | 71 | high | TRUE | no |
rainy | 60 | high | FALSE | ??? |
Untuk menentukan/menebak kelas dari data yang baru kita akan memakai teknik naive bayes. Dan didalam data baru tersebut terdapat atribut categorical dan atribut numerik maka untuk atribut categorical kita menggunakan probabilitas atribut itu muncul dalam setiap kelas dan untuk data numerik kita menggunakan rumus : $$ P(x_i|c) = \frac{1}{\sqrt{2 \pi \sigma_c}} e{-\frac{1}{2}(\frac{x_i-\mu_c}{\sigma_c})2} $$ untuk menghitung rata rata dan standart deviasi dari atribut numerik 60 kita bisa menggunakan excel dan memperoleh hasil
-
Rata - Rata = 72,66667
-
Standard Deviasi = 7,237469
- P(60|C) = 4.027899533
untuk probabilitas kelas YES yaitu : 9/14 = 0,642857
untuk probabilitas kelas NO yaitu : 5/14 = 0,357143
untuk fitur categorical
- Rainy
Yes : 3/9 = 0,333333
No : ⅖ = 0,4
- Humidity
Yes : 3/9 = 0,333333
No : ⅘ = 0,8
- False
Yes : 6/9 = 0,666667
No : ⅖ = 0,4
P(Yes|x) = 0.1918044093
P(No|x) = 0.1841326237
Maka kita bisa menebak bahwa data baru tersebut memiliki kelas YES
outlook | temperature | humidity | windy | play |
---|---|---|---|---|
rainy | 60 | high | FALSE | yes |