Nama
: Ifan Efendi
NPM
: 1B117043
Kelas
: 4KA43
Soal
VCLASS :
Jelaskan algoritma Classification lainnya , yaitu : decision tree, adaptive naive bayes, logistic regression
dan support vector machine. Bagaimana penerapannya dalam kasus.
1. Algoritma Classification decision tree :
Secara
konsep Decision tree adalah salah satu dari teknik decision analysis.Tries
sendiri pertama kali diperkenalkan pada tahun 1960-an oleh Fredkin. Trie atau
digital tree berasal dari kata retrival (pengambilan kembali) sesuai dengan fungsinya.
Secara etimologi kata ini diucapkan sebagai ‘tree’. Meskipun mirip dengan
penggunaan kata ‘try’ tetapi hal ini bertujuan untuk membedakannya dari general
tree. Dalam ilmu komputer, trie, atau prefix tree adalah sebuah struktur data
dengan representasi ordered tree yang digunakan untuk menyimpan associative
array yang berupa string. Berbeda dengan binary search tree (BST) yang tidak
ada node di tree yang menyimpan elemen yang berhubungan dengan node sebelumnya
dan, posisi setiap elemen di tree sangat menentukan. Semua keturunan dari suatu
node mempunyai prefix string yang mengandung elemen dari node itu, dengan root
merupakan string kosong. Values biasanya tidak terkandung di setiap node, hanya
di daun dan beberapa node di tengah yang cocok dengan elemen tertentu.
Secara
singkat bahwa Decision Tree merupakan salah satu metode klasifikasi pada Text
Mining. Klasifikasi adalah proses menemukan kumpulan pola atau fungsi-fungsi
yang mendeskripsikan dan memisahkan kelas data satu dengan lainnya, untuk dapat
digunakan untuk memprediksi data yang belum memiliki kelas data tertentu
(Jianwei Han, 2001).
Decision
Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan
atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji,
dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node
teratas dari sebuah Decision Tree adalah node akar (root) yang biasanya berupa
atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada
umumnya Decision Tree melakukan strategi pencarian secara top-down untuk
solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut
akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir
(daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru
tertentu.
Decision Tree menggunakan algoritma
ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Quinlan
yang merupakan singkatan dari Iterative Dichotomiser 3 atau Induction of
Decision “3″ (baca: Tree).
Algoritma
ID3 membentuk pohon keputusan dengan metode divide-and-conquer data secara
rekursif dari atas ke bawah. Strategi pembentukan Decision Tree dengan
algoritma ID3 adalah:
• Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data..
• Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
• Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
• Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah Decision Tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
• Proses pembagian rekursif akan berhenti jika salah satu dari kondisi dibawah ini terpenuhi :
1. Semua data dari anak cabang telah termasuk dalam kelas yang sama.
2. Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
3. Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
• Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data..
• Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
• Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
• Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah Decision Tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
• Proses pembagian rekursif akan berhenti jika salah satu dari kondisi dibawah ini terpenuhi :
1. Semua data dari anak cabang telah termasuk dalam kelas yang sama.
2. Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
3. Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
Beberapa contoh
pemakaian Decision Tree dalam kasus, yaitu :
• Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain
• Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain
• Pemilihan pegawai teladan sesuai dengan kriteria tertentu
• Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain
• Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain
• Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain
• Pemilihan pegawai teladan sesuai dengan kriteria tertentu
• Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain
2. Adaptive naive bayes :
Bayesian
Classification didasarkan
pada Teorema Bayesian. Konsep dasar teori bayes itu pada dasarnya adalah
peluang bersyarat P(H∣X).
Dimana dalam Bayesian H adalah posterior dan X adalah prior. Prior adalah
pengetahuan kita tentang karakteristik suatu parameter (bisa dibaca sebagai
pengalaman di masa lalu atas suatu parameter atau juga bisa berdasarkan teori),
sedangkan posterior adalah karakteristik yang akan kita duga pada kejadian yang
akan datang.
Teorema
Bayesian berguna untuk melakukan kalkulasi probabilitas posterior, P(H|X), dari
P(H), P(X) dan P(X|H). Teori Bayes adalah sebagai berikut : P(H|X)
=P(X|H)P(H) P(X)
Proses classification biasanya
dibagi menjadi dua fase : learning dan test. Pada
fase learning, sebagian data yang telah diketahui kelas datanya diumpankan
untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah
terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari
model tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk
prediksi kelas data yang belum diketahui.
3. Logistic regression :
Regresi
logistik merupakan alternative uji jika asumsi multivariate normal distribution
pada variabel bebasnya tidak bisa terpenuhi ketika akan dilakukan analisis
diskriminan. Tidak terpenuhinya asumsi ini dikarenakan variabel bebas merupakan
campuran antara variabel kontinyu (metric) dan kategorial (non metric).
Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu
tertentu dapat diprediksi dari informasi usia, kebiasaan merokok, jenis
kelamin, dan lainnya.
CONTOH
KASUS Logistic Regression
Seorang
dokter ingin mengetahui probabilitas seorang pasien terkena penyakit jantung
berdasarkan rutinitas kebiasaan merokok dan usia Data dikumpulkan dari catatan medis sebanyak 30 orang pasien yang
melakukan pemeriksaan kesehatan di RS ABC
Menilai Model Fit
Untuk menilai model fit dapat
diperhatikan nilai statistik -2LogL yaitu tanpa mengikutsertakan variabel hanya
berupa konstanta yaitu sebesar 41.589. Ketika dimasukkan 2 variabel baru maka
prediksi nilai -2LogL sebesar 16.750. Artinya terdapat penurunan sebesar 41.589
– 16.750 = 24.839.
Untuk -2LogL pertama diperoleh nilai
41.589 dengan df1 = 30-1 = 29. Nilai ini signifikan pada alpha 5% yang berarti
Ho ditolak, artinya model tidak fit.
nilai -2LogL kedua adalah sebesar
16.750 dengan df2 = 30-3 = 27 adalah tidak signifikan pada alpha 5%. (Nilai
statistik -2LogL di atas dibandingkan dengan nilai statistik distribusi x^2.),
artinya model fit dengan data.
Statistik -LogL dapat digunakan untuk
menentukan apakah jika variabel bebas dimasukkan dalam model dapat secara
signifikan mempengaruhi model. dengan selisih 24.839 dan df(df1-df2=29-27=2)
maka menunjukkan angka ini signifikan pada alpha 5%. Hal ini berarti Ho ditolak
dan Model fit dengan data.
Cox n Snell’s R Square adalah ukuran
pengaruh bersama yaitu sebesar 0.563 dan nilai Nagelkerke R Square adalah
sebesar 0.751. dengan demikian dapat disimpulkan bahwa kemampuan variabel bebas
menjelaskan model adalah sebesar 75.10%.
Selanjutnya, Hosmer and Lemeshow’s GoF
dilakukan untuk menguji hipotesis. Jika sig < 0.05 maka Ho ditolak yang
berarti ada perbedaan signifikan antara model dengan nilai observasinya. Jika
sig > 0.05 maka Ho diterima, artinya tidak ada perbedaan antara model dan
nilai observasinya.
statistik Hosmer and Lemeshow’s GoF
diperoleh sebesar 0.594 (> 0.05) sehingga dapat dinyatakan bahwa model fit
dengan data. Hosmer and Lemeshow’s GoF juga menghasilkan nilai 6.475 dengan
probabilitas sebesar 0,594 sehingga dapat disimpulkan bahwa model fit dengan
data
Estimasi Parameter dan Interprestasi
Estimasi Maximum Likehood parameter
model dapat dilihat dari output pada tabel Variables in the Equation. Logistic
Regression kemudian dapat dinyatakan :
Ln P/1-P = -11.506 + 5.348 Rokok +
.210 Usia.
Variabel bebas kebiasaan merokok
signifikan dengan probabilitas sebesar 0.004 (< 0.05) dan variabel usia juga
signifikan dengan probabilitas 0.032. dengan memperhatikan persamaan ini maka
dapat diinterprestasikan sbb :
Log of Odds seseorang terkena secara
positif berhubungan dengan rokok. Probabilitas atau Odds seorang terkena
penyakit jantung jika ia perokok adalah sebesar 5.348. artinya seorang perokok
memiliki kemungkinan terkena serangan jantung 5.35 kali lebih besar dibanding
yang tidak merokok.
Jika variabel rokok dianggap konstan,
maka probabilitas seseorang terkena serangan jantung adalah sebesar 0.210 pada
setiap kenaikan satu tahun usia.
Jika Rokok dianggap konstan, maka
seseorang memiliki odds terkena penyakit jantung adalah sebesar 1.233 untuk
setiap penambahan usia. Sementara jika usia bernilai konstan maka odds seorang
terkena penyakit jantung adalah sebesar 210.286 untuk perokok dibandingkan
dengan yang tidak merokok. Hasil overall clasification rate adalah sebesar
90.0% pada cutoff 50%
Kesimpulan
- Pertama. Variabel rokok dan usia memiliki hubungan positif dengan odds penyakit jantung
- Kedua. Jika usia bernilai konstan, maka seorang perokok memiliki odds terkena penyakit jantung sebesar 5.384 kali lebih besar dibanding yang tidak merokok
- Ketiga. Jika rokok bernilai konstan, maka odds seorang terkena penyakit jantung adalah sebesar 0.210 pada setiap penambahan usia.
4. Algoritma Support
Vector Machine :
Support
Vector Machine (SVM) adalah suatu teknik untuk melakukan prediksi, baik dalam
kasus klasifikasi maupun regresi (Santosa, 2007). SVM memiliki prinsip dasar
linier classifier yaitu kasus klasifikasi yang secara linier dapat dipisahkan,
namun SVM telah dikembangkan agar dapat bekerja pada problem non-linier dengan
memasukkan konsep kernel pada ruang kerja berdimensi tinggi. Pada ruang
berdimensi tinggi, akan dicari hyperplane (hyperplane) yang dapat memaksimalkan
jarak (margin) antara kelas data. Menurut Santosa (2007) hyperplane klasifikasi
linier SVM dinotasikan :
dengan, Xi = himpunan data training, i = 1,2,...n dan yi = label kelas
dari Xi
Untuk mendapatkan hyperplane terbaik adalah dengan mencari hyperplane yang
terletak di tengah-tengah antara dua bidang pembatas kelas dan untuk
mendapatkan hyperplane terbaik itu, sama
dengan memaksimalkan margin atau jarak antara dua set objek dari kelas yang
berbeda (Santosa, 2007). Margin dapat dihitung dengan .
Thanks for reading & sharing Blognya ivan
0 comments:
Post a Comment