SOMETIME YOU MUST CHANGE YOUR LIFESTYLE

Home » » TUGAS VCLASS KDM

TUGAS VCLASS KDM

Posted by Blognya ivan on Saturday, 7 April 2018



Nama   : Ifan Efendi
NPM     : 1B117043
Kelas   : 4KA43

Soal VCLASS :
Jelaskan algoritma Classification lainnya , yaitu : decision tree, adaptive naive bayes, logistic regression  dan  support  vector  machine. Bagaimana penerapannya dalam kasus.

1. Algoritma Classification decision tree :
            Secara konsep Decision tree adalah salah satu dari teknik decision analysis.Tries sendiri pertama kali diperkenalkan pada tahun 1960-an oleh Fredkin. Trie atau digital tree berasal dari kata retrival (pengambilan kembali) sesuai dengan fungsinya. Secara etimologi kata ini diucapkan sebagai ‘tree’. Meskipun mirip dengan penggunaan kata ‘try’ tetapi hal ini bertujuan untuk membedakannya dari general tree. Dalam ilmu komputer, trie, atau prefix tree adalah sebuah struktur data dengan representasi ordered tree yang digunakan untuk menyimpan associative array yang berupa string. Berbeda dengan binary search tree (BST) yang tidak ada node di tree yang menyimpan elemen yang berhubungan dengan node sebelumnya dan, posisi setiap elemen di tree sangat menentukan. Semua keturunan dari suatu node mempunyai prefix string yang mengandung elemen dari node itu, dengan root merupakan string kosong. Values biasanya tidak terkandung di setiap node, hanya di daun dan beberapa node di tengah yang cocok dengan elemen tertentu.
            Secara singkat bahwa Decision Tree merupakan salah satu metode klasifikasi pada Text Mining. Klasifikasi adalah proses menemukan kumpulan pola atau fungsi-fungsi yang mendeskripsikan dan memisahkan kelas data satu dengan lainnya, untuk dapat digunakan untuk memprediksi data yang belum memiliki kelas data tertentu (Jianwei Han, 2001).
            Decision Tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah Decision Tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya Decision Tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu.
            Decision Tree menggunakan algoritma ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Quinlan yang merupakan singkatan dari Iterative Dichotomiser 3 atau Induction of Decision “3″ (baca: Tree).
Algoritma ID3 membentuk pohon keputusan dengan metode divide-and-conquer data secara rekursif dari atas ke bawah. Strategi pembentukan Decision Tree dengan algoritma ID3 adalah:
• Pohon dimulai sebagai node tunggal (akar/root) yang merepresentasikan semua data..
• Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
• Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
• Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah Decision Tree. Ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
• Proses pembagian rekursif akan berhenti jika salah satu dari kondisi dibawah ini terpenuhi :
1. Semua data dari anak cabang telah termasuk dalam kelas yang sama.
2. Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas yang terbanyak untuk menjadi label kelas pada node daun.
3. Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
Beberapa contoh pemakaian Decision Tree dalam kasus, yaitu :
• Diagnosa penyakit tertentu, seperti hipertensi, kanker, stroke dan lain-lain
• Pemilihan produk seperti rumah, kendaraan, komputerdanlain-lain
• Pemilihan pegawai teladan sesuai dengan kriteria tertentu
• Deteksi gangguan pada computer atau jaringan computer seperti Deteksi Entrusi, deteksi virus (Trojan dan varians),dan lain-lain

2. Adaptive naive bayes :
            Bayesian Classification didasarkan pada Teorema Bayesian. Konsep dasar teori bayes itu pada dasarnya adalah peluang bersyarat P(HX). Dimana dalam Bayesian H adalah posterior dan X adalah prior. Prior adalah pengetahuan kita tentang karakteristik suatu parameter (bisa dibaca sebagai pengalaman di masa lalu atas suatu parameter atau juga bisa berdasarkan teori), sedangkan posterior adalah karakteristik yang akan kita duga pada kejadian yang akan datang.
            Teorema Bayesian berguna untuk melakukan kalkulasi probabilitas posterior, P(H|X), dari P(H), P(X) dan P(X|H). Teori Bayes adalah sebagai berikut : P(H|X) =P(X|H)P(H) P(X)
Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.


3. Logistic regression :
            Regresi logistik merupakan alternative uji jika asumsi multivariate normal distribution pada variabel bebasnya tidak bisa terpenuhi ketika akan dilakukan analisis diskriminan. Tidak terpenuhinya asumsi ini dikarenakan variabel bebas merupakan campuran antara variabel kontinyu (metric) dan kategorial (non metric). Misalnya, probabilitas bahwa orang yang menderita serangan jantung pada waktu tertentu dapat diprediksi dari informasi usia, kebiasaan merokok, jenis kelamin, dan lainnya.
CONTOH KASUS Logistic Regression
            Seorang dokter ingin mengetahui probabilitas seorang pasien terkena penyakit jantung berdasarkan rutinitas kebiasaan merokok dan usia Data dikumpulkan dari catatan medis sebanyak 30 orang pasien yang melakukan pemeriksaan kesehatan di RS ABC
Menilai Model Fit
Untuk menilai model fit dapat diperhatikan nilai statistik -2LogL yaitu tanpa mengikutsertakan variabel hanya berupa konstanta yaitu sebesar 41.589. Ketika dimasukkan 2 variabel baru maka prediksi nilai -2LogL sebesar 16.750. Artinya terdapat penurunan sebesar 41.589 – 16.750 = 24.839.
Untuk -2LogL pertama diperoleh nilai 41.589 dengan df1 = 30-1 = 29. Nilai ini signifikan pada alpha 5% yang berarti Ho ditolak, artinya model tidak fit.
nilai -2LogL kedua adalah sebesar 16.750 dengan df2 = 30-3 = 27 adalah tidak signifikan pada alpha 5%. (Nilai statistik -2LogL di atas dibandingkan dengan nilai statistik distribusi x^2.), artinya model fit dengan data.
Statistik -LogL dapat digunakan untuk menentukan apakah jika variabel bebas dimasukkan dalam model dapat secara signifikan mempengaruhi model. dengan selisih 24.839 dan df(df1-df2=29-27=2) maka menunjukkan angka ini signifikan pada alpha 5%. Hal ini berarti Ho ditolak dan Model fit dengan data.
Cox n Snell’s R Square adalah ukuran pengaruh bersama yaitu sebesar 0.563 dan nilai Nagelkerke R Square adalah sebesar 0.751. dengan demikian dapat disimpulkan bahwa kemampuan variabel bebas menjelaskan model adalah sebesar 75.10%.
Selanjutnya, Hosmer and Lemeshow’s GoF dilakukan untuk menguji hipotesis. Jika sig < 0.05 maka Ho ditolak yang berarti ada perbedaan signifikan antara model dengan nilai observasinya. Jika sig > 0.05 maka Ho diterima, artinya tidak ada perbedaan antara model dan nilai observasinya.
statistik Hosmer and Lemeshow’s GoF diperoleh sebesar 0.594 (> 0.05) sehingga dapat dinyatakan bahwa model fit dengan data. Hosmer and Lemeshow’s GoF juga menghasilkan nilai 6.475 dengan probabilitas sebesar 0,594 sehingga dapat disimpulkan bahwa model fit dengan data
Estimasi Parameter dan Interprestasi
Estimasi Maximum Likehood parameter model dapat dilihat dari output pada tabel Variables in the Equation. Logistic Regression kemudian dapat dinyatakan :
Ln P/1-P = -11.506 + 5.348 Rokok + .210 Usia.
Variabel bebas kebiasaan merokok signifikan dengan probabilitas sebesar 0.004 (< 0.05) dan variabel usia juga signifikan dengan probabilitas 0.032. dengan memperhatikan persamaan ini maka dapat diinterprestasikan sbb :
Log of Odds seseorang terkena secara positif berhubungan dengan rokok. Probabilitas atau Odds seorang terkena penyakit jantung jika ia perokok adalah sebesar 5.348. artinya seorang perokok memiliki kemungkinan terkena serangan jantung 5.35 kali lebih besar dibanding yang tidak merokok.
Jika variabel rokok dianggap konstan, maka probabilitas seseorang terkena serangan jantung adalah sebesar 0.210 pada setiap kenaikan satu tahun usia.
Jika Rokok dianggap konstan, maka seseorang memiliki odds terkena penyakit jantung adalah sebesar 1.233 untuk setiap penambahan usia. Sementara jika usia bernilai konstan maka odds seorang terkena penyakit jantung adalah sebesar 210.286 untuk perokok dibandingkan dengan yang tidak merokok. Hasil overall clasification rate adalah sebesar 90.0% pada cutoff 50%

Kesimpulan
  • Pertama. Variabel rokok dan usia memiliki hubungan positif dengan odds penyakit jantung
  • Kedua. Jika usia bernilai konstan, maka seorang perokok memiliki odds terkena penyakit jantung sebesar 5.384 kali lebih besar dibanding yang tidak merokok
  • Ketiga. Jika rokok bernilai konstan, maka odds seorang terkena penyakit jantung adalah sebesar 0.210 pada setiap penambahan usia.

4. Algoritma Support Vector Machine :
            Support Vector Machine (SVM) adalah suatu teknik untuk melakukan prediksi, baik dalam kasus klasifikasi maupun regresi (Santosa, 2007). SVM memiliki prinsip dasar linier classifier yaitu kasus klasifikasi yang secara linier dapat dipisahkan, namun SVM telah dikembangkan agar dapat bekerja pada problem non-linier dengan memasukkan konsep kernel pada ruang kerja berdimensi tinggi. Pada ruang berdimensi tinggi, akan dicari hyperplane (hyperplane) yang dapat memaksimalkan jarak (margin) antara kelas data. Menurut Santosa (2007) hyperplane klasifikasi linier SVM dinotasikan :
           
dengan, Xi = himpunan data training, i = 1,2,...n dan yi = label kelas dari  Xi Untuk mendapatkan hyperplane terbaik adalah dengan mencari hyperplane yang terletak di tengah-tengah antara dua bidang pembatas kelas dan untuk mendapatkan hyperplane terbaik itu,  sama dengan memaksimalkan margin atau jarak antara dua set objek dari kelas yang berbeda (Santosa, 2007). Margin dapat dihitung dengan  .  

Thanks for reading & sharing Blognya ivan

Previous
« Prev Post

0 comments:

Post a Comment

Recent

Bottom Ad [Post Page]

Name*


Message*

Welcome To 'Blognya Ivan'

Pages