Jumat, 29 September 2017

Pre Processing Text Mining

Case Folding
Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Oleh karena itu, peran Case Folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (biasanya huruf kecil atau lowercase). Sebagai contoh, user yang ingin mendapatkan informasi “KOMPUTER” dan mengetik “KOMPOTER”, “KomPUter”, atau “komputer”, tetap diberikan hasil retrieval yang sama yakni “komputer”. Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.


Tokenizing

Tokenisasi secara garis besar memecah sekumpulan karakter dalam suatu teks ke dalam satuan kata, bagaimana membedakan karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau bukan. Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi dianggap sebagai pemisah kata. Namun untuk karakter petik tunggal (‘), titik (.), semikolon (;), titk dua (:) atau lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata. Dalam memperlakukan karakter-karakter dalam teks sangat tergantung pada kontek aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika juga harus memperhatikan struktur bahasa (grammatikal).

Filtering

Tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”“dan”“di”“dari” dan seterusnya.

Stemming

Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda. Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root word-nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan. Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.



Contoh Sistem yang ingin dibuat :
“Analisis Sentimen Hatespeech pada Twitter”
Contoh kalimat : “Hari ini sangat menyenangkan !!”
Tokenisasi dilakukan untuk memecah tweet menjadi beberapa kata atau kumpulan kata yang berdiri sendiri.
Cleansing yaitu proses menghapus simbol-simbol yang kurang penting

dalam data tweet yang bisa mengganggu proses klasifikasi nantinya.
Filtering dilakukan untuk menghapus  kata-kata  yang  kurang  penting  atau  kurang  berpengaruh  terhadap  proses  klasifikasi nantinya.


Selasa, 26 September 2017

Membuat dan Menyimpan hasil kalsifikasi di software WEKA

1.       Kemudian pilih data folder, download cmc.data setelah itu copy data di notepad lalu save as menjadi .csv yang akan berubah menjadi excel


1.       Setelah itu buka aplikasi weka, pilih button explorer kemudian setelah terbuka pilih button open file untuk memilih file mana yang akan di gunakan dan jangan lupa file of type nya dirubah menjadi .csv



1.       Setelah memilih file maka akan tampil seperti berikut, kemudian pilih button classify->choose->bayes->NaiveBayes->start.




1.       Lalu hasil akan tampil sebagai berikut