Case Folding
Tidak semua dokumen teks konsisten dalam
penggunaan huruf kapital. Oleh karena itu, peran Case Folding dibutuhkan
dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar
(biasanya huruf kecil atau lowercase). Sebagai contoh, user yang ingin
mendapatkan informasi “KOMPUTER” dan mengetik “KOMPOTER”, “KomPUter”, atau “komputer”, tetap diberikan hasil retrieval yang sama yakni “komputer”. Case folding adalah mengubah semua huruf dalam
dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima.
Karakter selain huruf dihilangkan dan dianggap delimiter.
Tokenizing
Tokenisasi secara garis besar memecah
sekumpulan karakter dalam suatu teks ke dalam satuan kata, bagaimana membedakan
karakter-karakter tertentu yang dapat diperlakukan sebagai pemisah kata atau
bukan. Sebagai contoh karakter whitespace, seperti enter, tabulasi, spasi
dianggap sebagai pemisah kata. Namun untuk karakter petik tunggal (‘),
titik (.),
semikolon (;),
titk dua (:) atau
lainnya, dapat memiliki peran yang cukup banyak sebagai pemisah kata. Dalam
memperlakukan karakter-karakter dalam teks sangat tergantung pada kontek
aplikasi yang dikembangkan. Pekerjaan tokenisasi ini akan semakin sulit jika
juga harus memperhatikan struktur bahasa (grammatikal).
Filtering
Tahap Filtering adalah
tahap mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma
stoplist (membuang kata kurang penting) atau wordlist
(menyimpan kata penting). Stoplist/stopword adalah kata-kata
yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh
stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya.
Stemming
Teknik Stemming diperlukan
selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga
untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti
yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan
imbuhan yang berbeda. Sebagai contoh kata bersama, kebersamaan, menyamai, akan
distem ke root word-nya yaitu “sama”. Namun,
seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung
pada domain bahasa yang digunakan. Proses stemming pada teks berbahasa
Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks
berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks.
Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan
prefiks juga dihilangkan.
Contoh Sistem yang ingin dibuat :
“Analisis Sentimen Hatespeech pada Twitter”
Contoh kalimat : “Hari ini sangat
menyenangkan !!”
Tokenisasi dilakukan untuk memecah tweet
menjadi beberapa kata atau kumpulan kata yang berdiri sendiri.
Cleansing
yaitu proses menghapus
simbol-simbol yang kurang penting
dalam data tweet yang bisa mengganggu proses
klasifikasi nantinya.
Filtering
dilakukan untuk menghapus
kata-kata yang kurang
penting atau kurang
berpengaruh terhadap proses
klasifikasi nantinya.