Analisis Perbandingan FastText dan Word2Vec pada Sistem Temu Balik Informasi
Abstract
Sistem temu balik informasi dengan menggunakan pendekatan pembelajaran mesin pada umumnya memanfaatkan word embedding dalam merepresentasikan dokumen dan kueri pengguna. Pemilihan word embedding menjadi salah satu faktor kunci yang mempengaruhi kinerja sistem temu balik informasi, khususnya untuk mengolah teks atau kalimat dengan karakteristik data yang tidak terstruktur. Pada penelitian ini, word embedding yang paling sering digunakan yaitu FastText dan Word2Vec dibandingkan dalam hal menangkap dan mengembalikan makna semantik kata. Pada penelitian ini, eksperimen untuk membandingkan kedua pendekatan dilakukan dengan menerapkan masing-masing pendekatan pada dua dataset yang berbeda yaitu Internet News dan Movie Plots. Hasil eksperimen menunjukkan bahwa kedua pendekatan memiliki karakteristik masinng-masing, Dimana FastText dengan bantuan representasi kata dengan n-gram mampu menangkap kata yang memiliki kesamaan dari sisi susunan karakter sedangkan Word2Vec mencari kemiripan dengan kata lain berdasarkan keseringan kata tersebut muncul secara bersamaan dengan kata lain pada dokumen.