Analisis Perbandingan FastText dan Word2Vec pada Sistem Temu Balik Informasi

  • Rosni Lumbantoruan Sistem Informasi, Institut Teknologi Del
  • Maria Puspita Sari Nababan Sistem Informasi, Institut Teknologi Del
  • Letare Aiglien Saragih Sistem Informasi, Institut Teknologi Del
Keywords: word embedding, word2vec, fasttext, makna semantik, sistem temu balik informasi

Abstract

Sistem temu balik informasi dengan menggunakan pendekatan pembelajaran mesin pada umumnya memanfaatkan word embedding dalam merepresentasikan dokumen dan kueri pengguna. Pemilihan word embedding menjadi salah satu faktor kunci yang mempengaruhi kinerja sistem temu balik informasi, khususnya untuk mengolah teks atau kalimat dengan karakteristik data yang tidak terstruktur. Pada penelitian ini, word embedding yang paling sering digunakan yaitu FastText dan Word2Vec dibandingkan dalam hal menangkap dan mengembalikan makna semantik kata. Pada penelitian ini, eksperimen untuk membandingkan kedua pendekatan dilakukan dengan menerapkan masing-masing pendekatan pada dua dataset yang berbeda yaitu Internet News dan Movie Plots. Hasil eksperimen menunjukkan bahwa kedua pendekatan memiliki karakteristik masinng-masing, Dimana FastText dengan bantuan representasi kata dengan n-gram mampu menangkap kata yang memiliki kesamaan dari sisi susunan karakter sedangkan Word2Vec mencari kemiripan dengan kata lain berdasarkan keseringan kata tersebut muncul secara bersamaan dengan kata lain pada dokumen.

Downloads

Download data is not yet available.
Published
2024-10-10
How to Cite
Lumbantoruan, R., Nababan, M., & Saragih, L. (2024, October 10). Analisis Perbandingan FastText dan Word2Vec pada Sistem Temu Balik Informasi. PROSIDING SEMINAR NASIONAL SAINS DATA, 4(1), 1033-1041. https://doi.org/https://doi.org/10.33005/senada.v4i1.416