Analisis Sentimen Sederhana Menggunakan Algoritma LSTM dan BERT untuk Klasifikasi Data Spam dan Non-Spam
Abstract
Analisis sentimen menjadi dasar untuk melakukan analisis dan klasifikasi data berdasarkan kata, frasa, atau dokumen. Penelitian terkait analisis sentimen telah banyak dilakukan oleh peneliti sebelumnya dengan menggunakan berbagai algoritma dan jenis model. Berdasarkan penelitian sebelumnya hasil analisis sentimen dipengaruhi performansi model dan jenis data. Saat ini peneliti menggunakan model LSTM dan BERT untuk menyelesaikan klasifikasi pada data sms yang terdiri dari spam dan non-spam. Untuk mengoptimalkan hasil pada akurasi nilai, peneliti menggunakan algoritma TD-IDF dan GloVe untuk menentukan pembobotan nilai yang direpresentasikan dalam vektor pada setiap kata. Adapun hasil yang sudah kami peroleh, metode BERT dan LSTM memiliki tingkat keakurasian nilai secara terurut sebesar 99,35% dan 98,22%. Hal tersebut menunjukkan bahwa dalam penyelesaian klasifikasi dataset spam dan non-spam sangat efektif dan efisien. Pengujian juga dilakukan dengan menggunakan data disaster twitter, tetapi tingkat keakurasian nilai mengalami penurunan. Oleh karena itu, dapat disimpulkan bahwa perbedaan jenis dataset sangat mempengaruhi performansi model uji coba.