Pipeline ETL Terdistribusi untuk Klasifikasi Berita Clickbait dan Topik Berita
Abstract
Penelitian ini bertujuan untuk merancang dan mengimplementasikan pipeline ETL terdistribusi yang efisien dalam klasifikasi berita clickbait dan topik berita, dengan fokus pada pengelolaan data berita dalam skala besar di era digital. Sistem yang dikembangkan memanfaatkan RabbitMQ sebagai message broker dan Celery sebagai task queue manager untuk pemrosesan paralel dan asynchronous. Proses ETL meliputi ekstraksi data dari file CSV, transformasi data melalui tahap pre-processing, klasifikasi berita clickbait dan non-clickbait , serta klasifikasi topik menggunakan feature engineering TF-IDF dan model Random Forest. Hasil penelitian menunjukkan bahwa sistem ini dapat mengelompokkan berita ke dalam kategori clickbait dan topik dengan efisien, sambil menangani volume data yang besar. Sistem yang dikembangkan juga mampu menyimpan hasil klasifikasi ke dalam database PostgreSQL, memungkinkan analisis dan pemantauan lebih lanjut. Penelitian ini memberikan kontribusi pada pengembangan sistem berbasis ETL yang modular dan terdistribusi, serta memperkenalkan pendekatan yang dapat digunakan untuk analisis data berita digital dalam skala besar.