Pipeline ETL Terdistribusi untuk Klasifikasi Berita Clickbait dan Topik Berita

  • Gesang Nur Zamroji Program Studi S1 Sains Data, Universitas Negeri Surabaya
  • Rafly Anugrah Syahputra Program Studi S1 Sains Data, Universitas Negeri Surabaya
  • Sofia Zahira Rohman Program Studi S1 Sains Data, Universitas Negeri Surabaya
  • Ibnu Febry Kurniawan Department of Data Science, State University of Surabaya
Keywords: data pipeline, insight analysis, distributed processing, text processing, clickbait analysis

Abstract

Penelitian ini bertujuan untuk merancang dan mengimplementasikan pipeline ETL terdistribusi yang efisien dalam klasifikasi berita clickbait dan topik berita, dengan fokus pada pengelolaan data berita dalam skala besar di era digital. Sistem yang dikembangkan memanfaatkan RabbitMQ sebagai message broker dan Celery sebagai task queue manager untuk pemrosesan paralel dan asynchronous. Proses ETL meliputi ekstraksi data dari file CSV, transformasi data melalui tahap pre-processing, klasifikasi berita clickbait dan non-clickbait , serta klasifikasi topik menggunakan feature engineering TF-IDF dan model Random Forest. Hasil penelitian menunjukkan bahwa sistem ini dapat mengelompokkan berita ke dalam kategori clickbait dan topik dengan efisien, sambil menangani volume data yang besar. Sistem yang dikembangkan juga mampu menyimpan hasil klasifikasi ke dalam database PostgreSQL, memungkinkan analisis dan pemantauan lebih lanjut. Penelitian ini memberikan kontribusi pada pengembangan sistem berbasis ETL yang modular dan terdistribusi, serta memperkenalkan pendekatan yang dapat digunakan untuk analisis data berita digital dalam skala besar.

Downloads

Download data is not yet available.
Published
2025-07-25
How to Cite
Zamroji, G., Syahputra, R., Rohman, S., & Kurniawan, I. (2025, July 25). Pipeline ETL Terdistribusi untuk Klasifikasi Berita Clickbait dan Topik Berita. PROSIDING SEMINAR NASIONAL SAINS DATA, 5(1), 165-174. https://doi.org/https://doi.org/10.33005/senada.v5i1.462