Penerapan Streaming K-Means Clustering Menggunakan Sparklyr untuk Penentuan Nilai K Terbaik pada Data US Covid Surat Kabar NY Times
Abstract
Abstract: Big data processing is a major focus in modern data analysis, especially in the context of the COVID-19 pandemic. Researchers propose an approach to determine the best K value in the Streaming K-Means Clustering algorithm using Sparklyr in the Apache Spark environment. Researchers apply this approach to COVID-19 data from the NY Times Newspaper, with the development of the Silhouette Coefficient evaluation method. Experimental results show that this approach is able to provide reliable and analytically relevant clustering results. This makes an important contribution to the understanding of the dynamics of the COVID-19 pandemic, strengthening the potential of real-time data analysis from news sources such as the NY Times Newspaper in providing valuable insights for stakeholders.
Keywords: Apache Spark, COVID-19, Sparklyr, Streaming K-Means Clustering Algorithm
Abstrak: Pemrosesan data besar menjadi fokus utama dalam analisis data modern, terutama dalam konteks pandemi COVID-19. Peneliti mengusulkan pendekatan untuk menentukan nilai K terbaik dalam algoritma Streaming K-Means Clustering dengan menggunakan Sparklyr di lingkungan Apache Spark. Peneliti menerapkan pendekatan ini pada data COVID-19 dari Surat Kabar NY Times, dengan pengembangan metode evaluasi Silhouette Coefficient. Hasil eksperimen menunjukkan bahwa pendekatan ini mampu memberikan hasil klasterisasi yang andal dan relevan secara analitis. Hal ini memberikan kontribusi penting untuk pemahaman dinamika pandemi COVID-19, memperkuat potensi analisis data real-time dari sumber-sumber berita seperti Surat Kabar NY Times dalam memberikan wawasan berharga bagi pemangku kepentingan.
Kata kunci: Algoritma Streaming K-Means Clustering, Apache Spark, COVID-19, Sparklyr