Implementasi Ekosistem Hadoop untuk Analisis Segmentasi Pelanggan E-commerce di Pulau Sumatera
Abstract
tudi ini mengembangkan solusi big data berbasis ekosistem Hadoop untuk analisis segmentasi pelanggan e-commerce di wilayah Sumatera. Pendekatan arsitektur medallion tiga lapis (bronze, silver, gold) diimplementasikan dengan memanfaatkan teknologi Sqoop untuk integrasi data, Spark SQL untuk transformasi, dan MLlib untuk pemodelan prediktif. Pada lapisan bronze, data mentah disimpan dalam format Parquet di HDFS, kemudian diproses di lapisan silver melalui tahap pembersihan data dan ekstraksi fitur RFM (Recency, Frequency, Monetary Value). Pada lapisan gold, algoritma K-Means dioptimalkan menggunakan kombinasi Metode Elbow dan Silhouette Score untuk menentukan jumlah cluster optimal, menghasilkan empat segmen pelanggan yang berbeda. Visualisasi hasil segmentasi dikembangkan menggunakan Apache Superset, menyediakan dashboard interaktif untuk analisis bisnis. Seluruh alur kerja diotomatisasi melalui Apache Oozie, dengan dukungan Apache Atlas untuk manajemen metadata dan integrasi Apache Ambari serta ZooKeeper untuk pemantauan kluster secara real-time. Temuan penelitian membuktikan kemampuan sistem dalam mengatasi tantangan pengolahan data e-commerce skala besar di Sumatera, sekaligus menyediakan landasan yang kuat untuk pengembangan strategi pemasaran berbasis data yang lebih efektif dan terukur.