Perbandingan Klasifikasi Cuaca Kota Denpasar dengan Regresi Logistik Multinomial dan Analisis Diskriminan
Abstract
Abstract: Weather forecasting plays a vital role in supporting public activities, especially in tourist areas such as Denpasar City, Bali. This study aims to classify weather conditions in 2019 into four main categories: Clouds, Rain, Thunderstorm, and Clear, using Linear Discriminant Analysis (LDA) and Multinomial Logistic Regression (MLR). The dataset, obtained from Kaggle, consists of 264,925 hourly weather observations, covering 34 atmospheric variables such as temperature, humidity, pressure, wind speed, and precipitation. The analysis process included data exploration and cleaning, followed by the application of both methods to build accurate and interpretable classification models. Results show that MLR with PCA achieved the highest accuracy (0.7713), followed by MLR without PCA (0.7664), and LDA (0.6725). MLR outperformed LDA in weather classification, while PCA contributed to model simplification. The most influential variable in LDA was temperature (temp, 3.21), while in both MLR models, it was clouds_all (857.28 without PCA and 252.40 with PCA). These findings highlight the importance of multivariate approaches in developing data-driven weather classification systems.
Abstrak: Prakiraan cuaca berperan penting dalam menunjang aktivitas masyarakat, terutama di wilayah wisata seperti Kota Denpasar, Bali. Penelitian ini bertujuan mengklasifikasikan kondisi cuaca tahun 2019 ke dalam empat kategori utama: Clouds, Rain, Thunderstorm, dan Clear, menggunakan Analisis Diskriminan Linear (LDA) dan Regresi Logistik Multinomial (MLR). Dataset diperoleh dari Kaggle, terdiri dari 264.925 observasi cuaca yang dicatat setiap satu jam, dengan 34 variabel atmosfer seperti suhu, kelembapan, tekanan, kecepatan angin, dan curah hujan. Proses analisis dimulai dari eksplorasi dan pembersihan data, dilanjutkan dengan penerapan kedua metode untuk membangun model klasifikasi yang akurat dan interpretatif. Hasil menunjukkan MLR dengan PCA memberikan akurasi tertinggi (0,7713), disusul MLR tanpa PCA (0,7664), dan LDA (0,6725). MLR lebih unggul dalam klasifikasi cuaca, sedangkan PCA membantu menyederhanakan model. Variabel paling berpengaruh dalam LDA adalah suhu (temp, 3,21), sedangkan dalam MLR tanpa PCA atau dengan PCA adalah clouds_all (857,28 dan 252,40). Temuan ini menegaskan pentingnya pendekatan multivariat dalam pengembangan sistem klasfikasi cuaca berbasis data.