Prediksi Gender Username Twitter Indonesia Terkait Otomotif Menggunakan Hierarchical Classification dan BERT

  • Syifa Ghaisani Universitas Islam Negeri Syarif Hidaytullah Jakarta
  • Taufik Edy Sutanto Universitas Islam Negeri Syarif Hidaytullah Jakarta
Keywords: BERT, Gender, Industri Otomotif, Media Sosial, nameXpander, Twitter

Abstract

Preferensi dalam industri otomotif seringkali dipengaruhi oleh faktor gender, dengan pria dan wanita menunjukkan kecenderungan yang berbeda dalam memilih jenis, desain, dan fitur kendaraan. Media sosial seperti Twitter telah menjadi sumber informasi yang berharga bagi perusahaan otomotif untuk memahami preferensi konsumen, mengidentifikasi tren pasar, dan merancang strategi pemasaran yang lebih efektif. Penelitian ini menggunakan data dari media sosial Twitter Indonesia dengan fokus pada kata kunci otomotif untuk melakukan prediksi gender pengguna berdasarkan nama pengguna mereka. Dataset yang digunakan terdiri dari 14.805 data berlabel dan 5.443 data uji. Metode yang diterapkan dalam penelitian ini meliputi Hierarchical Classification Heuristic dan Bidirectional Encoder Representations from Transformers (BERT), serta analisis efektivitas pemotongan suku kata melalui proses rekayasa fitur. Selain itu, penelitian ini juga memperkenalkan nameXpander, sebuah metode rekayasa fitur yang mengembangkan representasi nama pengguna dengan memperluas nama pengguna asli menggunakan ekspansi kata-kata berbahasa Indonesia yang umum digunakan. Hasil penelitian menunjukkan bahwa model kombinasi antara BERT dengan nameXpander mencapai akurasi prediksi tertinggi sebesar 90%. Hal ini menegaskan bahwa analisis data media sosial, khususnya melalui kombinasi metode BERT dengan nameXpander, dapat menjadi alat yang efektif untuk memahami dan merespons preferensi gender dalam pasar otomotif.

Downloads

Download data is not yet available.
Published
2024-10-08
How to Cite
Ghaisani, S., & Sutanto, T. (2024, October 8). Prediksi Gender Username Twitter Indonesia Terkait Otomotif Menggunakan Hierarchical Classification dan BERT. PROSIDING SEMINAR NASIONAL SAINS DATA, 4(1), 681-689. https://doi.org/https://doi.org/10.33005/senada.v4i1.307