DETAIL DOCUMENT
KLASIFIKASI TEKS UJARAN KEBENCIAN BERBAHASA INDONESIA MENGGUNAKAN FUSION OF SEMANTIC ENRICHMENT AND CONVOLUTION NEURAL NETWORK (FuSE-CNN)
Total View This Week0
Institusion
Universitas Diponegoro
Author
MUZAKIR, Ari
Adi, Kusworo
Kusumaningrum, Retno
Subject
Sciences and Mathemathic 
Datestamp
2024-12-24 05:14:31 
Abstract :
Perkembangan teknologi digital telah mempermudah produksi dan penyebaran konten ujaran kebencian dengan biaya rendah, waktu nyata, dan terdistribusi secara anonimitas. Identifikasi kalimat menggunakan pola kalimat dapat menjadi strategi efektif untuk mengenali ujaran kebencian yang tersebar di media sosial ?X? (Twitter) dalam bentuk teks singkat. Akan tetapi, pola kalimat ujaran kebencian umumnya melibatkan Target, Kategori, dan Level yang sulit diidentifikasi karena keterbatasan semantik dan informasi kontekstual yang tidak jelas, serta berdampak pada kinerja klasifikasi dengan data berlabel jamak. Pendekatan konvensional umumnya melakukan ekstraksi fitur semantik secara terpisah, sehingga menyebabkan model sulit menangkap konteks makna yang kompleks dalam teks ujaran kebencian. Pendekatan ini seringkali gagal memperhitungkan konteks yang mendasari ujaran kebencian. Oleh karena itu, pengembangan metode yang mampu mengintegrasikan dan memahami konteks secara luas menjadi krusial dalam mengatasi tantangan ini melalui strategi penggabungan yang berbeda. Penelitian ini bertujuan mengembangkan pendekatan baru untuk meningkatkan kinerja klasifikasi ujaran kebencian pada data label jamak dengan menggunakan fusion of semantic enrichment and convolutional neural network (FuSE-CNN). Pendekatan FuSE menggabungkan beberapa strategi pemrosesan seperti terjemahan balik, disambiguasi teks, ekspansi, dan kemiripan semantik. Strategi ini memungkinkan model dapat mengidentifikasi makna yang lebih halus dari suatu kalimat melalui terjemahan balik, disambiguasi kata dan ekspansi teks untuk memperkaya makna, dan kemiripan semantik untuk mendapatkan konteks yang lebih mendalam. Sementara itu, CNN mengekstraksi fitur-fitur penting dari teks dan melakukan klasifikasi pada data berlabel jamak. Dataset yang digunakan bersumber dari media sosial ?X? yang terdiri dari 13.169 baris dengan 12 label. Tahapan penelitian meliputi prapengolahan, pengayaan semantik berbasis fusi, pembagian data (80/20), dan klasifikasi teks ujaran kebencian berlabel jamak. Kinerja model yang dihasilkan dievaluasi menggunakan confusion matrix dan AUC. Pelatihan model dilakukan dengan hyperparameter tuning yaitu learning rate, batch size, dan epoch untuk mendapatkan model terbaik, serta validasi pelatihan menggunakan k-fold=5. Model dengan kinerja terbaik diperoleh melalui strategi FuSE-CNN dengan parameter learning rate 0.001, batch size 16, dan epoch 30. Hasil analisis model dengan kinerja terbaik pada strategi FuSE-CNN mencapai kinerja tinggi: precision 76%, recall 84%, F1-Score 80%, accuracy 93%, dan AUC 91%. Hasil ini mengungguli dari strategi tanpa FuSE dan metode klasifikasi lain seperti BiGRU dan BiLSTM. Misalnya pada strategi terjemahan balik yang menghasilkan precision 58%, recall 71%, F1-Score 64%, accuracy 86%, dan AUC 84%. Hasil ini melampaui kinerja penelitian sebelumnya yang menggunakan dataset yang sama tanpa strategi FuSE yang dievaluasi dengan metrik akurasi. Analisis pengujian pada aplikasi waktu nyata menunjukkan bahwa strategi FuSE-CNN sering mengalami kesalahan prediksi pada kelas Kategori ujaran kebencian. Model cenderung kesulitan mengenali dan mengklasifikasikan berbagai kategori kebencian yang kompleks dan sering kali tumpang tindih. Kata Kunci: convolutional neural network, fusion of semantic enrichment, klasifikasi ujaran kebencian, media sosial x, teks singkat The development of digital technology has facilitated the production and dissemination of hate speech content at low cost, in real-time, and distributed anonymously. Identifying sentences using sentence patterns can be an effective strategy to recognize hate speech spread on social media "X" (Twitter) in the form of short texts. However, hate speech sentence patterns generally involve Targets, Categories, and Levels that are difficult to identify due to limited semantics and unclear contextual information, impacting the classification performance with multi-labeled data. Conventional approaches typically perform semantic feature extraction separately, making it challenging for models to capture the complex contextual meaning in hate speech texts. This approach often fails to account for the underlying context of hate speech. Therefore, developing methods that can integrate and broadly understand context becomes crucial in addressing this challenge through different fusion strategies. This study aims to develop a new approach to improve the classification performance of hate speech on multi-labeled data using the fusion of semantic enrichment and convolutional neural network (FuSE-CNN). The FuSE approach combines several processing strategies such as back translation, text disambiguation, expansion, and semantic similarity. These strategies enable the model to identify the finer meaning of a sentence through back translation, word disambiguation, and text expansion to enrich meaning, and semantic similarity to gain deeper context. Meanwhile, CNN extracts important featur 
Institution Info

Universitas Diponegoro