Abstract :
Pada era teknologi informasi dan komunikasi seperti saat ini, proses penyebaran informasi menjadi lebih masif dan cepat. Hal ini menyebabkan proses media monitoring yang dilakukan praktisi Public Relations (PR) untuk mengembangkan dan mempertahankan reputasi kawasan Geopark Ciletuh menjadi kurang efektif dan efisien apabila dalam melakukan identifikasi dan analisis berita masih dilakukan secara manual. Penelitian ini mengusulkan sistem klasifikasi berita dengan menggunakan algoritma machine learning untuk membuat proses analisis berita yang dilakukan lebih efektif dan efisien dengan menggunakan dua algoritma Machine Learning yaitu Random Forest dan Multinomial Naive Bayes serta Information Gain sebagai metode pemilihan fitur dengan nilai threshold 0.05 dan 0.01 untuk melakukan klasifikasi berita hard news atau soft news. Dalam sistem media monitoring, proses ini masuk kedalam proses Analysis Backend. Dataset dibentuk berdasarkan dua model yang berbeda yaitu single dimensional dan multidimensional. Hasil penelitian untuk model dataset single dimensional dengan algoritma Random Forest memperoleh rata-rata tertinggi untuk nilai akurasi sebesar 81.42% menggunakan pemilihan fitur Information Gain dengan threshold 0.01, sedangkan algoritma Multinomial Naive Bayes memperoleh rata-rata tertinggi untuk nilai akurasi sebesar 74.18% menggunakan Information Gain dengan threshold 0.01 dan tanpa pemilihan fitur. Untuk model dataset multidimensional algoritma Random Forest memperoleh rata-rata tertinggi untuk nilai akurasi sebesar 93.8%, sedangkan algoritma Multinomial Naive Bayes sebesar 72.72%. Hasil penelitian menunjukkan bahwa penggunaan Information Gain untuk pemilihan fitur menunjukkan performa yang tidak optimal khususnya pada saat diterapkan di dalam algoritma Multinomial Naive Bayes. Hal ini dikarenakan algoritma tersebut memperlakukan seluruh fitur sebagai fitur independen. Selain itu, penggunaan metode laplacian smoothing tidak optimal di dalam melakukan seleksi fitur.