Institusion
Universitas Pendidikan Ganesha
Author
Manuaba, Ida Bagus Nyoman Wijana
Subject
T Technology (General)
Datestamp
2021-07-27 01:20:05
Abstract :
Twitter menjadi salah satu media sosial yang banyak digunakan di
Indonesia. Pengguna twitter dapat dengan bebas memberikan berbagai komentar yang mengandung opini terkait suatu objek atau topik. Selain itu twitter juga menyediakan API yang dapat digunakan para developer untuk memperoleh data dan mengolahnya untuk kepentingan pengembangan atau penelitian. Banyaknya dokumentasi dan kemudahan penggunaan API jika dibandingkan dengan media sosial lainya, menjadi salah satu pertimbangan digunakannya twitter sebagai data penelitian. Analisis sentimen dilakukan terkait provider atau penyedia layanan internet yang ada di Indonesia menggunakan Support Vector Machine (SVM) dan
penambahan algoritma Levenshtein Distance dengan tujuan memperbaiki
kesalahan kata pada tahap text preprocessing untuk mendapatkan hasil klasifikasi dengan kategori positif atau negatif. Proses klasifikasi melalui serangkaian tahapan meliputi, pengumpulan data twitter, penghapusan duplicate data, pemberian label data, tahap text preprocessing (convert emoticon, cleansing, case folding, stemming, stopword removal, and tokenizing, penerapan algoritma Levenshtein Distance, stopword removal lanjutan convert negation), feature extraction (TF-IDF), serta proses klasifikasi menggunakan SVM. Hasil pengujian dengan menggunakan confusion matrix, menunjukan peningkatan hasil klasifikasi yang lebih baik setelah menggunakan algoritma Levenshtein Distance pada tahap text
preprocessing. Nilai accuracy mengalami peningkatan sebesar 2%, recall positif 3%, recall negatif 1%, precision positif 1%, dan precision negatif 2%. Tetapi kecepatan waktu proses pada tahap text preprocessing dengan penambahan algoritma Levenshtein Distance lebih lambat sebesar 295,606 detik, jika dibandingkan tanpa adanya penambahan algoritma Levenshtein Distance. Peningkatan waktu proses karena adanya perbaikan kata dengan membandingan antara kata yang tidak ada dalam kamus (undifined word) dengan kata pada kamus yang digunakan, dan mencari nilai minimum operasi perubahan jarak antara kata yang dibandingkan. Untuk pengembangan penelitian selanjutnya, dapat melakukan pengecekan kembali kata (term) hasil perbaikan algoritma Levenshtein Distance yang menghasilkan lebih dari satu term dengan bobot yang sama pada seluruh term pada komentar, jadi term yang merupakan term dengan frekuensi atau kemunculan yang paling banyak sehingga diharapkan dapat meningkatkan hasil klasifikasi. Selain itu penggunaan kernel trick yang ada pada SVM dapat dibandingkan untuk mengetahui perbedaan hasil klasifikasi.