Abstract :
Otomatisasi klasifikasi biodiversitas tumbuhan krusial dalam mendukung upaya konservasi dan penelitian ilmiah. Proses identifikasi spesies tumbuhan secara manual memerlukan waktu dan keterampilan khusus, sehingga diperlukan solusi berbasis teknologi untuk meningkatkan efisiensi dan akurasi. Penelitian ini berfokus pada pengaruh variasi learning rate, jumlah neuron pada lapisan Multi-Layer Perceptron dan penggunaan berbagai fungsi aktivasi terhadap akurasi dan F1-Score dari model Vision Transformer (ViT) dalam tugas klasifikasi fine-grained. Selain itu, penelitian ini juga membandingkan performa kedua model tersebut dalam hal akurasi, F1-Score, dan waktu komputasi untuk menentukan konfigurasi yang optimal. Metode penelitian yang digunakan adalah pembelajaran transfer pada model ViT-B/16 dan ViT-L/16 yang telah dipra-latih pada ImageNet-21k, sebagai ekstraksi fitur pada dataset VNPlant-200. Hasil penelitian menunjukkan bahwa kombinasi learning rate sebesar 10-4, 1024 neuron, dan fungsi aktivasi Tanh memberikan performa terbaik pada model ViT-B/16, sedangkan kombinasi learning rate 10-4, 256 neuron, dan fungsi aktivasi Hard Tanh menghasilkan performa optimal pada model ViT-L/16.