Online Catalog | library@petra

Pengenalan logat menggunakan k-NN pada rekaman suara

Mendeteksi asal daerah dari pembicara menjadi salah satu hal yang penting untuk dilakukan untuk mengenali seseorang. Hal ini dapat diaplikasikan dalam mendeteksi pembicara dari daerah yang tidak diketahui, memverifikasi daerah yang tidak diketahui dari sebuah tindak kejahatan dan mengenali pembicara.
Dalam skripsi ini, metode yang akan digunakan adalah k-Nearest Neighbor, dikarenakan metode ini tidak memerlukan data sebanyak algoritma deep learning. Dan k-nn tidak rentan terhadap gangguan noise dan outlier jika dibandingkan dengan model lain. Dan untuk mengekstrak feature dari audio, digunakan MFCCs (Mel Frequency cepstral coefficients). MFCCs dipilih karena sudah digunakan secara luas untuk speech recognition.
Pada pengujian yang dilakukan model mendapat akurasi 0.99 untuk logat Madura dan logat Lombok pada data train. Tetapi saat data tes digunakan, F1 Score dari model menurun menjadi 0.44 untuk logat Lombok dan 0.63 untuk logat Madura atau dengan akurasi sebesar 58%. Hal ini terjadi karena kurangnya dataset untuk kedua logat tersebut. Sehingga dilakukan augmentasi data dengan time stretch, hasil yang didapat adalah F1 score untuk logat Lombok meningkat menjadi 0.55 dan untuk logat Madura menurun menjadi 0.64 atau akurasi sebesar 60%. Metode augmentasi ini berhasil meningkatkan akurasi dari prediksi sebesar sebesar 2% dibandingkan dengan tidak menggunakan time stretch. Tetapi, angka ini masih belum bisa menjawab rumusan masalah pada skripsi ini.

Creator(s)