Online Catalog | library@petra

Perangkat lunak text-to-speech dalam bahasa Indonesia dengan metode phoneme synthesis

Suatu perangkat lunak text-to-speech menghasilkan file suara output berisi
percakapan, misalnya dalam bahasa Indonesia, berdasarkan teks yang diinputkan.
Secara garis besar, keseluruhan proses yang dilaksanakan oleh perangkat lunak ini
untuk menghasilkan percakapan yang diinginkan dapat dibagi menjadi 3 subproses:
sub-proses "text normalization" yang melakukan normalisasi terhadap
input teks untuk menghasilkan bentuk yang akan diucapkan serta memilah-milah
teks input menjadi kalimat, kata, dan suku kata; sub-proses "prosody" generation
yang berfungsi untuk menambahkan atribut pengucapan intonasi dan volume
suara kepada setiap suku kata dalam suatu kalimat; dan karena perangkat lunak
ini menggunakan metode phoneme synthesis, maka sub-proses terakhir adalah
"speech generation" yang bertugas merangkai berbagai file suara, yang berupa
suku kata yang telah disimpan di basis data dan direkam sebelumnya, untuk
membuat hasil akhir dari seluruh proses yaitu file suara output yang berisi
percakapan yang diinginkan.
Lebih lanjut, terdapat 4 (empat) perangkat lunak lainnya yang menunjang
perangkat lunak text-to-speech ini, yang memiliki fungsi utama untuk
menyediakan berbagai data penunjang yang diperlukan oleh aplikasi utama untuk
dapat bekerja dengan baik, yaitu daftar fonem, difon, dan trifon serta suku kata
umum yang digunakan atau dikenal dalam bahasa Indonesia, file- file suara suku
kata, daftar kata yang unik yaitu yang tidak dipenggal suku katanya dengan aturan
umum, yang disebut sebagai exceptional dictionary, daftar singkatan dan akronim
yang dikenal di dalam bahasa Indonesia, dan daftar kata yang mengandung
diftong yang dikenal di dalam bahasa Indonesia. Keseluruhan perangkat lunak,
baik utama maupun penunjang, dalam tugas akhir ini dibuat dengan Microsoft
Visual C++ 6.0 berbasiskan sistem operasi Windows 98 second edition.
Tingkat keberhasilan perangkat lunak utama untuk menghasilkan
percakapan yang diharapkan yang sesuai dengan berbagai aturan yang ada di
dalam bahasa Indonesia bergantung kepada kompleksitas sub-proses "text
normalization" dan "prosody generation" serta ketersediaan berbagai data
penunjangnya. Sedangkan kualitas suara yang dihasilkan bergantung kepada
kualitas suara yang telah direkam sebelumnya dan kemampuan perangkat lunak
penunjang untuk melakukan normalisasi terhadap volume dan frekuensi suara
rekaman tersebut.