https://bit.ly/Jawi_transliterasi
Abstrak.
Transliterasi mesin adalah proses menukar skrip daripada teks sumber kepada teks sasaran secara automatik. Ia banyak digunakan Dalam Capaian Maklumat Merentas Bahasa (CLIR), Terjemahan Mesin dan Pengekstrakan Maklumat. Isu utama dalam kajian transliterasi mesin adalah bagaimana untuk mendapatkan hasil transliterasi yang mempunyai ketepatan yang tinggi bagi perkataan yang tiada dalam kamus atau perbendaharaan kata (OOV). Model yang digunakan di dalam kajian ini adalah pendekatan berasaskan petua (rule based approach). Hasil eksprimen mendapati bahawa ketepatannya mencapai sehingga 75.39% berdasarkan ujian terhadap set data Jawi lama pada Majalah Qalam (1950) dan Kitab Hidayah Al-Salikin (1935). Berdasarkan hasil ujikaji, pendekatan berasaskan petua tidak mampu menyelesaikan sepenuhnya masalah yang terdapat di dalam transliterasi Jawi lama kepada Rumi. Ini kerana terdapat sebahagian ejaan Jawi lama mempunyai homograf (ejaannya sama tetapi sebutannya berbeza) yang mana memerlukan pendekatan yang berlainan. Oleh yang demikian, kajian ini mencadangkan agar dilanjutkan pada masa akan datang dalam menangani perkataan yang homograf atau kabur (ambiguity) agar ralat yang berlaku dapat dikurangkan.
MACHINE TRANSLITERATION OF MALAY LANGUAGE: OLD JAWI - ROMAN (RUMI) BASED ON RULES
Abstract.
Machine transliteration is the process of automatically converting a script from a source text to a target text. It is widely used in Cross-Language Information Access (CLIR), Machine Translation and Information Extraction. The main issue in the study of machine transliteration is how to obtain transliteration results that have high accuracy for words that are not in the dictionary or out-of-vocabulary (OOV). The model used in this study is a rule based approach. The results of the experiment found that the accuracy reached up to 75.39% based on tests on old Jawi data sets in Qalam Magazine (1950) and Hidayah Al-Salikin Book (1935). Based on the results of the experiment, the rule based approach is not able to fully solve the problems found in the transliteration of old Jawi to Rumi. This is because some old Jawi spellings have homographs (the spelling is the same but the pronunciation is different) which requires a different approach. Therefore, this study suggests that it be continued in the future in dealing with words that are homographs or ambiguous (ambiguity) so that the errors that occur can be reduced.