SISTEM PENGOREKSIAN EJAAN TEKS BAHASA INDONESIA DENGAN DAMERAU LEVENSHTEIN DISTANCE DAN RECURRENT NEURA L NETWORK

Fendy Augusfian, Viny Christanti Mawardi, Janson Hendryli, Dali Santun Naga

Abstract


This research was intended to create Indonesian Text Spelling Correction system with the capability to handle and make correction to both kind of spelling errors, non-word and real-word errors. Existing spelling correction system was analyzed and made some adjustment and modifications to boost its accuracy. The proposed spelling correction system is built with Damerau-Levenshtein Distance that used in existing spelling correction system along with the adjustment and modifications. The result that achieved by the system that uses by existing spelling correction with the word level accuracy of 40.6% and an average processing speed of 18.4 ms per sentence while the result that achieved by the system that uses Damerau-Levenshtein Distance and Recurrent Neural Network with the word level accuracy of 21.3% and an average processing speed of 29.21 ms per sentence. The result of retest text that achieved by the system that uses Damerau-Levenshtein Distance and Recurrent Neural Network with the word level accuracy of 74%.

 

Tujuan dari penelitian ini adalah untuk membuat sistem pengoreksian ejaan teks Bahasa Indonesia, yang memiliki kemampuan untuk menangani dan memperbaiki kesalahan ejaan, baik kesalahan kata tidak sah maupun kesalahan kata sah. Sistem koreksi ejaan yang sudah ada dianalisis kembali dan dilakukan beberapa penyesuaian dan koreksi untuk meningkatkan akurasi. Sistem koreksi ejaan yang diusulkan dibuat dengan metode Damerau-Levenshtein, yang digunakan dengan penyesuaian dan koreksi dalam sistem koreksi ejaan yang sudah ada. Pencapaian yang dicapai oleh sistem koreksi ejaan yang sudah ada menghasilkan akurasi kata sebesar 40,6% dan kecepatan pemrosesan rata-rata 18,4 milidetik per kalimat dibandingkan hasil yang dicapai oleh sistem yang menggunakan Damerau-Levenshtein Distance dan Recurrent Neural Network Akurasi menghasilkan akurasi kata sebesar 21,3% dan kecepatan pemrosesan rata-rata adalah 29,21 milidetik per kalimat. Hasil pengujian ulang teks yang dicapai oleh sistem menggunakan Damerau-Levenshtein Distance dan Recurrent Neural Network menunjukkan akurasi kata sebesar dari 74%.

 


Keywords


damerau-levenshtein distance; deep learning; Indonesian text; n-gram; recurrent neural network

Full Text:

PDF

References


ZonaReferensi, “Pengertian Bahasa Menurut Para Ahli dan Secara Umum”, https://www.zonareferensi.com/ pengertian-bahasa/, 18 Agustus 2018

Pakar Komunikasi, “30 Cara Berkomunikasi dengan baik yang efektif”, https://pakarkomunikasi.com/cara-berkomunikasi-dengan-baik, 19 Agustus 2018.

Pedler, Jennifer. “Computer Correction of Real-word Spelling Errors in Dyslexic Text”, (Birkbeck: London University)

Rudy, “Sistem Pengoreksian Ejaan Untuk Bahasa Indonesia dengan Metode N-Gram dan Edit Distance”, (Jakarta: Fakultas Teknologi Informasi Universitas Tarumanagara, (Skripsi tidak dipublikasikan), 2012.

Fahma, Arina Indana.: Cholissodin, Imam.: Perdana, Rizal Setya. “Identifikasi Kesalahan Penulisan Kata (Typographical Error) pada Dokumen Berbahasa Indonesia Menggunakan Metode N-gram dan Levenshtein Distance”. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer. Vol.2, No 1. Malang: Fakultas Ilmu Komputer, Januari 2018.

Levenshtein, “How Levenshtein Works”, http://www .levenshtein.net/index.html, 28 Agustus 2018

Levenshtein, Vladimir. “Binary codes capable of correcting deletions, insertions, and reversals”, Moskow: Soviet Physics Doklady, 1966.

Damerau, F. “A Technigque for Computer Detection and Correction of Spelling Errors”. (New York: Cornell University, 1964).

Goodfeloow, Ian. “Deep Learning”, (Massachusetts: MIT Press, 2016)

Cho, Kyunghyun. “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation”, Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP), (Oktober 2014)




DOI: http://dx.doi.org/10.24912/computatio.v3i2.6038

Refbacks

  • There are currently no refbacks.


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.


Copyright of COMPUTATIO : JOURNAL OF COMPUTER SCIENCE AND INFORMATION SYSTEMS (P-ISSN : 2549-2810  E-ISSN : 2549-2829)


Indexed by:

      

 

Published by:

Fakultas Teknologi Informasi

Faculty of Information Technology, Universitas Tarumanagara
Gedung R Lantai 11
Jl. Let.Jend. S.Parman No. 1 Jakarta 11440

 

Web Analytics