PENGIMPLEMENTASIAN OCR MENGGUNAKAN CNN UNTUK EKSTRAKSI TEKS PADA GAMBAR
Main Article Content
Abstract
OCR merupakan sebuah sistem yang digunakan untuk mengekstraksi tulisan yang terdapat pada sebuah gambar sehingga dapat mempercepat proses input data. Sistem OCR merupakan sebuah sistem yang terdiri dari 2 proses yaitu pendeteksian teks dan pengenalan teks. Pada perancangan ini, digunakan 2 model CNN untuk melakukan pendeteksian dan pengenalan teks. Digunakan CNN dengan struktur Feature Pyramid Network yang menggunakan Backbone VGG19 untuk mendeteksi lokasi teks pada gambar. Untuk mengenali teks pada gambar akan digunakan CNN dengan LSTM untuk melakukan pengenalan teks pada area gambar yang telah terdeteksi. Kedua CNN dilatih ddengan menggunakan dataset ICDAR 2015, COCO-Text, dan ICDAR 2019. Pada akhir pelatihan, didapatkan model pendeteksian teks dengan besaran F1-Score sebesar 49.18%, dan model pengenalan teks dengan besar Correctly Recognized Word sebesar 55.80%
Article Details
This work is licensed under a Jurnal Komunikasi Creative Commons Attribution-ShareAlike 4.0 International License.
References
Heravi, Einaz J.; and Aghdam, Hamed H. 2017, ”Guide to convolutional neural networks: a practical application to traffic-sign detection and classification”, Springer, Berlin.
Hochreiter, Sepp; and Schmidhuber, Jürgen. “Neural Computation: Long short-term memory”, https://www.researchgate.net/publication/13853244_Long_Short-term_Memory, 30 November 2021
Huber, Peter. ”Robust Estimation of a Location Parameter”. https://www.semanticscholar.org/paper/ Robust-Estimation-of-a-Location-Parameter-Huber/ e6bdbc325de48cbd24a04829f5ce33612513677f, 30 Agustus 2021
Lin, Tsung-Yi; Goyal, Priya; Girshick, Ross; He, Kaiming; and Dollár, Piotr. 2017, ”Feature Pyramid Networks for Object Detection”, 2017 IEEE Conference on Computer Vision and Pattern Recognition
Lin, Tsung-Yi; Goyal, Priya; Girshick, Ross B.; He, Kaiming; and Dollár, Piotr. 2017, ”Focal Loss for Dense Object Detection”, 2017 IEEE International Conference on Computer Vision
Liwicki, Marcus; Graves, Alex; Bunke, Horst; and Schmidhuber, Jürgen. “A novel approach to on-line handwriting recognition based on bidirectional long short-term memory networks”, https://people.idsia.ch/~juergen/ icdar_2007.pdf, 15 December 2021
McCulloch, Warren; and Pitts, Walter. “A Logical Calculus of Ideas Immanent in Nervous Activity”. https://www.cs.cmu.edu/~./epxing/Class/10715/reading/McCulloch.and. Pitts.pdf, 27 Agustus 2021
Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; C. Berg, Alexander; and Fei, Li Fei. “ImageNet Large Scale Visual Recognition Challenge 2014”, https://www.image-net.org/challenges/LSVRC/2014/index.php, 28 Agustus 2021
Schantz, Herbert F. 1982, “The history of OCR, optical character recognition”, Recognition Technologies Users Association, Manchester
Simonyan, Karen; and Zisserman, Andrew. “Very deep convolutional networks for large-scale image recognition”. https://arxiv.org/pdf/1409.1556.pdf, 28 Agustus 2021
Valueva, M.V.; Nagornov, N.N.; Lyakhov, P.A.; Valuev, G.V.; and Chervyakov, N.I. “Application of the residue number system to reduce hardware costs of the convolutional neural network implementation”, https://www.sciencedirect.com/science/article/abs/pii/S0378475420301580, 27 Agustus 2021
Venkatesan, Ragav; and Li, Baoxin. 2017, “Convolutional Neural Networks in Visual Computing: A Concise Guide”, CRC Press, Boca Raton