PENGIMPLEMENTASIAN OCR MENGGUNAKAN CNN UNTUK EKSTRAKSI TEKS PADA GAMBAR

Main Article Content

Ivan Wijaya
Chairisni Lubis

Abstract

OCR merupakan sebuah sistem yang digunakan untuk mengekstraksi tulisan yang terdapat pada sebuah gambar sehingga dapat mempercepat proses input data. Sistem OCR merupakan sebuah sistem yang terdiri dari 2 proses yaitu pendeteksian teks dan pengenalan teks. Pada perancangan ini, digunakan 2 model CNN untuk melakukan pendeteksian dan pengenalan teks. Digunakan CNN dengan struktur Feature Pyramid Network yang menggunakan Backbone VGG19 untuk mendeteksi lokasi teks pada gambar. Untuk mengenali teks pada gambar akan digunakan CNN dengan LSTM untuk melakukan pengenalan teks pada area gambar yang telah terdeteksi. Kedua CNN dilatih ddengan menggunakan dataset ICDAR 2015, COCO-Text, dan ICDAR 2019. Pada akhir pelatihan, didapatkan model pendeteksian teks dengan besaran F1-Score sebesar 49.18%, dan model pengenalan teks dengan besar Correctly Recognized Word sebesar 55.80%

Article Details

Section
Articles

References

Heravi, Einaz J.; and Aghdam, Hamed H. 2017, ”Guide to convolutional neural networks: a practical application to traffic-sign detection and classification”, Springer, Berlin.

Hochreiter, Sepp; and Schmidhuber, Jürgen. “Neural Computation: Long short-term memory”, https://www.researchgate.net/publication/13853244_Long_Short-term_Memory, 30 November 2021

Huber, Peter. ”Robust Estimation of a Location Parameter”. https://www.semanticscholar.org/paper/ Robust-Estimation-of-a-Location-Parameter-Huber/ e6bdbc325de48cbd24a04829f5ce33612513677f, 30 Agustus 2021

Lin, Tsung-Yi; Goyal, Priya; Girshick, Ross; He, Kaiming; and Dollár, Piotr. 2017, ”Feature Pyramid Networks for Object Detection”, 2017 IEEE Conference on Computer Vision and Pattern Recognition

Lin, Tsung-Yi; Goyal, Priya; Girshick, Ross B.; He, Kaiming; and Dollár, Piotr. 2017, ”Focal Loss for Dense Object Detection”, 2017 IEEE International Conference on Computer Vision

Liwicki, Marcus; Graves, Alex; Bunke, Horst; and Schmidhuber, Jürgen. “A novel approach to on-line handwriting recognition based on bidirectional long short-term memory networks”, https://people.idsia.ch/~juergen/ icdar_2007.pdf, 15 December 2021

McCulloch, Warren; and Pitts, Walter. “A Logical Calculus of Ideas Immanent in Nervous Activity”. https://www.cs.cmu.edu/~./epxing/Class/10715/reading/McCulloch.and. Pitts.pdf, 27 Agustus 2021

Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; C. Berg, Alexander; and Fei, Li Fei. “ImageNet Large Scale Visual Recognition Challenge 2014”, https://www.image-net.org/challenges/LSVRC/2014/index.php, 28 Agustus 2021

Schantz, Herbert F. 1982, “The history of OCR, optical character recognition”, Recognition Technologies Users Association, Manchester

Simonyan, Karen; and Zisserman, Andrew. “Very deep convolutional networks for large-scale image recognition”. https://arxiv.org/pdf/1409.1556.pdf, 28 Agustus 2021

Valueva, M.V.; Nagornov, N.N.; Lyakhov, P.A.; Valuev, G.V.; and Chervyakov, N.I. “Application of the residue number system to reduce hardware costs of the convolutional neural network implementation”, https://www.sciencedirect.com/science/article/abs/pii/S0378475420301580, 27 Agustus 2021

Venkatesan, Ragav; and Li, Baoxin. 2017, “Convolutional Neural Networks in Visual Computing: A Concise Guide”, CRC Press, Boca Raton