OCR tools di Linux

Buat saya, Linux itu seksi menarik sekaligus misterius. Ada saja hal yang ingin saya ketahui tentang bagaimana membuat sesuatu atau menyelesaikan suatu pekerjaan di Linux. Misalnya soal OCR tools.

OCR is a technology that recognizes text within a digital image. It is commonly used to recognize text in scanned documents, but it serves many other purposes as well. sumber

Singkat cerita, OCR tools adalah program atau software yang bisa membaca dan mengambil teks dari file gambar, baik hasil scan dari dokumen cetak maupun hasil olahan program lain. Linux, khususnya Ubuntu, punya banyak program OCR. Salah satunya adalah tesseract-ocr.

tesseract is a commercial quality OCR engine originally developed at HP between 1985 and 1995. In 1995, this engine was among the top 3 evaluated by UNLV. It was open-sourced by HP and UNLV in 2005, and has been developed at Google since then. tesseract manual


sudo apt-get install tesseract-ocr



tesseract imagename|stdin outputbase|stdout [options...] [configfile...]
tesseract INPUT OUTPUT


tesseract gambar.png teks

gambar.png adalah file gambar hasil scan format .png. Sedangkan teks adalah nama file teks yang akan berisi teks dari file .png tadi. Nama file memang tak perlu diberi imbuhan .txt, sebab nanti otomatis akan berubah menjadi teks.txt.

Tak hanya file teks, tesseract juga bisa menyimpan file dalam format .pdf.


tesseract gambar.png teks pdf

Tapi menurut saya lebih enak diubah dalam format teks, sebab mudah untuk diolah lebih lanjut.

Lamanya proses konversi teks tergantung resolusi dan kualitas file gambar. Semakin bagus dan jelas, semakin cepat prosesnya. Demikian sebaliknya.

PDF to text

tesseract tak bisa mengubah file PDF menjadi teks secara langsung. File PDF mesti diubah dulu menjadi file gambar menggunakan convert (baca di sini), baru kemudian diubah menjadi file teks (PDF → gambar → teks).

convert -density 300 dokumen.pdf dokumen.png
tesseract dokumen.png dokumen

Cara lain yang lebih cepat dan praktis adalah pdftotext (baca di sini).

pdftotext dokumen.pdf

Selamat mencoba, semoga bermanfaat.

