martes, 21 de agosto de 2007

OCR Linux

gscan2pdf escaneador de documentos con OCR, lo he utilizado solo como OCR y no es demasiado bueno. Los textos en castellano con tildes o algunos caracteres extraños no genera bien el texto.

Busco uno que me permita un escaneo de documentos de forma masiva y que lo haga devolviendo un resultado medianamente decente.

manual de instalación

GOCR parece algo mejor que el anterior, aunque sigo encontrando demasiados caracteres extraños que no conoce. GOCR tiene además un modificador desde línea de comandos que nos permite especificar la codificación que queremos que utilice, así podemos decirle con "-f UTF8" que el texto contiene caracteres en UTF-8. Yo lo he probado y no me ha dado resultado, pero creo que puede ser porque la imagen que uso no tiene demasiada calidad.

Sin duda el mejor OCR de todos lo que he estado mirando es OCRAD coge casi el 100% de un texto en una imagen, va mucho mejor si le damos una imagen directamente en escalas grises. Con el comando: djpeg -pnm -gray c-000.jpg | ocrad -F utf8 -o text.txt pasamos una imagen a escalas grises y se lo pasamos a ocrad que se encarga de sacar el texto en UTF8. Muy util si el texto está escrito en castellano con áéíóú o ñ.

Eso sí para que este programa funciona bastante decente necesita una imagen escaneada con al menos 300ppp. Yo he escaneado un A4 y con 300ppp ocupa unos 5 MB en jpg.