OCR a La Alucinación de Gylfi... recuperando una joyita

24 noviembre 2014


 En esta entrada les mostrare como intentar, a partir de un libro escaneado en formato PDF obtener como resultado final un documento de texto con el cual poder crear mas tarde un ePub, PDF, odt o cualquier tipo de libro electrónico.

Antes que nada decir que no siempre es posible hacer esto de manera mas o menos automatizada, si la calidad y legibilidad de las imágenes del PDF son demasiado malas, entonces es muy difícil poder hacer un OCR a las mismas.

El OCR es básicamente un proceso de Reconocimiento Óptico de Caracteres, mediante el cual a partir de un escáner, una imagen, incluso un archivo PDF; podemos obtener un texto plano y manipularlo como tal en cualquier editor de texto.

Lo primero que necesitamos para esta tarea es un motor de OCR en nuestro idioma para detectar los caracteres del texto dentro de la imagen y luego algún programa que pueda hacer uso de ese motor de OCR.

En mi experiencia probando distintos motores de reconocimiento los mejores resultados los obtuve sin dudas con Tesseract, que es un motor mantenido por Google, probablemente para uso interno pero disponible para todos .

Como fronted para manejar este motor podemos escoger varios como gscan2pdf o el que les voy a mostrar aquí que me gusta más por algunos detalles, se trata de gImageReader.

En Debian o derivados como Ubuntu debemos añadir un repositorio para instalar gImagenReader, desde un terminal escribimos:

sudo add-apt-repository ppa:sandromani/gimagereader

Luego actualizamos los repositorios:

sudo apt-get update

Y finalmente instalamos de una vez tanto gImagenReader como el motor de OCR Tesseract en nuestro idioma:

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-spa tesseract-ocr-eng

Con gImagenReader podemos abrir directamente el PDF y hacer un reconocimiento a cada imagen contenida en el mismo sin problemas y además cuenta con alguna herramientas interesantes para tratar las imágenes y obtener mejores resultados, pero... como a mi me gusta complicarla voy a extraer cada imagen del PDF y luego editarlas individualmente con Gimp, para entonces si hacer el OCR cargando la imagen previamente editada. En realidad esto lo haré en este caso por que el libro tiene varias paginas subrayadas y el OCR funcionara mejor si antes intento limpiar todo esto.

Para extraer las imágenes del PDF abrimos una terminal en la carpeta donde se encuentra el mismo y ejecutamos lo siguiente:

pdfimages -j nombredelpdf.pdf imagen

Donde la variable -j se escribe para obtener las imágenes en jpg, nombredelpdf.pdf es el nombre del fichero PDF del que queremos extraer las mismas y imagen será el nombre que antepondrá a cada imagen resultante por ejemplo: imagen-001.jpg, imagen-002.jpg, imagen-003.jpg etc. Tal como se puede ver en la siguiente captura.



Ahora ya podemos editar cada imagen con Gimp para luego hacer el OCR con gImagenReader tal como se puede ver en la siguiente captura.



Luego de mucha paciencia y horas de trabajo podemos obtener un texto para manipular a nuestro antojo en LibreOffice por ejemplo.



Les dejo un video con todo este proceso para que quede mas claro y les pueda ayudar si alguna vez deben realizar un trabajo de este tipo, por mi parte espero pronto tener en ePub esta joyita de la mitología nórdica de Onorri Sturlson, traducida por Jorge Luis Borges y maría Kodama... ni mas ni menos que La Alucinación de Gylfi, un libro nunca publicado en formato electrónico y muy difícil de encontrar en papel.

Como siempre recomiendo ver el video desde Youtube en HD y pantalla completa.



Te gustaría seguir este blog?

5 comentarios:

  1. Está muy bien explicado. Gracias.
    También aprovecho para preguntar que versión de Linux utilizas, porque me resulta muy atractiva.

    ResponderEliminar
    Respuestas
    1. En ese momento usaba Xubuntu 14.04 con Plank como dok y numix-circle en los iconos. En estos momentos estoy usando Linux Mint 17.1, que en realidad se ve bastante parecido por como lo tengo.
      Saludos

      Eliminar
  2. Muy buen post!!!
    Yo tb estoy buscando ese libro en epub.
    Compartirias el resultado? :)

    ResponderEliminar
    Respuestas
    1. Y no creo que lo encuentres ja ja, claro si quieres sígueme en twitter me comentas esto por allí para seguirte y por dm intercambiamos correos para enviártelo, en el blog no coloco nada que este fuera de su licencia CC (por las dudas) incluso te envío el odt y el PDF por si consideras que hay que hacerle alguna corrección, que verdaderamente es un trabajito... uf

      Eliminar
  3. Dale Pablo, ante todo gracias por el blog y por el compartirlo :)
    Si la verdad que de buscarlo en ePub ya desisti :) y luego de ver el trabajito que te tomaste para obtenerlo entonces sera porque no existe en serio :)
    Voy a revivir mi casi muerta cuenta de twitter de cuando lo probé y te sigo :) (en una de esas hasta me engancho con el Twitter)

    Y de paso hasta me recordaste que existe Tesseract (se ve que funciona muy bien) para probar alguna cosita en algun rato libre :)

    Saludos y gracias

    ResponderEliminar