OCR de código abierto

El único programa de reconocimiento de texto (OCR) del que tenemos noticia se llama tesseract-ocr.

Para la instalación del mismo tienen que descargar de la siguiente liga el file con nombre “tesseract-ocr-setup-3.02.02.exe”
http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.02.02.exe&can=2&q=

Este file es para la instalación del motor OCR, el cual nos servirá para la detección de texto desde un archivo .pdf, imagen, fotografía o directamente desde un scanner.

Al ejecutar dicho archivo nos aparecerá la pantalla siguiente:

Setupinicial1.png

Vamos a dar click en next hasta que nos aparezca en el cuadro final “install”, esperamos unos segundos y nos aparecerá un cuadro de confirmación, lo cual significará que el motor ya esta instalado correctamente en nuestra PC.

Tesseract-OCR es el motor de reconocimiento, pero no tiene una interfaz gráfica de usuario (GUI) propia, sino que diversas personas o empresas lo han adaptado bajo diferentes nombres y aspectos. Esta es una lista de los programas de OCR que utilizan Tesseract como motor, aunque se vean diferentes. Los enlistamos en el mismo orden en el que los sugerimos. Si el primero no te funciona, inténtalo con el segundo, y así en adelante.

Después de haber instalado cualquiera de estos programas, debes incluir ciertos archivos en las carpetas de Tesseract. Esos archivos son de dos tipo: los archivos que contienen los dibujos de caracteres propios del español (¿, !, ñ, Ñ, á, etc) y los archivos que contienen el diccionario del español. Así que:

1. Descarga el archivo Complementos_para_tesseract-ocr.zip

2. Descomprime el archivo.

3. Vierte el contenido de la carpeta descomprimida Caracteres especiales dentro de la carpeta descargada ..\Tesseract-OCR\tessdata\ que pertenece Tesseract-OCR. Encontrarás esa carpeta en la ruta C:\Program Files (x86)\Tesseract-OCR\tessdata de tu computadora, o una análoga.

4. Luego, vierte el contenido de la carpeta Diccionario del español dentro de la carpeta de diccionarios del a interfaz que instalaste junto con Tesseract. Por ejemplo, si instalaste gImageReader, vierte es_ES.aff y es_ES.dic en la carpeta C:\Program Files (x86)\gimagereader\share\myspell\dicts

Si nuestra elección fué gImageReader vamos a abrir la aplicación desde "todos los programadas" donde encontraremos una carpeta con el mismo nombre y al abrir la aplicación nos aparecerá la siguiente pantalla:

gImageReader.png

Si les envia alguna pantalla de warning o les pide que configuren la aplicación es muy probable que sea por que no copiaron los archivos en las carpetas correctas que se mencionan en los pasos 3 y/o 4.

Ya cuando tengamos la applicación abierta tenemos la opción de escanear nuestro texto desde un archivo .pdf o una imagen desde la pesataña de "open" donde seleccionaran el archivo de nuestro libro.

No olviden tener la configuración del idioma en español, lo podrán cambiar de la siguiente manera:

IdiomaImageReader.png

Si lo que desean es obtener el texto directamente de un scanner vamos a usar la opción de "Acquire" donde podremos seleccionar el dispositivo, la ruta donde guardaremos nuestro archivo y la calidad deseada.

ScannerImageReader.png

Ya cuando tengamos nuestra página en imagen o pdf podremos convertirla a texto con el botón "Recognize All" el cual podremos ya guardarlo en un formato .docx


¿TE SIRVIÓ LA SOLUCIÓN?

Puntuación: 0+x


¿TIENES ALGUNA DUDA Y/O COMENTARIO ADICIONAL? OPINA

Si no se indica lo contrario, el contenido de esta página se ofrece bajo Creative Commons Attribution-Share Alike 2.5 License.