PDF OCR

De WikiSalud
(Diferencias entre revisiones)
Saltar a: navegación, buscar
m (Revertidos los cambios de Keyla (disc.) a la última edición de Ruben)

Revisión de 14:58 18 jun 2018

Pdfsandwich

genera archivos pdf OCR "sándwich", es decir, archivos PDF que contienen solo imágenes (pero no texto editable) serán procesados por reconocimiento óptico de caracteres (OCR) y el texto se agregará a cada página invisiblemente "detrás" de las imágenes. pdfsandwich es una herramienta de línea de comandos que se supone que es útil para los libros o diarios escaneados con OCR. Puede reconocer el diseño de la página incluso para texto de varias columnas. Básicamente, pdfsandwich es un script de envoltura que llama a los siguientes binarios: convertir, cuneiforme, gs y hocr2pdf. Se sabe que se ejecuta en sistemas Unix y se ha probado en Linux y MacOS X. Es compatible con el procesamiento paralelo en sistemas multiprocesador.

Tesseract

es un motor OCR libre. Fue desarrollado originalmente por Hewlett Packard como software propietario entre 1985 y 1995. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett Packard y la Universidad de Nevada, Las Vegas. Tesseract es desarrollado actualmente por Google y distribuido bajo la licencia Apache, versión 2.0. Tesseract está considerado como uno de los motores OCR libres con mayor precisión disponibles actualmente.

Instalación

1.ir a la terminal

Antes de empezar, asegurarse que se tienen el sistema operativo actualizado Debian 9 "Stretch"

Ahora, como usuario root se ejecuta lo siguiente:

lsb_release -a

para confirmar la versión del equipo

2.Ahora, como usuario root se ejecuta lo siguiente:

aptitude install pdfsandwich

Herramienta para generar archivos pdf OCR "sándwich"

1.png

2.png

aptitude install tesseract-ocr-spa

archivos de lenguaje tesseract-ocr para español

3.png

aptitude install tesseract-ocr-spa-old

archivos de lenguaje tesseract-ocr para español viejo

4.png


3.Luego en un archivo pdf dar clic derecho ir pestaña propiedades seleccionar botón opciones de tipo de archivo

ir a botón añadir una ves nos abre la venta para seleccionar programas dimitamos pdfsandwich lo añadimos y lo colocamos en cualquier posición meños la 1° con los botones subir y bajar luego seleccionando el programa pdfsandwich

6.png

5.png

7.png

8.png


9.png

vamos al boton editar abrimos la pestaña aplicación modificamos la pestaña order digitamos

pdfsandwich  -lang spa %U

10.png

Herramientas personales
Espacios de nombres

Variantes
Acciones
Navegación
Herramientas