Estos software OCR son especialmente útiles para convertir y preservar documentos antiguos, ya que pueden usarse para identificar texto y crear copias digitales. A veces, el texto identificado puede no ser 100% preciso, pero el software OCR elimina la necesidad de ediciones manuales en gran medida al extraer la mayor cantidad de texto posible. Las ediciones manuales se pueden hacer más tarde para mejorar aún más la precisión y crear réplicas individuales. La mayoría del software OCR puede extraer texto en archivos separados, aunque algunos también admiten superponer una capa de texto oculta en los archivos originales. El texto superpuesto le permite leer contenido en impresión y formato originales, pero también le permite seleccionar y copiar texto. Esta técnica se usa especialmente para digitalizar documentos antiguos en formato PDF.
Tesseract OCR
Tesseract OCR es un software OCR de código abierto y de código abierto disponible para Linux. Patrocinado por Google, y mantenido por muchos voluntarios, es probablemente la suite OCR más completa disponible que incluso puede superar algunas soluciones pagadas y propietarias. Proporciona herramientas de línea de comandos, así como una API que puede integrar en sus propios programas. Puede detectar texto en muchos idiomas con buena precisión. Viene con un conjunto de datos previamente capacitados que se pueden usar para identificar y extraer texto. También puede usar sus propios datos capacitados si necesita una solución personalizada o puede obtener más modelos de terceros. Tesseract OCR viene con múltiples motores de detección y puede usarlos de acuerdo con sus necesidades dependiendo del método de instalación.
Para instalar Tesseract OCR en Ubuntu, use el comando especificado a continuación:
$ sudo apt install tesseract-oCR
Puede instalarlo en otras distribuciones de Linux desde repositorios predeterminados a través del Administrador de paquetes. Un archivo de appimage universal y más instrucciones de instalación están disponibles aquí.
Tesseract OCR viene con soporte para detectar el contenido del idioma inglés de forma predeterminada. Si desea habilitar idiomas adicionales, es posible que deba descargar más paquetes de idiomas. El enlace indicado anteriormente tiene instrucciones para instalar paquetes de idiomas adicionales. En Ubuntu, puede encontrar directamente paquetes de idioma ejecutando el comando a continuación:
$ Apt-Cache Search Tesseract-OocR-
El comando anterior emitirá nombres de paquetes para diferentes paquetes de idiomas. Simplemente instálelos ejecutando un comando en el siguiente formato:
$ sudo apt instalación
Puede obtener una lista de todos los paquetes de idioma instalados ejecutando el comando a continuación:
$ tesseract --list-langs
Una vez que se hayan instalado el paquete Tesseract OCR y los paquetes de idioma adicionales, puede comenzar a detectar texto de imágenes y archivos PDF. Para extraer texto, use comandos en los siguientes formatos:
$ Tesseract Imagen.PNG SALIDA -L ENG
$ Tesseract Imagen.PNG Salida -L Eng+SPA
$ Tesseract Imagen.PNG SALIDA -L ENG PDF
El primer comando extraerá texto de "imagen.PNG "Archivo en el idioma" Eng "y guárdelo en un archivo llamado" Salida ". El segundo comando analizará la imagen usando múltiples paquetes de idiomas. El tercer comando se puede usar para crear un archivo PDF con una capa de texto superpuesta en el archivo de imagen.
Para obtener más información sobre el uso de la línea de comandos de Tesseract OCR, use los siguientes dos comandos:
$ Tesseract --help
$ hombre tesseract
gimagerader
Gimagreeader es un cliente gráfico para el motor Tesseract OCR mencionado anteriormente. Puede usarlo para ejecutar la mayoría de las opciones de línea de comando y las acciones compatibles con Tesseract OCR, incluida la extracción de texto de múltiples archivos, marcar el texto extraído y realizar el procesamiento posterior en el texto identificado.
Para instalar GimageReader en Ubuntu, use el comando especificado a continuación:
$ sudo apt instalación gimagereader
Puede instalarlo en otras distribuciones de Linux desde repositorios predeterminados a través del Administrador de paquetes. Más paquetes específicos de distribución están disponibles aquí.
Papeleo
El papeleo es un administrador de documentos de código abierto y gratuito. Puede usarlo para administrar eficientemente su biblioteca de documentos, especialmente si tiene una gran colección. También viene con un modo OCR incorporado que utiliza "Pyocr", un módulo Python basado en motores Tesseract y Cuneiform OCR. Otras características principales del papeleo incluyen la capacidad de editar documentos escaneados, una barra de búsqueda para buscar la biblioteca de documentos, la capacidad de ordenar documentos, soporte del escáner, etc.
Para instalar el papeleo en Ubuntu, use el comando especificado a continuación:
$ sudo apt instalación de papeleo-gtk
Puede instalarlo en otras distribuciones de Linux desde repositorios predeterminados a través del Administrador de paquetes. Un paquete universal plano también está disponible aquí.
Cajón
OCRFeeder es un software OCR gráfico gratuito y de código abierto mantenido por el equipo de GNOME. Admite reconocer el texto en numerosos idiomas y puede exportar contenido en numerosos formatos de archivo. Admite muchos motores OCR, incluidos Tesseract OCR, GOCR, OCRAD y Cuneiform. También le permite hacer un postprocesamiento para mejorar el formato y el diseño del contenido de texto extraído.
Para instalar OCRFeeder en Ubuntu, use el comando especificado a continuación:
$ sudo apt install ocrfeeder
Puede instalarlo en otras distribuciones de Linux desde repositorios predeterminados a través del Administrador de paquetes. Un paquete universal plano también está disponible aquí.
Tenga en cuenta que en mis pruebas, OCRFeeder instalado en repositorios de Ubuntu llegó con solo un motor OCR. Sin embargo, la construcción Flatpak llegó con los cuatro motores OCR compatibles, aunque se descargó alrededor de 2 GB de datos. El paquete incluido en el repositorio de Ubuntu era mucho más pequeño en tamaño.
gscan2pdf
GSCAN2PDF es una utilidad gráfica gratuita y de código abierto que puede identificar y extraer texto de una variedad de formatos de archivo. Puede funcionar directamente con escáneres para escanear documentos y luego exportar el contenido de texto detectado OCR en archivos PDF. También admite múltiples motores OCR, incluidos Tesseract OCR, GOCR, Ocropus y Cuneiform, siempre que los paquetes para estos motores estén instalados en su sistema. Además del escaneo directo de los documentos, también puede importar archivos de imagen y extraer texto de ellos.
Para instalar GSCAN2PDF en Ubuntu, use el comando especificado a continuación:
$ sudo apt install gscan2pdf gocr cuneiform tesseract-ocom
Puede instalarlo en otras distribuciones de Linux desde repositorios predeterminados a través del Administrador de paquetes. El código fuente y los binarios ejecutables también están disponibles aquí.
Conclusión
Estos son algunos de los motores y software de OCR gráficos más útiles y de la línea gráfica disponibles para Linux. Tesseract OCR es la herramienta más desarrollada y más completa para detectar texto y debería ser suficiente para la mayoría de sus necesidades. Aunque también puede probar otras aplicaciones mencionadas en este artículo si no está satisfecho con los resultados de Tesseract OCR.