Cómo instalar Tesseract en Windows

Cómo instalar Tesseract en Windows

Tesseract es una herramienta de reconocimiento de texto de código abierto disponible gratuitamente también conocida como OCR (reconocimiento de caracteres ópticos). Se usa principalmente para identificar y extraer texto de imágenes. Leerá texto a partir de datos de imagen y escribirá la salida en un nuevo .archivo txt. Tesseract también está trabajando bajo Python, ya que se usa principalmente para reconocer la escritura a mano de las imágenes. Está utilizando el modelo LSTR (memoria a largo plazo a largo plazo). Tesseract está trabajando bajo el Apache 2.0 Licencia.

Elaboraremos el método para instalar Tesseract en Windows en este blog.

Entonces empecemos!

Cómo instalar Tesseract en Windows?

Tesseract es una herramienta de línea de comandos que se utiliza para la extracción de texto de las imágenes. Para instalar Tesseract en Windows, debe hacer un seguimiento de las instrucciones a continuación.

Paso 1: Descargar Tesseract Installer

En primer lugar, navegue al enlace proporcionado a continuación y descargue el instalador Tesseract de acuerdo con la especificación de su sistema:

https: // github.com/UB-Mannheim/Tesseract/Wiki

Paso 2: Ejecutar el instalador Tesseract

Visita el "Descargas"Directorio donde se descarga el instalador Tesseract. Para instalar Tesseract en Windows, ejecute el instalador Tesseract haciendo doble clic en él:

Paso 3: Seleccione el idioma

Muchos idiomas son compatibles con el instalador Tesseract. Para interactuar con la interfaz de usuario del instalador, elija "Inglés"Como su idioma y haga clic en"DE ACUERDO":

Paso 4: Instale Tesseract

Al hacerlo, el Asistente de configuración de OCR Tesseract aparecerá en la pantalla. Para comenzar la instalación de Tesseract, presione el "Próximo" botón:

Para aceptar el "Acuerdo de licencia", haga clic en el "Estoy de acuerdo" botón:

Selecciona el "Instalar para cualquier persona que utilice este equipoOpción "y presione el"Próximo" botón:

Si desea agregar datos de script o incluir otro idioma, marque sus respectivas casillas de verificación y presione el "Próximo" botón. Como no queremos ningún script o lenguaje de datos adicionales, continuaremos con las opciones seleccionadas predeterminadas:

Elija la ubicación de instalación y haga clic en el "Próximo" botón:

Si no desea crear un atajo en el menú Inicio, marque el "No crees atajos"Casilla de verificación y presione el"Instalar" botón:

Después de eso, se iniciará la instalación de Tesseract. Espere hasta que la instalación se complete y presione el "Próximo" botón:

Por último, haga clic en el "Finalizar" botón:

Paso 5: Establecer variable de entorno

Después de la instalación, debe establecer la variable de entorno de Tesseract. Para hacerlo, visite en primer lugar el directorio donde haya instalado el Tesseract y copie la ruta del "DIRECCIÓN" bar:

Buscar "Variables de entorno" en el "Puesta en marcha"Menú y abrir"Editar las variables de entorno del sistema":

Dentro de la configuración, navegue al "Avanzado"Configuración del menú y haga clic en"Variables de entorno" botón:

Elegir el "Camino"Variable del"Variables del sistemaPanel ", y presione el"Editar" botón:

Después "Editar variable de entorno"La ventana aparecerá en la pantalla. Presione el "Nuevo"Botón y pega la ruta de directorio de instalación de Tesseract copiado aquí. Por último, haga clic en el "DE ACUERDO" botón:

Paso 6: Verificar la instalación de Tesseract

Para verificar la instalación de Tesseract, abra el símbolo del sistema de Windows buscando "Solicitante del sistema" en el "Puesta en marcha"Menú:

Consulte la versión Tesseract usando el comando provisto:

> tesseract --versión

La salida dada a continuación indica que hemos instalado con éxito la versión Tesseract "v5.2.0"En Windows:

Avancemos para ver cómo usar Tesseract en Windows.

Cómo usar Tesseract en Windows?

El Tesseract se usa para leer la escritura a mano o extraer texto de las imágenes. Vamos a ver cómo funciona:

Paso 1: Seleccionar imagen

Seleccione la imagen de la que desea extraer texto. Como hemos elegido "1.png":

Paso 2: extraer texto de la imagen

Una vez que se abre el CMD. Utilizar el "cd"Comando para cambiar el directorio donde se almacena la imagen. Luego ejecuta el "Tesseract"Comando y defina el nombre del archivo de imagen como hemos especificado"1.png". El "TextoEl parámetro "muestra el nombre del archivo de salida:

> CD C: \ Users \ anuma \ onedrive \ Pictures \ Saved Pictures
> Tesseract 1.png "texto"

Paso 3: Verificar la extracción de texto

Para verificar la extracción de texto, navegue el directorio donde existe el archivo de imagen. Puede ver que el archivo de salida "Texto"También se guarda aquí. Haga doble clic en el archivo de salida para verificar si el Tesseract ha extraído el texto de la imagen o no:

Puede ver que hemos extraído con éxito el texto utilizando la herramienta de línea de comandos Tesseract:

Hemos demostrado la técnica para instalar y usar Tesseract en Windows.

Conclusión

Para instalar Tesseract en Windows, se requiere descargar el instalador de Tesseract. Para este propósito, siga la primera sesión de este artículo. Siguiente Establecer la variable de entorno de ruta para usar y acceder a Tesseract desde el símbolo del sistema de Windows. Luego, seleccione el archivo de imagen y use el "Tesseract"Comando para reconocer y extraer el texto de la imagen. Aquí, ha aprendido a instalar y usar el "Tesseract"En Windows.