Cómo usar Textract para extraer texto de archivos

Cómo usar Textract para extraer texto de archivos
Este artículo cubrirá una guía sobre el uso del módulo Python "Textract" y la utilidad de línea de comandos para extraer contenido basado en texto de una variedad de diferentes formatos de archivo. Puede extraer texto de más de 20 formatos de archivo diferentes y puede usarlo programáticamente en su propio programa Python importando su módulo principal. Es posible que haya utilizado otras herramientas de línea de comando de extracción de texto similares. Sin embargo, se limitan principalmente a uno o dos formatos de archivo específicos. Textract proporciona una solución de una parada con una interfaz unificada para extraer texto de una multitud de diferentes formatos de archivo. Incluso puede usar el reconocimiento de caracteres ópticos (OCR) y las tecnologías de reconocimiento de voz para extraer texto de archivos de imagen y audio respectivamente.

Instalación de Textract en Linux

Puede instalar Textract en Linux desde el Manager de paquetes PIP. Puede instalar Pip Package Manager en Ubuntu ejecutando el comando a continuación:

$ sudo apt install python3-pip

Una vez que tenga instalado PIP Manager, ejecute el siguiente comando para instalar dependencias para Textract:

$ sudo apt install python3-dev libxml2-dev Libxslt1-devirword antiword no Poppler-Utils pstotext tesseract-oCR ffmpeg Lame LibMad0 Libsox-FMT-MP3 SOX LIBJPEG-DEV SWIG PYTHON3-TESTRESOURS

Ahora use PIP Package Manager para instalar Textract en Ubuntu:

$ PIP3 Instalar Textract

Puede instalar Pip Package Manager en otras distribuciones de Linux desde el Administrador de paquetes. Alternativamente, puede instalar PIP Package Manager en Linux siguiendo las instrucciones de instalación oficiales disponibles aquí. Una vez que se instala el Administrador de paquetes PIP, puede usar el comando PIP especificado anteriormente o seguir más instrucciones de instalación disponibles en la documentación oficial de Textract (solo para distribuciones de Linux que no sean Ubuntu).

Extraer texto de archivos

Según la documentación oficial de Textract, puede usarlo para extraer texto de los siguientes formatos de archivo:

Para extraer texto de cualquiera de estos archivos compatibles y mostrar la salida como stdout en el terminal, ejecute un comando en el siguiente formato:

$ Textract File.pdf

Puede reemplazar el archivo ".PDF ”con cualquier otro formato de archivo compatible con Textract. Dependiendo del contenido de un archivo, debería ver alguna salida similar a esta:

Para guardar la salida extraída en otro archivo, ejecute un comando en el siguiente formato:

$ Textract File.archivo pdf -o.TXT

Puede reemplazar los nombres de archivo según sea necesario. El conmutador "-o" se usa para especificar el nombre del archivo de salida donde se almacenará el texto extraído.

Textract detecta automáticamente el tipo de extensión de archivo y utiliza la tecnología apropiada para analizar y extraer el contenido del archivo. Entonces, para detectar y extraer texto de un archivo de imagen, puede usar el comando mencionado anteriormente y proporcionar un tipo de archivo de imagen compatible como argumento. Siempre que use el tipo de archivo compatible y especifique correctamente el nombre de archivo con extensión en la línea de comando, Textract hará todo el trabajo por usted. Por ejemplo, para extraer contenido de texto de un archivo "PNG" o "OGG", simplemente puede ejecutar estos comandos:

$ Textract File.archivo png -o.TXT
$ Textract File.archivo ogg -o.TXT

Para saber más sobre el uso de la línea de comandos Textract, ejecute el siguiente comando:

$ textract --help

Usando Textract como un módulo de Python

Puede usar Textract en un programa de Python que comienza con la siguiente muestra de código:

importar textract
texto = textract.proceso ("archivo.png ")
Imprimir (texto)

La primera declaración importa el módulo principal textract. A continuación, se llama al método de "proceso" suministrándole un nombre de archivo como argumento. Al igual que la utilidad de la línea de comando, el método de proceso detecta automáticamente el tipo de archivo actual utilizando su nombre de extensión y luego utiliza un analizador de contenido y extractor apropiados adecuados para la extensión del archivo.

También puede anular manualmente la extensión del archivo utilizando el argumento de "extensión". Aquí hay una muestra de código:

importar textract
texto = textract.proceso ("archivo.OGG ", extensión =" OGG ")
Imprimir (texto)

Si desea anular manualmente un método de extracción automática utilizado por Textract, puede usar el argumento "Método" (como se muestra en la muestra de código a continuación):

importar textract
texto = textract.proceso ("archivo.OGG ", método =" SOX ")
Imprimir (texto)

Los tipos de archivos compatibles y los métodos de extracción se enumeran aquí.

Para saber más sobre Textract Python Methods y su uso, puede ver la documentación de API disponible aquí.

Conclusión

Textract proporciona una única interfaz de línea de comandos unificadas y una API de Python para extraer texto de varios tipos de archivos diferentes. Incluso puede usarlo para extraer contenido de archivos multimedia. Es especialmente adecuado en los casos en que no desea pasar por una multitud de diferentes utilidades de línea de comando para manejar la extracción de texto y desea usar una sola API para todo.