Analizar archivos PDF es muy tedioso y complicado para cualquier desarrollador de software, no porque sea complejo sino por la naturaleza de los archivos PDF. Los archivos PDF contienen objetos identificados por un número único. Los objetos PDF pueden recopilar información como imágenes, texto y más. Estos objetos están encriptados y comprimidos, lo que hace que sea casi imposible procesar PDF como documentos de texto.
Esta guía aprenderá cómo analizar los documentos PDF utilizando el lenguaje de programación PHP.
Configuración
El primer paso es configurar un entorno de desarrollo. Comenzaremos instalando PHP y las bibliotecas requeridas.
Para instalar PHP, abra el terminal e ingrese el comando:
$ sudo apt-get instalación php7.5 -y
Una vez que se instala PHP, úselo para instalar el compositor como se muestra en los comandos:
php -r "copy ('https: // getComposer.org/instalador ',' compositor-setup.php '); "Una vez que tenemos el compositor instalado y configurado, podemos proceder a usar la biblioteca PDFParser.
Abra el terminal e ingrese el comando:
$ sudo PHP Composer.PHAR requiere Smalot/PDFParser
Generar el archivo PDF
El siguiente paso es seleccionar un archivo PDF para usar. Hay varias formas y recursos que puede usar para crear un archivo PDF. Por ejemplo, si está en Windows, puede exportar un .documento doc/docx a PDF.
Sin embargo, para este ejemplo, usaremos archivos gratuitos disponibles en Internet. Abra su navegador y navegue al recurso proporcionado a continuación:
https: // archivos muestras.com/formatos/pdf
Seleccione uno de los archivos PDF disponibles y guárdelo en su sistema.
NOTA: Asegúrese de verificar archivos maliciosos antes de usar dichos documentos. Herramientas como Virustotal son excelentes recursos.
https: // www.virusta.com/gui/
El siguiente es un informe de escaneo de la muestra1.archivo PDF.
https: // www.virusta.com/gui/file/6b22904a7de5b77bf40598c37e94e01771485e1b900651b58bf50af7009f8056
Extraer metadatos PDF
Para extraer metadatos del PDF utilizando la biblioteca de analizador PDF, podemos implementar el código de muestra como se muestra a continuación:
// Incluye el compositor AutoloaderEl código anterior debe obtener información de metadatos sobre el archivo. Dicha información incluye:
CREATIONDATE: 2016-12-22T11: 43: 55-05: 00Extraer texto
Para extraer texto de cada página del PDF enviado, podemos implementar el código como se muestra a continuación:
incluir "Vendor/Autoload.php ";Una vez que ejecutamos el código anterior, deberíamos ver el texto extraído de la muestra1.archivo PDF. Ejemplo Outug es como se muestra a continuación:
Clausura
Esta guía le muestra cómo puede analizar los archivos PDF usando PHP y la biblioteca PDFParser. Consulte la documentación para obtener más información.