Cómo usar AWS Glue

Cómo usar AWS Glue
AWS Glue es un servicio de integración de datos totalmente administrado que ofrece e integra datos y permite a los usuarios ejecutar rastreadores y crear y monitorear trabajos ETL (extraer, transformar y carga). AWS Glue funciona en un entorno sin servidor y permite a los usuarios realizar actividades en una infraestructura escalable. AWS Glue extrae datos de otros servicios de Amazon como S3 o AWS Kinesis e integra los datos accedidos.

Cuando los usuarios crean trabajos y rastreadores de ETL en AWS Glue, tienen que especificar y declarar la ubicación de destino para los datos y la fuente de datos, respectivamente. Esto significa que el pegamento AWS no se puede usar solo, pero el usuario tiene que almacenar datos en servicios de almacenamiento como cubos S3 y luego hacer que esos datos sean accesibles para el servicio de pegamento AWS. Los usuarios también pueden crear bases de datos, tablas, esquemas, conexiones, etc., en AWS Glue.

Este artículo explicará el proceso de uso de AWS Glue en sencillos pasos.

Cómo usar AWS Glue?

Para comprender el uso de AWS Glue, primero, inicie sesión en la consola de AWS y luego busque pegamento de AWS en los servicios de AWS.

En la primera interfaz de AWS Glue, habrá un menú en el lado izquierdo que contendrá la lista de todas las tareas posibles que se pueden realizar utilizando el pegamento AWS, como rastreadores, bases de datos, tablas, esquemas, etc.

Si hacemos clic en el botón "Comenzar", la siguiente interfaz mostrará tres tareas diferentes, yo.mi., Ver trabajos, ver monitoreo y ver conectores.

Para crear trabajos en AWS Glue, el usuario primero debe configurar el trabajo de acuerdo con los detalles, como la ubicación de los cubos, objetos, carpetas y clústeres de AWS. Entonces, para usar AWS Glue. Se requiere almacenar algunos archivos en el servicio de almacenamiento S3 de AWS.

Crea un cubo S3

Primero, visite el servicio "Amazon S3" de AWS y cree un nuevo cubo S3 allí.

Crear carpetas en cubo

Después de crear un nuevo cubo S3 en Amazon S3, cree una carpeta abriendo los detalles del cubo y luego haga clic en "Crear carpeta".

Simplemente proporcione un nombre a la carpeta:

De esta manera, se crea la carpeta.

Ahora, crea otra carpeta en el cubo.

Cargar objetos

Ahora, vaya a "Objetos" y haga clic en el botón "Cargar". Explore los archivos del sistema que se supone que deben cargarse al recién creado Amazon S3 Bucket.

El mensaje de éxito en la parte superior de la interfaz verifica que los objetos seleccionados del sistema se cargan con éxito en el cubo AWS S3.

Abrir pegamento de AWS

Después de cargar objetos y agregar carpetas en el cubo S3, el usuario puede realizar tareas en el pegamento AWS. Busque y abra el servicio AWS Glue desde los servicios de AWS.

Crear rastreador

Habrá un menú en el lado izquierdo que contiene los nombres de todas las tareas realizadas en AWS Glue. Seleccione la opción "Rastreadores" en el menú dado y cree un rastreador.

Escriba un nombre para el rastreador.

Seleccione el cubo recién creado como la ruta S3 del rastreador para que este rastreador pueda acceder a ese cubo:

Declare la base de datos de destino seleccionando cualquiera de las bases de datos creadas en el pegamento AWS o cree una nueva base de datos y luego seleccione eso:

Después de configurar todo lo requerido para crear un rastreador, haga clic en el botón "Crear rastreador":

Después de que se haya creado el rastreador, haga clic en el botón "Ejecutar rastreador" para que el rastreador activo:

Crear un trabajo de ETL

Seleccione la opción "Jobs" en el menú del lado izquierdo:

Esto se trataba de cómo usar el pegamento AWS.

Conclusión

AWS Glue es un servicio AWS sin servidor que extrae datos de otros servicios de AWS como los cubos S3. Puede haber grupos, bases de datos, trabajos, etc., creado en AWS Glue. Una de las principales tareas de AWS Glue es crear trabajos de ETL. Después de almacenar algunos archivos en los servicios de almacenamiento de AWS, los trabajos ETL se pueden crear configurando los detalles del trabajo de tal manera que puedan acceder a los archivos.