¿Qué es AWS Glue?

¿Qué es AWS Glue?
AWS Glue es un servicio de computa de integración de datos de AWS que ayuda a mover los conjuntos de datos entre los servicios para prepararlos para el análisis. Los conjuntos de datos almacenados en los servicios de almacenamiento de Amazon como S3 se transfieren a los servicios que analizan conjuntos de datos como AWS Athena. La función principal de AWS Glue es crear trabajos ETL (Extraer, Transformar y Cargar). Los trabajos de ETL extraen los datos de las bases de datos de un servicio en particular y luego modifican y mueven los datos a otro lugar donde se requiere que se analice.

Mientras usan trabajos ETL, los usuarios también pueden construir y monitorear las tuberías de datos a través de las cuales se transfieren los datos extraídos. AWS Glue se integra con servicios como Amazon S3, Amazon Dynamodb, Amazon Redshift y Amazon RDS para extraer y mover datos.

Este artículo describirá los siguientes aspectos del pegamento de AWS:

  • ¿Cuáles son los componentes de AWS Glue??
  • ¿Cuál es la importancia del pegamento de AWS??
  • Cómo usar AWS Glue?

¿Cuáles son los componentes de AWS Glue??

Los siguientes son algunos componentes de AWS Glue que funcionan en coordinación para realizar varias tareas:

Consola de pegamento de AWS: La consola de pegamento AWS define el flujo de trabajo ETL y llama a las operaciones de API en otros componentes de pegamento AWS para realizar diferentes tareas como rastreadores de ejecución y programación, crear tablas, configurar las conexiones, etc.

Catalogar: El catálogo de datos de pegamento de AWS es el almacén de metadatos de la nube de AWS. En cada cuenta de AWS, cada región de AWS tiene un catálogo de datos de pegamento ya creado. En los catálogos de datos, las tablas que contienen datos de diferentes servicios como AWS RDS se almacenan en forma organizada.

Rastreadores y clasificadores: Los rastreadores pueden escanear los datos de todos los tipos de repositorios en AWS. A través de los rastreadores, los usuarios pueden crear bases de datos para organizar las tablas de datos de los datos extraídos en el pegamento AWS para que los datos se vean limpios y organizados.

Operaciones ETL: El usuario puede "extraer" los datos de un servicio y "transformar" los datos (por ejemplo, extraer datos sin procesar y transformarlos en una forma limpia clasificándolo en diferentes conjuntos de datos) y luego "cargar" los datos o hacer esos datos accesible para los servicios que hacen cola y analizan los datos.

ETL trabajos: AWS Glue ETL Jobs administra el flujo de trabajo ETL a través de algunas configuraciones. Los usuarios pueden programar trabajos de ETL al flujo de datos y activar el trabajo en eventos específicos como cuando se mueven nuevos datos, se elimina una tabla de datos, etc.

¿Cuál es la importancia del pegamento de AWS??

AWS Glue es popular por varias razones, incluida la siguiente:

  • AWS Glue es fácil de usar y rentable en comparación con otras plataformas que proporcionan la misma funcionalidad.
  • Los usuarios pueden conectarse a más de setenta fuentes de datos diferentes utilizando AWS Glue.
  • Proporciona un catálogo de datos centralizado para administrar el proceso ETL para extraer, administrar y pasar a los lagos de datos.
  • AWS Glue es un servicio sin servidor, por lo que no hay necesidad de configurar, administrar y mantener los servidores.

Cómo usar AWS Glue?

El uso del pegamento AWS es muy simple. Abra el servicio "AWS Glue" después de iniciar sesión en la consola de AWS. En el menú del lado izquierdo de la consola de pegamento AWS, habrá una lista de opciones que hacen que la funcionalidad del servicio de pegamento AWS sea más comprensible. El usuario puede realizar cualquier trabajo de ETL (extracto, transformación y carga) en el pegamento AWS:

Por ejemplo, seleccionamos la opción "Bases de datos" para crear una base de datos en el pegamento AWS o acceder a una base de datos creada en cualquier otro servicio AWS:

Del mismo modo, los usuarios pueden crear rastreadores en AWS:

Si abrimos los detalles de cualquiera de los rastreadores creados, muestra su fuente de datos. Aquí, está claro que se accede a los datos desde un cubo creado en el servicio AWS S3:

Explicado anteriormente se trataba de AWS Glue, sus componentes, importancia y uso.

Conclusión

AWS Glue es el servicio de integración de datos sin servidor de AWS que mueve los datos entre servicios de AWS, aplicaciones y componentes de software. Los datos se extraen primero y luego se transfieren después de la modificación a otro servicio utilizando de manera eficiente los recursos de la nube de AWS. Este servicio AWS confiable y escalable también es fácil de usar y se prefiere en otras plataformas con las mismas funcionalidades debido a sus vastas y utilizables características y rentabilidad.