Comencemos con el servicio Amazon EMR.
Comenzando con AWS EMR
Amazon EMR es un servicio de gestión de datos que utiliza varios marcos para el análisis de big data mediante la creación de grupos utilizando instancias de Amazon EC2 y su flujo de trabajo se ha explicado a continuación:
Planificar y configurar: Para crear un clúster EMR, el usuario debe planificar el almacenamiento requerido para administrar Big Data y luego elegir los marcos para analizar Big Data.
Administrar: Administrar el clúster se puede hacer conectando a él y luego enviando los datos en el clúster para verificar los resultados antes de terminar el clúster:
Limpiar: Este paso es para terminar el clúster y sus recursos y es importante ya que los grupos inactivos pueden costar mucho al usuario:
Nodo en EMR
Un clúster EMR es una combinación de instancias EC2 y cada instancia se llama nodo y sus tipos se explican a continuación:
Nodo maestro: Es el nodo principal o el nodo líder el responsable de administrar todos los recursos del clúster.
Nodo central: Aloja datos del sistema de archivos distribuidos Hadoop (HDFS) y ejecuta las tareas del nodo primario y el nodo primario administra tareas para el nodo central.
Nodo: Estos nodos no alojan datos, pero ejecutan tareas para nodos anteriores y es un nodo auxiliar, lo que significa que no es obligatorio crear al iniciar el clúster EMR:
Crear clúster EMR
Para crear un clúster en el servicio EMR del AWS, diríjase al tablero de EMR buscando el servicio desde la consola de Amazon:
En esta página, seleccione "Racimos"Desde el panel izquierdo y haga clic en el"Crear clúster" botón:
En la página de creación de clúster, haga clic en el "Ir a Opciones de avance" enlace:
Configuración de software: En la página de configuración de avance, el usuario puede elegir varios marcos de procesamiento de datos de código abierto, y el servicio también ofrece la creación de múltiples nodos en la instancia de EC2:
Configuración de hardware: En esta página, el usuario puede configurar los recursos necesarios para el clúster EMR que está disponible en la nube:
Nodos e instancias de clúster: Esta sección ofrece al usuario para configurar los tipos de nodos que crearán las instancias de EC2 con recursos configurados:
Seguridad: En la última página, seleccione el archivo de par de teclas privadas EC2 que se puede crear en la página de pares de teclas desde el tablero EC2 para conectarse a los nodos:
El clúster EMR se mostrará en su página:
Has creado con éxito un clúster EMR en AWS.
Conclusión
El servicio AWS EMR se utiliza para crear grupos para planificar el almacenamiento de Big Data que se utilizarán con la ayuda del sistema de archivos distribuidos. Cada clúster se crea con múltiples nodos (instancias EC2) conectadas a él que pueden crear y conectarse a la máquina virtual en blanco en la nube. Estos grupos se pueden utilizar para administrar grandes datos en la nube sin que se utilicen ningún recurso desde su sistema.