Cómo crear un clúster de desplazamiento al rojo en AWS

Jacobo Piña

Podemos usar bases de datos para almacenar y administrar conjuntos de datos estructurados, pero eso no es suficiente para el análisis y la toma de decisiones. Para este propósito, necesitamos extraer los resultados requeridos de estos datos utilizando el almacenamiento de datos. Un almacén de datos es similar a una base de datos SQL regular. Pero, en lugar de almacenar fines, están diseñados para ejecutar análisis y consultas en los datos. Usando esto, podemos leer una gran cantidad de datos en un período corto y estudiar tendencias y relaciones entre ellos. En este artículo, discutiremos el desplazamiento rojo y cómo se puede crear en AWS.

¿Qué es Amazon Redshift?

AWS RedShift es un almacén de datos utilizado específicamente para el análisis de datos en conjuntos de datos más pequeños o más grandes. Es un servicio administrado por AWS, por lo que puede configurarlo fácilmente en poco tiempo con solo unos pocos clics. Para configurar el cambio rojo, debe crear los nodos que se combinan para formar un clúster de desplazamiento rojo. Un clúster puede tener un máximo de 128 nodos. De lo cual, un nodo está configurado como un nodo maestro que puede administrar todos los demás nodos y almacenar los resultados consultados. Cada nodo puede tomar hasta 128 TB de datos para procesar. Usando el desplazamiento rojo, puede consultar datos unas diez veces más rápido que las bases de datos regulares.

Por lo general, los datos que deben analizarse se colocan en el cubo S3 u otras bases de datos. Pero también puede consultar directamente los datos en S3 utilizando el espectro de desplazamiento rojo. Además, también puede usar instancias de Kinesis Data FireHose o EC2 para escribir datos en su clúster de desplazamiento rojo.

Este servicio solo se limita a operar en una sola zona de disponibilidad, pero puede tomar las instantáneas de su clúster de desplazamiento rojo y copiarlas a otras zonas. Este proceso también puede ser automatizado para ayudar en la recuperación de desastres.

En la siguiente sección, discutiremos cómo crear y configurar el clúster de desplazamiento rojo en AWS utilizando la consola de administración de AWS y la interfaz de línea de comandos.

Creación de clúster de desplazamiento rojo usando consola

Primero, inicie sesión en su cuenta de AWS usando las credenciales de AWS y busque el desplazamiento rojo utilizando la barra de búsqueda superior. Esto te llevará a la consola de desplazamiento rojo.

Clickea en el Crear clúster Para comenzar a crear un nuevo clúster de desplazamiento al rojo.

En la sección de configuración, debe proporcionar el identificador o el nombre para su clúster de desplazamiento rojo. El nombre del clúster de desplazamiento rojo debe ser único dentro de la región y puede contener de 1 a 63 caracteres.

Después de proporcionar el identificador de clúster único, le preguntará si necesita elegir entre producción o nivel libre. Para evitar costos adicionales, utilizaremos el tipo de nivel gratuito para este fin de demostración.

Con el tipo de nivel gratuito, obtienes un DC2.Nodo de desplazamiento al rojo grande con tipos de almacenamiento SSD y potencia de cálculo de 2 VCPU.

Con la opción de nivel gratuito, AWS carga automáticamente algunos datos de muestra en su clúster de desplazamiento rojo para ayudarlo a aprender sobre AWS Redshift.

Los datos de muestra cargados por AWS se denominan Tickit y usa una base de datos de muestra llamada Tickit. Tickit contiene archivos de datos de muestra individuales: dos tablas factores y cinco dimensiones.

Después de cargar datos de muestra, solicitará que el nombre de usuario y la contraseña del administrador se autenticen con AWS RedShift de forma segura. Puede establecer la contraseña del administrador por usted mismo, o se puede generar automáticamente haciendo clic en el Generar automáticamente botón de contraseña.

Después de proporcionar el nombre de usuario y la contraseña del administrador, podemos crear nuestro clúster haciendo clic en el Crear clúster en la esquina inferior derecha.

Esto creará nuestro nuevo clúster de desplazamiento rojo y cargará los datos de muestra en él. Puedes ver tus grupos disponibles en la consola de desplazamiento rojo.

RedShift es algún tipo de base de datos SQL que puede ejecutar análisis en conjuntos de datos y admite consultas de tipo SQL. Para ejecutar el análisis utilizando el cambio rojo, seleccione el clúster que desee y haga clic en datos de consulta Para crear una nueva consulta.

Para ejecutar la consulta, debe conectarse con un clúster de desplazamiento rojo. Para lograr esto, seleccione la opción disponible en la parte superior de la datos de consulta sección.

Primero, debe seleccionar la conexión que será una nueva conexión si va a usar el clúster de desplazamiento rojo por primera vez. No hemos creado ningún parámetro para la autenticación utilizando el Secrets Manager, por lo que elegiremos credenciales temporales.

A continuación, necesitamos seleccionar el identificador de clúster, el nombre de la base de datos y el usuario de la base de datos. Después de eso, haga clic en conectarse en la esquina inferior derecha.

Si la conexión se establece correctamente, puede ver el estado "conectado" en la parte superior de la sección de datos de consulta.

Después de la conexión exitosa, simplemente puede escribir su consulta SQL utilizando el editor proporcionado. Crearemos una nueva tabla con el título persona y tener cinco atributos. Una vez que se complete su consulta, puede ejecutarla usando el correr Opción en la parte inferior.

Crear personas de mesa (
Personido int,
LastName Varchar (255),
FirstName Varchar (255),
Dirección Varchar (255),
City Varchar (255)
);

Cuando haces clic en el Correr botón, creará una tabla con nombre Persona con los atributos especificados en la consulta.

Todo el esquema de la base de datos se puede ver en el lado izquierdo en la misma sección. Puede ver la tabla recién creada y sus atributos aquí:

Así que aquí hemos visto cómo crear un clúster de desplazamiento al rojo y ejecutar consultas usándolo de una manera simple.

Creación de clúster de desplazamiento rojo usando AWS CLI

Ahora, veremos cómo usar la interfaz de línea de comandos de AWS para configurar un clúster de desplazamiento rojo. Una vez que se acostumbra a la línea de comando y obtenga algo de experiencia, la encontrará más satisfactoria y conveniente que la consola de gestión de AWS.

Primero, debe configurar AWS CLI en su sistema. Para obtener las instrucciones para configurar las credenciales de CLI, visite el siguiente artículo:

https: // linuxhint.com/configure-aws-cli-credentials/

Para crear un nuevo clúster de cambio rojo, debe ejecutar el siguiente comando usando la CLI:

$: AWS Redshift Create-Cluster \
--de tipo nodo \
--de tipo clúster \
--número de nodos \
--nombre maestro \
--Pasado de usuario maestro < username password> \
--identificador de clúster

Si el clúster se crea correctamente en su cuenta de AWS, obtendrá una salida detallada, como se muestra en la siguiente captura de pantalla:

Entonces, su clúster está creado y configurado. Si desea ver todos los grupos de desplazamiento rojo en una región en particular, necesitará el siguiente comando. Esto le proporcionará los detalles sobre todos los clústeres creados en su cuenta de AWS.

$: AWS Redshift describe los grupos

Finalmente, hemos visto cómo crear fácilmente un clúster de desplazamiento al rojo usando el AWS CLI.

Conclusión

Amazon RedShift es un servicio de almacenamiento de datos completamente administrado que se puede utilizar con otros servicios de AWS como cubos S3, bases de datos RDS, instancias de EC2 ,hose de fuego de datos de Kinesis, VISH y muchos otros para producir los resultados deseados de los datos dados. Puede proporcionar copias de seguridad en caso de cualquier falla para la recuperación de desastres y tiene una alta seguridad utilizando el cifrado, las políticas de IAM y VPC. Por lo tanto, es un servicio muy seguro y confiable que puede analizar grandes conjuntos de datos a un ritmo rápido.

Comandos de Linux

Cómo instalar la versión de CUDA en Linux

Tutorial integral sobre cómo descubrir las versiones de CUDA que son compatibles con los controlador...

José Luis Villagómez

php

Cómo usar la función de serializar PHP

La función serialize () puede serializar una matriz, objeto o una estructura de datos compleja en un...

Lorenzo Morales

C ++

Cómo usar Chrono en C++?

El Chrono es una biblioteca C ++ incorporada que permite a los usuarios administrar fácilmente la fe...

Mariana Cotto