Función media de desplazamiento al rojo

Función media de desplazamiento al rojo
La mediana es un concepto sencillo y común en estadísticas y probabilidad. Los estudiantes relacionados con tales campos matemáticos están familiarizados con su uso y cómo calcularlo verbalmente. Es simplemente el valor medio en un conjunto de datos organizado. Si desea encontrar la mediana de un conjunto, simplemente organice los valores en orden ascendente o descendente y elija el valor medio de él.

Hay dos escenarios diferentes al calcular la mediana de un conjunto de datos:

  • Tiene un número impar de valores en nuestro conjunto de datos
  • Tiene un número par de valores en nuestro conjunto de datos

En caso de que tenga un número impar de valores, la solución es sencilla y puede encontrar el número medio fácilmente.

Si está tratando de encontrar la mediana para un número par de valores, debe tomar la media o promedio de los dos números medios. En otras palabras, debe agregar los dos valores que se encuentran en el medio del conjunto de datos y dividir su suma por dos.

En este artículo, nos centraremos en cómo puede encontrar la mediana de un conjunto de datos en su base de datos de Amazon RedShift. RedShift es un servicio de almacenamiento de datos AWS muy famoso para resolver consultas de bases de datos complejas y ejecutar trabajos de análisis de big data.

Sintaxis para usar la función media

Si está trabajando con RedShift, puede encontrar fácilmente la mediana de un conjunto de datos utilizando la siguiente sintaxis:

Mediana ( )

Aquí el expresión mediana es simplemente el conjunto de datos o el nombre de la columna para el que desea encontrar la mediana.

Ejemplos de uso de la función media

Ahora, tomemos un ejemplo en el que desee encontrar la mediana para la edad de los estudiantes en la clase. Tienes una mesa class_data con dos columnas nombre y edad En el clúster de desplazamiento rojo.

Tenemos datos aleatorios y desordenados y queremos la mediana de estos datos. Para encontrar la mediana para dicho conjunto de datos, escribirá la siguiente consulta en Redshift:

Seleccionar mediana (edad)
De la organización.class_data

La consulta es simple y corta, pero devuelve la mediana del conjunto de datos que se proporciona a través de la expresión de entrada. La función media puede ser una pequeña porción de muchas consultas complejas en el análisis de datos difíciles y los trabajos estadísticos.

Has visto cómo encontrar la mediana de una columna perteneciente a una determinada tabla de base de datos. Pasemos a un nivel superior y veamos cómo la función media se puede usar en consultas complejas de desplazamiento al rojo.

Caso condicional

Aquí, verá cómo puede agregar una declaración condicional mientras intenta encontrar una mediana de un conjunto de datos. Supongamos que está trabajando como especialista en TI en el departamento de ventas e ingresos de su organización. Su alta gerencia le asigna una tarea para encontrar la mediana de los proyectos que cuestan más de mil dólares y en este momento todos los proyectos se enumeran en una sola tabla de base de datos sin ninguna segregación de costos.

Ya sabes cómo encontrar la mediana para esta columna. Pero aquí, nuestro requisito es un poco diferente, es por eso que usará la siguiente consulta para lograr los resultados deseados:

seleccionar mediana (costo)
de la organización.proyectos
Donde Costo> 1000

Obtendrá la siguiente salida de esta consulta. La mediana que recibimos se calcula después de ignorar todos los valores de costo menos que mil.

Así es como puede utilizar la función media con un límite condicional para obtener sus resultados requeridos en la base de datos de desplazamiento rojo.

Función de ventana mediana

En caso de que no esté familiarizado con las funciones de la ventana, se usan cuando no desea aplicar la función en toda la tabla o columna de la base de datos. Las funciones de la ventana le permiten aplicar una función en un conjunto o un grupo específico o un rango de datos. Cada grupo devolverá su resultado para esa función en particular en una sola salida. Puede encontrar las funciones de ventana correspondientes para muchas funciones SQL en Amazon Redshift.

Supongamos que va a comenzar un nuevo proyecto, pero su empresa carece de algunos de los conjuntos de habilidades para completar ese proyecto. Por esta razón, desea externalizar parte de la parte del proyecto para el que tiene otras organizaciones para proporcionarle cotizaciones para este proyecto de outsourcing. Cada cliente ha creado tres planes de ejecución diferentes de los cuales necesita elegir uno.

Ahora, debe ir con un plan moderado para cada cliente. Para encontrar la solución primero, encontrará la mediana para cada cliente por separado. Usaremos la función de ventana mediana para esta tarea.

Seleccione Client_Name, Project_Type, Median (Quotation_Value)
Over (Partition by Client_Name)
de la organización.clientela
pedido por client_name;

En la salida, obtendrá los siguientes resultados. La mediana para cada cliente se calcula y se muestra por separado utilizando el ENCIMA cláusula donde hemos mencionado el nombre del cliente para la base de esta partición.

De esta manera, puede utilizar la función de la ventana mediana utilizando el desplazamiento rojo de Amazon. Este esquema también se puede usar para conjuntos de datos más complejos y mucho más grandes.

Conclusión

Si desea encontrar la mediana de un conjunto de datos en Amazon Redshift, puede realizar esta tarea fácilmente utilizando la función mediana de desplazamiento rojo que le permite calcular la mediana para una columna completa o simplemente para un pequeño grupo de valores utilizando la función de ventana mediana. Hay ciertos casos y escenarios de la función mediana discutidas en este blog para que su comprensión sea clara.