Primero, veremos cómo dividir el marco de datos en Pyspark.
Dividir
Es posible particionar las filas en el marco de datos utilizando la función de la ventana. Está disponible en el pyspark.sql.ventana módulo. Hay dos pasos para dividir las filas en un marco de datos de Pyspark.
Pasos:
Sintaxis:
partición = ventana.Partitionby ("columna")Podemos ordenar los datos particionados con la columna particionada o cualquier otra columna.
Creemos DataFrame.
Ejemplo:
Aquí, creamos un marco de datos Pyspark que tiene 5 columnas: ['temas_id', 'nombre', 'edad', 'tecnología1', 'tecnología2'] con 10 filas.
importar pysparkProducción:
Función de ventana de varianza de Pyspark ()
La varianza () en la función de la ventana se usa para devolver la varianza en cada partición. Puede ser posible devolver la varianza después de particionar el marco de datos.
Sintaxis:
dataframe_obj.WithColumn ("Variance", Variance (col ("columna")).sobre (partición))Parámetro:
Varianza (col ("columna"))Aquí, la función Variance () toma el nombre de la columna como parámetro. Devuelve la varianza en esta columna en cada partición.
Agregamos el resultado en una columna con nombre de varianza utilizando la función withColumn ().
Ejemplo 1:
Ahora, tenemos un cuadro de datos (creado anteriormente). Vamos a dividirlo en función de la columna Technology1 y obtener la varianza en la columna SUSPET_ID en cada partición.
# Importar la función de la ventanaProducción:
Explicación:
El número total de particiones es 4.
Partición 1:
El .La red ocurrió dos veces en la primera partición. La varianza de la columna Sujeto_id es 0.0.
Partición 2:
Hadoop ocurrió una vez en la segunda partición. Entonces, la varianza es nula.
Partición 3:
Oracle ocurrió cuatro veces en la tercera partición.
La varianza de la columna Sujeto_id es 401.0.
Partición 4:
PHP ocurrió tres veces en la cuarta partición.
La varianza de la columna Sujeto_id es 0.0.
Ejemplo 2:
Ahora, tenemos un cuadro de datos (creado anteriormente). Vamos a dividirlo en función de la columna Technology1 y obtener la varianza en la columna de edad en cada partición.
# Importar la función de la ventanaProducción:
Explicación:
El número total de particiones es 4.
Partición 1:
El .La red ocurrió dos veces en la primera partición. La varianza de la columna de edad es 0.0.
Partición 2:
Hadoop ocurrió una vez en la segunda partición. Entonces, la varianza es nula.
Partición 3:
Oracle ocurrió cuatro veces en la tercera partición.
La varianza de la columna de edad es 0.666.
Partición 4:
PHP ocurrió tres veces en la cuarta partición.
La varianza de la columna de edad es 1.333.
Función de ventana Pyspark stddev ()
El stddev () en la función de la ventana se usa para devolver la desviación estándar en cada partición. Puede ser posible devolver la desviación estándar después de dividir el DataFrame.
Sintaxis:
dataframe_obj.WithColumn ("Desviación estándar", stddev (col ("columna")).sobre (partición))Parámetro:
stddev (col ("columna"))Aquí, el stddev () toma el nombre de la columna como parámetro. Devuelve la desviación estándar en esta columna en cada partición.
Agregamos el resultado a una columna llamada Desviation estándar utilizando la función withColumn ().
Ejemplo 1:
Ahora, tenemos un cuadro de datos (creado anteriormente). Vamos a dividirlo en función de la columna Technology1 y obtener la desviación estándar en la columna TEMPLE_ID en cada partición.
# Importar la función de la ventanaProducción:
Explicación:
El número total de particiones es 4.
Partición 1:
El .La red ocurrió dos veces en la primera partición. La desviación estándar de la columna temas_id es 0.0.
Partición 2:
Hadoop ocurrió una vez en la segunda partición. Entonces, la desviación estándar es nula.
Partición 3:
Oracle ocurrió cuatro veces en la tercera partición.
La desviación estándar de la columna temas_id es 20.024984.
Partición 4:
PHP ocurrió tres veces en la cuarta partición.
La desviación estándar de la columna temas_id es 0.0.
Ejemplo 2:
Ahora, tenemos un cuadro de datos (creado anteriormente). Vamos a dividirlo en función de la columna Technology1 y obtener la desviación estándar en la columna de edad en cada partición.
# Importar la función de la ventanaProducción:
Explicación:
El número total de particiones es 4.
Partición 1:
El .La red ocurrió dos veces en la primera partición. La desviación estándar de la columna de edad es 0.0.
Partición 2:
Hadoop ocurrió una vez en la segunda partición. Entonces, la desviación estándar es nula.
Partición 3:
Oracle ocurrió cuatro veces en la tercera partición.
La desviación estándar de la columna de edad es 0.8164.
Partición 4:
PHP ocurrió tres veces en la cuarta partición.
La desviación estándar de la columna de edad es 1.1547.
Conclusión
En este tutorial de partición de Pyspark, aprendimos cómo devolver la varianza en cada ventana particionada utilizando la función Variance () y la desviación estándar en cada ventana particionada utilizando la función stddev (). Agregamos el resultado al marco de datos existente como una nueva columna. Asegúrese de importar la varianza y el stddev del Pyspark.sql.módulo de funciones.