Desviación estándar en Pyspark

Jacobo Piña

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. La desviación estándar es un cálculo matemático para determinar cuán similares o diferentes son números. Por ejemplo, la gente dirá que este número es x número de desviaciones estándar lejos del promedio. O en total todos los números en un conjunto están con un número de desviaciones estándar, etc. Demostraremos tres funciones para la desviación estándar en este artículo utilizando Pyspark. Para cada una de estas funciones proporcionaremos ejemplos con seleccionar() y agg () métodos.

Pyspark - stddev ()
Pyspark - stddev_samp ()
Pyspark - stddev_pop ()

Pyspark - stddev ()

stddev () en Pyspark se utiliza para devolver la desviación estándar de una columna particular en el marco de datos.

Antes de eso, tenemos que crear Pyspark DataFrame para la demostración.

Ejemplo:

Crearemos un marco de datos con 5 filas y 6 columnas y lo mostraremos utilizando el espectáculo() método.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Data DataFrame
df.espectáculo()

Producción:

Método -1: usando el método select ()

Podemos obtener la desviación estándar de la columna en la estructura de datos utilizando el método select (). Usando el método stddev (), podemos obtener la desviación estándar de la columna. Para usar este método, tenemos que importarlo de Pyspark.sql.Módulo de funciones, y finalmente, podemos usar el método Collect () para obtener la desviación estándar de la columna

Sintaxis:

df.SELECT (stddev ('column_name'))

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar

Si queremos devolver la desviación estándar de varias columnas, tenemos que usar el método stddev () dentro del método select () especificando el nombre de la columna separado por una coma.

Sintaxis:

df.SELECT (stddev ('column_name'), stddev ('column_name'), .. ., stddev ('column_name'))

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar

Ejemplo 1: columna única

Este ejemplo obtendrá la desviación estándar de la columna de altura en el marco de datos de Pyspark.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Import La desviación standsrd - función stddev
de Pyspark.sql.Funciones Importar STDDEV
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Realizar la desviación estándar de la columna de altura
df.Seleccionar (stddev ('altura')).recolectar()

Producción:

[Fila (stddev_samp (altura) = 1.3030732903409539)]

En el ejemplo anterior, se devuelve la desviación estándar de la columna de altura.

Ejemplo 2: múltiples columnas

Este ejemplo obtendrá la desviación estándar de las columnas de altura, edad y peso en el marco de datos de Pyspark.

Producción:

[Fila (stddev_samp (altura) = 1.3030732903409539, stddev_samp (edad) = 12.157302332343306, stddev_samp (peso) = 20.211382931407737)]

La desviación estándar de las columnas de altura, edad y peso se devuelve en el ejemplo anterior.

Método - 2: Uso del método Agg ()

Podemos obtener la desviación estándar de la columna en la estructura de datos utilizando el método Agg (). Este método se conoce como agregación, que agrupa los valores dentro de una columna. Tomará el diccionario como un parámetro en esa clave será el nombre y el valor de la columna es la función agregada, i.mi., stddev. Al usar el método stddev (), podemos obtener la desviación estándar de la columna y, finalmente, podemos usar el método Collect () para obtener la desviación estándar de la columna.

Sintaxis:

df.AGG ('column_name': stddev)

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar
STDDEV es una función de agregación utilizada para devolver la desviación estándar

Si queremos devolver la desviación estándar de varias columnas, tenemos que especificar el nombre de la columna con la función STDDEV separada por una coma.

Sintaxis:

df.agg ('column_name': stddev, 'column_name': stddev, ..., 'column_name': stddev)

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar
STDDEV es una función de agregación utilizada para devolver la desviación estándar

Ejemplo 1: columna única

Este ejemplo obtendrá la desviación estándar de la columna de altura en el marco de datos de Pyspark.

Producción:

[Fila (stddev (altura) = 1.3030732903409539)]

En el ejemplo anterior, se devuelve la desviación estándar de la columna de altura.

Ejemplo 2: múltiples columnas

Este ejemplo obtendrá la desviación estándar de las columnas de altura, edad y peso en el marco de datos de Pyspark.

Producción:

[Fila (stddev (peso) = 20.211382931407737, stddev (edad) = 12.157302332343306, stddev (altura) = 1.3030732903409539)]

La desviación estándar de las columnas de altura, edad y peso se devuelve en el ejemplo anterior.

Pyspark - stddev_samp ()

Stddev_samp () en Pyspark se usa para devolver la desviación estándar de una muestra de una columna particular en el marco de datos. Es similar a la función stddev ().

Antes de eso, tenemos que crear Pyspark DataFrame para la demostración.

Ejemplo:

Crearemos un marco de datos con 5 filas y 6 columnas y lo mostraremos usando el método show ().

Producción:

Método -1: usando el método select ()

Podemos obtener la desviación estándar de la columna en la estructura de datos utilizando el método select (). Al usar el método stddev_samp (), podemos obtener la desviación estándar de la columna. Para usar este método, tenemos que importarlo de Pyspark.sql.Módulo de funciones, y finalmente, podemos usar el método Collect () para obtener la desviación estándar de la columna

Sintaxis:

df.SELECT (stddev_samp ('column_name'))

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar en una muestra

Si queremos devolver la desviación estándar de varias columnas de una muestra, debemos usar el método stddev_samp () dentro del método select () especificando el nombre de la columna separado por una coma.

Sintaxis:

df.SELECT (stddev_samp ('column_name'), stddev_samp ('column_name'), .. ., stddev_samp ('column_name'))

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar de la muestra dada

Ejemplo 1: columna única

En este ejemplo, obtendremos la desviación estándar de una muestra de la columna de altura en el marco de datos de Pyspark.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Import La desviación standsrd - Función stddev_samp
de Pyspark.sql.Funciones importar stddev_samp
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Realizar la desviación estándar de la columna de altura
df.SELECT (stddev_samp ('altura')).recolectar()

Producción:

[Fila (stddev_samp (altura) = 1.3030732903409539)]

En el ejemplo anterior, se devuelve la desviación estándar de la columna de altura.

Ejemplo 2: múltiples columnas

En este ejemplo, obtendremos la desviación estándar de la muestra de las columnas de altura, edad y peso en el marco de datos de Pyspark.

Producción:

[Fila (stddev_samp (altura) = 1.3030732903409539, stddev_samp (edad) = 12.157302332343306, stddev_samp (peso) = 20.211382931407737)]

En el ejemplo anterior, se devuelve la desviación estándar de las columnas de altura, edad y peso.

Método - 2: Uso del método Agg ()

Podemos obtener la desviación estándar de una muestra de la columna en el marco de datos utilizando el método Agg (). Este método se conoce como agregación, que agrupa los valores dentro de una columna. Tomará el diccionario como un parámetro en esa clave será el nombre y el valor de la columna es la función agregada, i.mi., stddev_samp. Al usar el método stddev_samp (), podemos obtener la desviación estándar de la columna y, finalmente, podemos usar el método Collect () para obtener la desviación estándar de una muestra de la columna.

Sintaxis:

df.AGG ('column_name': stddev_samp)

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar de una muestra
stddev_samp es una función de agregación utilizada para devolver la desviación estándar de una muestra

Si queremos devolver la desviación estándar de varias columnas, tenemos que especificar el nombre de la columna con la función stddev_samp separada por una coma.

Sintaxis:

df.agg ('column_name': stddev_samp, 'column_name': stddev_samp, ..., 'column_name': stddev_samp)

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar de una muestra
stddev_samp es una función de agregación utilizada para devolver la desviación estándar de una muestra

Ejemplo 1: columna única

Este ejemplo obtendrá la desviación estándar de la columna de altura en el marco de datos de Pyspark.

Producción:

[Fila (stddev_samp (altura) = 1.3030732903409539)]

En el ejemplo anterior, se devuelve la desviación estándar de una muestra de la columna de altura.

Ejemplo 2: múltiples columnas

En este ejemplo, obtendremos la desviación estándar de una muestra de las columnas de altura, edad y peso en el marco de datos de Pyspark.

Producción:

[Fila (stddev_samp (peso) = 20.211382931407737, stddev_samp (edad) = 12.157302332343306, stddev_samp (altura) = 1.3030732903409539)]

En el ejemplo anterior, se devuelve la desviación estándar de las columnas de altura, edad y peso.

Pyspark - stddev_pop ()

stddev_pop () en Pyspark se utiliza para devolver la desviación estándar de una población de una columna particular en el marco de datos.

Antes de eso, tenemos que crear Pyspark DataFrame para la demostración.

Ejemplo:

Crearemos un marco de datos con 5 filas y 6 columnas y lo mostraremos usando el método show ().

Producción:

Método -1: usando el método select ()

Podemos obtener la desviación estándar de la columna en la estructura de datos utilizando el método select (). Al usar el método stddev_pop (), podemos obtener la desviación estándar de la población de la columna. Para usar este método, tenemos que importarlo de Pyspark.sql.Módulo de funciones, y finalmente, podemos usar el método Collect () para obtener la desviación estándar de la columna

Sintaxis:

df.SELECT (stddev_pop ('column_name'))

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar de una población

Si queremos devolver la desviación estándar de varias columnas para la muestra dada, debemos usar el método stddev_pop () dentro del método select () especificando el nombre de la columna separado por una coma.

Sintaxis:

df.SELECT (STDDEV_POP ('column_name'), stddev_pop ('column_name'), .. ., stddev_pop ('column_name'))

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar de la población dada

Ejemplo 1: columna única

En este ejemplo, obtendremos la desviación estándar de una población de la columna de altura en el marco de datos de Pyspark.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Import la desviación estándar - función stddev_pop
de Pyspark.sql.Funciones importar stddev_pop
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Realizar la desviación estándar de la columna de altura
df.SELECT (stddev_pop ('altura')).recolectar()

Producción:

[Fila (stddev_pop (altura) = 1.1655041827466772)]

En el ejemplo anterior, se devuelve la desviación estándar de la columna de altura.

Ejemplo 2: múltiples columnas

En este ejemplo, obtendremos la desviación estándar de la población de columnas de altura, edad y peso en el marco de datos de Pyspark.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Import La desviación standsrd - función stddev_pop
de Pyspark.sql.Funciones importar stddev_pop
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Realizar la desviación estándar de la columna de altura, edad y peso
df.SELECT (stddev_pop ('altura'), stddev_pop ('edad'), stddev_pop ('peso')).recolectar()

Producción:

[Fila (stddev_pop (altura) = 1.16550418274667772, stddev_pop (edad) = 10.87382177525455, stddev_pop (peso) = 18.077610461562667)]

En el ejemplo anterior, se devuelve la desviación estándar de las columnas de altura, edad y peso.

Método - 2: Uso del método Agg ()

Podemos obtener la desviación estándar de la población de la columna en el marco de datos utilizando el método Agg (). Este método se conoce como agregación, que agrupa los valores dentro de una columna. Tomará el diccionario como un parámetro en esa clave será el nombre y el valor de la columna es la función agregada, i.mi. stddev_pop. Usando el método stddev_pop (), podemos obtener la desviación estándar de la columna. Finalmente, podemos usar el método Collect () para obtener la desviación estándar de una población de la columna.

Sintaxis:

df.AGG ('column_name': stddev_pop)

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar de una población
stddev_pop es una función de agregación utilizada para devolver la desviación estándar de una población

Si queremos devolver la desviación estándar de varias columnas, tenemos que especificar el nombre de la columna con la función stddev_pop separada por una coma.

Sintaxis:

df.agg ('column_name': stddev_pop, 'column_name': stddev_pop, ..., 'column_name': stddev_pop)

Dónde,

DF es la entrada Pyspark DataFrame
column_name es la columna para obtener la desviación estándar de una población
stddev_pop es una función de agregación utilizada para devolver la desviación estándar de una población

Ejemplo 1: columna única

Este ejemplo obtendrá la desviación estándar de la columna de altura en el marco de datos de Pyspark.

Producción:

[Fila (stddev_pop (altura) = 1.1655041827466772)]

En el ejemplo anterior, se devuelve la desviación estándar de una muestra de la columna de altura.

Ejemplo 2: múltiples columnas

En este ejemplo, obtendremos la desviación estándar de una muestra de las columnas de altura, edad y peso en el marco de datos de Pyspark.

Producción:

[Fila (stddev_pop (peso) = 18.077610461562667, stddev_pop (edad) = 10.87382177525455, stddev_pop (altura) = 1.1655041827466772)]

En el ejemplo anterior, se devuelve la desviación estándar de las columnas de altura, edad y peso.

Conclusión

Discutimos cómo obtener la desviación estándar del Pyspark DataFrame utilizando stddev (), stddev_samp () y stddev_pop () funciones a través del seleccionar() y agg () métodos.

Base de datos Oracle

¿Oracle Fusion se considera mejor que SAP??

Oracle Fusion (ERP basado en la nube) tiene una interfaz fácil de usar, mientras que SAP (Cloud y lo...

José Luis Villagómez

golang

¿Qué son las estructuras en Golang?

En Golang, una estructura es un tipo de datos compuestos que consiste en cero o más campos con nombr...

Homero Ontiveros

Sqlite

Cómo usar la aplicación web SQLite Viewer

La aplicación web SQLite Viewer proporciona excelentes características para ver las bases de datos S...

Andrés Barrientos