Pyspark - Dropna

Pyspark - Dropna

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame.

dropna () en Pyspark se usa para eliminar los valores nulos del marco de datos. Antes de discutir este método, tenemos que crear Pyspark DataFrame para la demostración. Podemos crear valores nulos usando ningún valor.

Ejemplo:

Vamos a crear un marco de datos con 5 filas y 6 columnas con valores nulos y mostrarlo usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': Ninguno, 'Age': 16, 'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 56, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'Rollno': Ninguno, 'Nombre': 'Rohith', 'Age': 9, 'Altura': 3.69, 'Peso': 28, 'Dirección': Ninguno,
'Rollno': Ninguno, 'Nombre': Ninguno, 'Age': Ninguno, 'Altura': Ninguno, 'Peso': Ninguno, 'Dirección': Ninguno]
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()

Producción:

Sintaxis:

marco de datos.dropna (cómo, umbral, subconjunto)

Dónde,

  1. marco de datos es la entrada Pyspark DataFrame
  2. cómo es el primer parámetro opcional que tomará dos valores posibles
  1. cualquier - Este valor deja caer las filas, si alguno de los valores es nulo en filas/columnas.
  2. todo - Este valor deja caer las filas, si todos los valores son nulos en filas/columnas.
  1. trillar es un segundo parámetro opcional se usa para soltar las filas / columnas en función del valor entero asignado a él. Si los valores no nulos presentes en la fila/columna del marco de datos de Pyspark son menores que el valor del umbral mencionado, entonces los valores nulos se pueden eliminar de esas filas.
  2. subconjunto es un tercer parámetro opcional utilizado para soltar los valores de la columna/s mencionada. Tomará columnas individuales/múltiples como entrada a través de una tupla de nombres de columnas.

Ejemplo 1:

En este ejemplo, estamos dejando caer las filas del marco de datos creado anteriormente sin parámetros y mostrando el marco de datos utilizando el método show (). Entonces, el resultado será la última fila porque no contiene valores nulos en esa fila.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['rollno': '001', 'nombre': 'sravan', 'edad': ninguno, 'altura': 5.79, 'Peso': Ninguno, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': Ninguno, 'Age': 16, 'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 56, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'Rollno': Ninguno, 'Nombre': 'Rohith', 'Age': 9, 'Altura': 3.69, 'Peso': 28, 'Dirección': Ninguno,
'Rollno': Ninguno, 'Nombre': Ninguno, 'Age': Ninguno, 'Altura': Ninguno, 'Peso': Ninguno, 'Dirección': Ninguno]
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#drop el marco de datos sin parámetros
df.dropna ().espectáculo()

Producción:

Ejemplo 2:

En este ejemplo, estamos dejando caer las filas del marco de datos creado anteriormente especificando cómo el parámetro y el establecimiento en 'all' y mostrando el marco de datos utilizando el método show (). Entonces, el resultado será todas las filas excepto la última fila porque contiene todos los valores nulos.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['rollno': '001', 'nombre': 'sravan', 'edad': ninguno, 'altura': 5.79, 'Peso': Ninguno, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': Ninguno, 'Age': 16, 'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 56, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'Rollno': Ninguno, 'Nombre': 'Rohith', 'Age': 9, 'Altura': 3.69, 'Peso': 28, 'Dirección': Ninguno,
'Rollno': Ninguno, 'Nombre': Ninguno, 'Age': Ninguno, 'Altura': Ninguno, 'Peso': Ninguno, 'Dirección': Ninguno]
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#drop el marco de datos con cómo el parámetro
df.dropna (How = 'All').espectáculo()

Producción:

Ejemplo 3:

En este ejemplo, estamos dejando caer las filas del marco de datos creado anteriormente especificando cómo el parámetro y el establecimiento en 'cualquiera' y mostrando el marco de datos utilizando el método show (). Entonces, el resultado será una sola fila que no contiene valores nulos.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['rollno': '001', 'nombre': 'sravan', 'edad': ninguno, 'altura': 5.79, 'Peso': Ninguno, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': Ninguno, 'Age': 16, 'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 56, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'Rollno': Ninguno, 'Nombre': 'Rohith', 'Age': 9, 'Altura': 3.69, 'Peso': 28, 'Dirección': Ninguno,
'Rollno': Ninguno, 'Nombre': Ninguno, 'Age': Ninguno, 'Altura': Ninguno, 'Peso': Ninguno, 'Dirección': Ninguno]
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#drop el marco de datos con cómo el parámetro
df.dropna (How = 'Any Any').espectáculo()

Producción:

Ejemplo 4:

En este ejemplo, estamos dejando caer las filas del marcado de datos creado anteriormente especificando el parámetro Thresh y estableciendo en 5 y mostrando el marco de datos utilizando el método show (). Entonces, el resultado será dos filas, porque estas filas tienen más de 5 valores no nulos.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['rollno': '001', 'nombre': 'sravan', 'edad': ninguno, 'altura': 5.79, 'Peso': Ninguno, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': Ninguno, 'Age': 16, 'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 56, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'Rollno': Ninguno, 'Nombre': 'Rohith', 'Age': 9, 'Altura': 3.69, 'Peso': 28, 'Dirección': Ninguno,
'Rollno': Ninguno, 'Nombre': Ninguno, 'Age': Ninguno, 'Altura': Ninguno, 'Peso': Ninguno, 'Dirección': Ninguno]
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#drop la marco de datos de datos con el parámetro Thresh
df.dropna (Thresh = 5).espectáculo()

Producción:

Ejemplo 5:

En este ejemplo, estamos dejando caer las filas del marco de datos creado anteriormente al especificar el parámetro de subconjunto y asignar la columna "peso" y mostrar el marco de datos utilizando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['rollno': '001', 'nombre': 'sravan', 'edad': ninguno, 'altura': 5.79, 'Peso': Ninguno, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': Ninguno, 'Age': 16, 'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 56, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'Rollno': Ninguno, 'Nombre': 'Rohith', 'Age': 9, 'Altura': 3.69, 'Peso': 28, 'Dirección': Ninguno,
'Rollno': Ninguno, 'Nombre': Ninguno, 'Age': Ninguno, 'Altura': Ninguno, 'Peso': Ninguno, 'Dirección': Ninguno]
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#drop la marco de datos con el parámetro de subconjunto
df.dropna (subset = "peso").espectáculo()

Producción:

Ejemplo 6:

En este ejemplo, estamos dejando caer las filas del marco de datos creado anteriormente al especificar el parámetro de subconjunto y asignar columnas de "peso" y "nombre" y mostrando el marco de datos utilizando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['rollno': '001', 'nombre': 'sravan', 'edad': ninguno, 'altura': 5.79, 'Peso': Ninguno, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': Ninguno, 'Age': 16, 'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 56, 'Altura': 2.79, 'peso': 17,
'Dirección': 'Patna',
'Rollno': Ninguno, 'Nombre': 'Rohith', 'Age': 9, 'Altura': 3.69, 'Peso': 28, 'Dirección': Ninguno,
'Rollno': Ninguno, 'Nombre': Ninguno, 'Age': Ninguno, 'Altura': Ninguno, 'Peso': Ninguno, 'Dirección': Ninguno]
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#drop la marco de datos con el parámetro de subconjunto
df.dropna (subset = ("peso", "nombre")).espectáculo()

Producción:

Conclusión

En este artículo, elaboramos cómo usar el método Dropna () con Pyspark DataFrame considerando todos los parámetros. También podemos soltar todos los valores nulos del marco de datos sin especificar estos parámetros.