Pyspark - Cuenta

Pyspark - Cuenta
En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. Count () en Pyspark se usa para devolver el número de filas de una columna particular en DataFrame. Podemos obtener el recuento de tres maneras.
  1. Método 1: Uso del método select ()
  2. Método 2: Uso del método Agg ()
  3. Método 3: Uso del método GroupBy ()

Antes de eso, tenemos que crear Pyspark DataFrame para la demostración.

Ejemplo:

Crearemos un marco de datos con 5 filas y 6 columnas y lo mostraremos usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Data DataFrame
df.espectáculo()

Producción:

Método -1: usando el método select ()

Podemos obtener el recuento de la columna en la marca de datos utilizando el método select (). Usando el método Count (), podemos obtener el número total de filas de la columna. Para usar este método, tenemos que importarlo de Pyspark.sql.Módulo de funciones, y finalmente, podemos usar el método Collect () para obtener el recuento de la columna

Sintaxis:

df.SELECT (Count ('column_name'))

Dónde,

  1. DF es la entrada Pyspark DataFrame
  2. column_name es la columna para obtener el número total de filas (recuento).

Si queremos devolver el recuento de múltiples columnas, tenemos que usar el método Count () dentro del método select () especificando el nombre de la columna separado por una coma.

Sintaxis:

df.SELECT (count ('column_name'), count ('column_name'), .. ., count ('column_name'))

Dónde,

  1. DF es la entrada Pyspark DataFrame
  2. column_name es la columna para obtener el número total de filas (recuento).

Ejemplo 1: columna única

Este ejemplo obtendrá el recuento de la columna de altura en el marco de datos de Pyspark.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función de conteo
de Pyspark.sql.Cuento de importación de funciones
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Realizar el número de valores/filas de la columna de altura
#CUENTA UNIFICACIÓN
df.Seleccionar (contar ('altura')).recolectar()

Producción:

[Fila (recuento (altura) = 5)]

En el ejemplo anterior, se devuelve el recuento desde la columna de altura.

Ejemplo 2: múltiples columnas

Este ejemplo obtendrá el recuento de columnas de altura, edad y peso en el marco de datos de Pyspark.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función de conteo
de Pyspark.sql.Cuento de importación de funciones
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#retomar el recuento desde las columnas de altura, edad y peso
df.Seleccionar (contar ('altura'), contar ('edad'), contar ('peso')).recolectar()

Producción:

[Fila (recuento (altura) = 5, recuento (edad) = 5, recuento (peso) = 5)]

En el ejemplo anterior, se devuelve el recuento desde las columnas de altura, edad y peso.

Método - 2: Uso del método Agg ()

Podemos obtener el recuento de la columna en el marco de datos utilizando el método Agg (). Este método se conoce como agregación, que agrupa los valores dentro de una columna. Tomará el diccionario como un parámetro en esa clave será el nombre y el valor de la columna es la función agregada, i.mi., contar. Usando el método Count (), podemos obtener el número de filas de la columna y, finalmente, podemos usar el método Collect () para obtener el recuento de la columna.

Sintaxis:

df.AGG ('column_name': count)

Dónde,

  1. DF es la entrada Pyspark DataFrame
  2. column_name es la columna para obtener el número total de filas (recuento).
  3. El recuento es una función de agregación utilizada para devolver el número de filas

Si queremos devolver el recuento de varias columnas, debemos especificar el nombre de la columna con la función de recuento separada por una coma.

Sintaxis:

df.agg ('column_name': count, 'column_name': count, ..., 'column_name': count)

Dónde,

  1. DF es la entrada Pyspark DataFrame
  2. column_name es la columna para obtener el número total de filas (recuento).
  3. El recuento es una función de agregación utilizada para devolver el número total de filas

Ejemplo 1: columna única

Este ejemplo obtendrá el recuento de la columna de altura en el marco de datos de Pyspark.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Realizar el número de filas de la columna de altura
df.agg ('altura': 'contar').recolectar()

Producción:

[Fila (recuento (altura) = 5)]

En el ejemplo anterior, se devuelve el recuento desde la columna de altura.

Ejemplo 2: múltiples columnas

Este ejemplo obtendrá el recuento de columnas de altura, edad y peso en el marco de datos de Pyspark.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Realizar el número de filas de las columnas de altura, edad y peso
df.agg ('altura': 'contar', 'edad': 'contar', 'peso': 'contar').recolectar()

Producción:

[Fila (recuento (peso) = 5, recuento (edad) = 5, recuento (altura) = 5)]

En el ejemplo anterior, se devuelve el recuento desde las columnas de altura, edad y peso.

Método - 3: Uso del método GroupBy ()

Podemos obtener el recuento de la columna en el marco de datos utilizando el método GroupBy (). Este método devolverá el número total de filas agrupando valores similares en una columna. Tenemos que usar la función Count () después de realizar la función GroupBy ()

Sintaxis:

df.Groupby (group_column). contar()

Dónde,

  1. DF es la entrada Pyspark DataFrame
  2. Group_column es la columna donde los valores se agrupan en función de esta columna
  3. El recuento es una función agregada utilizada para devolver el número total de filas basadas en filas agrupadas

Ejemplo :

En este ejemplo, vamos a agrupar la columna de dirección y obtener el recuento

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#retiró el recuento de filas mediante la columna de dirección de agrupación
df.Groupby ('dirección').contar().recolectar()

Producción:

Hay tres valores únicos en el campo de dirección: Hyd, Guntur y Patna. Entonces, el recuento se formará agrupando los valores en los valores de la dirección.

[Fila (dirección = 'hyd', count = 3),
Fila (dirección = 'guntur', count = 1),
Fila (dirección = 'patna', count = 1)]

Conclusión:

Discutimos cómo obtener el recuento de Pyspark DataFrame utilizando los métodos select () y agg (). Para obtener el número total de filas agrupando con otras columnas, utilizamos el grupo junto con la función Count ().