Obtener información de marco de datos de Pyspark

Obtener información de marco de datos de Pyspark
En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. Podemos obtener la información de Pyspark DataFrame, como el número total de filas y columnas, las estadísticas del marco de datos y el tamaño del marco de datos. Creemos un marco de datos de Pyspark para la demostración.

Ejemplo:
En este ejemplo, vamos a crear el marco de datos de Pyspark con 5 filas y 6 columnas y mostrar usando el método show ().

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Muestra DataFrame
df.espectáculo()

Producción:

Escenario 1: Obtenga el número total de filas

Podemos obtener el número total de filas en la función Pyspark DataFrame usando Count ().

Sintaxis:
marco de datos.contar()

Dónde, DataFrame es la entrada Pyspark DataFrame.

Ejemplo:
En este ejemplo, utilizaremos la función Count () para obtener el número total de filas.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Muestra el recuento de filas
Imprimir (DF.contar())

Producción:

5

Escenario 2: Obtenga el número total de columnas

Podemos obtener el número total de columnas en la función de datos de Pyspark usando la función Len () con el método de columnas.

El método de columnas devolverá todas las columnas en una lista. Por lo tanto, podemos aplicar la función Len () para devolver el número de columnas.

Sintaxis:
Len (DataFrame.columnas)

Dónde, DataFrame es la entrada Pyspark DataFrame.

Ejemplo:
En este ejemplo, utilizaremos la función Len () para obtener el número total de columnas y mostrar las columnas utilizando el método de columnas.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Muestra el recuento de columnas
Imprimir (Len (DF.columnas))
# Muestra las columnas
Imprimir (DF.columnas)

Producción:

6

['Dirección', 'edad', 'altura', 'nombre', 'rollno', 'peso']

Escenario 3: Obtenga las estadísticas

Podemos obtener las estadísticas como el recuento, la media, la desviación estándar y el valor mínimo y el valor máximo del marco de datos de Pyspark usando el método describe ()

Sintaxis:
marco de datos.describir()

Dónde, DataFrame es la entrada Pyspark DataFrame.

Nota - No hay una desviación media y estándar para los valores de tipo de cadena. En ese caso, el resultado es nulo.

Ejemplo:
En este ejemplo, utilizaremos la función describe () para obtener las estadísticas.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
df.describir().espectáculo()

Producción:

De la salida anterior, el nombre es de tipo de cadena. Entonces, el valor nulo está ocupado para la desviación media y estándar.

Podemos usar Resumen () para devolver las estadísticas. Es similar al método describe (). Pero esto devolverá los valores de rango de 25%, 50% y 75%.

Ejemplo:
En este ejemplo, utilizaremos la función describe () para obtener las estadísticas.

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Students1 = ['rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes1)
# Obtenga el resumen
df.resumen().espectáculo()

Producción:

Conclusión

En este artículo, discutimos el uso de las funciones describe () y resumary (). Se utilizan para devolver las estadísticas del marco de datos de entrada de Pyspark. Hemos visto que al usar el método Len () podemos obtener el número total de columnas y al usar el método Count (), podemos obtener un número total de filas en Pyspark DataFrame.