Pyspark - Pandas DataFrame Forma, ejes, ndim y dtypes

Pyspark - Pandas DataFrame Forma, ejes, ndim y dtypes
“En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame, que almacenará los datos dados en formato de fila y columna.

Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.

PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

PIP install Pyspark

Sintaxis para importar

de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.

Sintaxis para crear Pandas DataFrame

pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores.

Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#mostrar
Imprimir (pyspark_pandas)

Producción

Ahora, entraremos en nuestro tutorial.

Vamos a verlos uno por uno.

Pyspark - Pandas DataFrame: Shape ()

pyspark.pandas.Marco de datos.forma()

Shape () en Pyspark Pandas DataFrame se usa para devolver el número de filas y el número de columnas en una tupla.

El primer valor en la tupla representa el número de filas, y el segundo valor representa el número de columnas.

Sintaxis

pyspark_pandas.forma

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Si desea devolver solo el número total de filas o columnas, puede obtenerlo utilizando la posición de índice.

Sintaxis
Devolver el número total de filas

pyspark_pandas.forma [0]

Devolver el número total de columna

pyspark_pandas.forma [1]

Ejemplo
En este ejemplo, veremos cuántas filas y columnas que existen en el Pyspark Pandas DataFrame.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Entectora la forma
Imprimir ("Total de filas y columnas:", Pyspark_pandas.forma)
#Obtenga solo un número total de filas
Imprimir ("Total de filas:", Pyspark_pandas.forma [0])
#Obtenga solo un número total de columnas
Imprimir ("Total Columns:", Pyspark_pandas.forma [1])

Producción

Total de filas y columnas: (5, 4)
Total de filas: 5
Columnas totales: 4

Podemos ver que se devolvieron las filas y columnas totales.

Pyspark - Pandas DataFrame: Axes ()

pyspark.pandas.Marco de datos.hachas ()

Axes () en el Pyspark Pandas DataFrame se usa para devolver los nombres de fila y columna en una lista.

El primer valor en la lista representa los nombres de la fila, y el segundo valor representa los nombres de la columna.

Sintaxis

pyspark_pandas.hachas

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Si desea devolver solo las filas o columnas, puede obtenerlo utilizando la posición de índice.

Sintaxis

Devolver los nombres de las filas

pyspark_pandas.hachas [0]

Devolver nombres de columna

pyspark_pandas.hachas [1]

Ejemplo
En este ejemplo, veremos las filas y columnas que existen en el cuadro de datos Pyspark Pyspark Pyspark.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get todos los hachas
Imprimir (Pyspark_Pandas.hachas)
#get los ejes de la fila
imprimir ("nombres de fila:", pyspark_pandas.hachas [0])
#get los ejes de la columna
Imprimir ("Nombres de columnas:", Pyspark_pandas.hachas [1])

Producción

[Int64Index ([0, 1, 2, 3, 4], dtype = "int64"), index (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "objeto")]]
Nombres de fila: int64Index ([0, 1, 2, 3, 4], dtype = "int64")
Nombres de columna: index (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "objeto")

Podemos ver que los nombres de fila y columna fueron devueltos.

Pyspark - Pandas DataFrame: NDIM ()

pyspark.pandas.Marco de datos.ndim ()

ndim () en el Pyspark Pandas DataFrame se usa para devolver las dimensiones totales. Aquí el Pyspark Pandas DataFrame contiene dos dimensiones: fila y columna. Entonces volverá 2.

Sintaxis

pyspark_pandas.ndim

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo
En este ejemplo, obtendremos las dimensiones totales del Pyspark Pandas DataFrame.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get las dimensiones
Imprimir (Pyspark_Pandas.ndim)

Producción

2

Pyspark - Pandas DataFrame: dtypes ()

pyspark.pandas.Marco de datos.dtypes ()

dtypes () en Pyspark Pandas DataFrame se utiliza para devolver los tipos de datos para todas las columnas

Sintaxis

pyspark_pandas.dtypes

Donde pyspark_pandas es el marco de datos Pyspark Pandas.

Ejemplo
En este ejemplo, obtendremos los tipos de datos del Pyspark Pandas DataFrame.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Engustar los tipos de datos de todas las columnas
Imprimir (Pyspark_Pandas.dtypes)

Producción

objeto student_lastname
Mark1 int64
Mark2 int64
Mark3 int64
dtype: objeto

También es posible obtener el tipo de datos de una sola columna.

Sintaxis

Pyspark_pandas.columna.dtypes

Donde la columna es el nombre de la columna

Ejemplo
En este ejemplo, obtendremos los tipos de datos de la columna Student_LastName y Mark1.

#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get el tipo de datos de la columna Student_LastName
Imprimir (Pyspark_Pandas.estudiante_lastname.dtypes)
#Obtenga el tipo de datos de la columna Mark1
Imprimir (Pyspark_Pandas.marca.dtypes)

Producción

objeto
Int64

Conclusión

En este tutorial Pyspark Pandas DataFrame, vimos diferentes métodos para obtener la información de DataFrame.

  1. La forma se usa para devolver el tamaño del marco de datos Pyspark Pandas.
  2. Axes se usa para devolver los nombres de la fila y la columna.
  3. NDIM devolverá un número total de dimensiones en Pyspark Pandas DataFrame.
  4. dtypes devuelve todos los tipos de datos de columna.