Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.
PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.
Antes de eso, debe instalar el módulo Pyspark."
Dominio
PIP install PysparkSintaxis para importar
de Pyspark Import PandasDespués de eso, podemos crear o usar DataFrame desde el módulo Pandas.
Sintaxis para crear Pandas DataFrame
pyspark.pandas.Marco de datos()Podemos aprobar un diccionario o lista de listas con valores.
Creemos un marco de datos de Pandas a través de Pyspark que tiene cuatro columnas y cinco filas.
#Pandas de Import del módulo PysparkProducción
Ahora, entraremos en nuestro tutorial.
Vamos a verlos uno por uno.
Pyspark - Pandas DataFrame: Shape ()
pyspark.pandas.Marco de datos.forma()Shape () en Pyspark Pandas DataFrame se usa para devolver el número de filas y el número de columnas en una tupla.
El primer valor en la tupla representa el número de filas, y el segundo valor representa el número de columnas.
Sintaxis
pyspark_pandas.formaDonde pyspark_pandas es el marco de datos Pyspark Pandas.
Si desea devolver solo el número total de filas o columnas, puede obtenerlo utilizando la posición de índice.
Sintaxis
Devolver el número total de filas
Devolver el número total de columna
pyspark_pandas.forma [1]Ejemplo
En este ejemplo, veremos cuántas filas y columnas que existen en el Pyspark Pandas DataFrame.
Producción
Total de filas y columnas: (5, 4)Podemos ver que se devolvieron las filas y columnas totales.
Pyspark - Pandas DataFrame: Axes ()
pyspark.pandas.Marco de datos.hachas ()Axes () en el Pyspark Pandas DataFrame se usa para devolver los nombres de fila y columna en una lista.
El primer valor en la lista representa los nombres de la fila, y el segundo valor representa los nombres de la columna.
Sintaxis
pyspark_pandas.hachasDonde pyspark_pandas es el marco de datos Pyspark Pandas.
Si desea devolver solo las filas o columnas, puede obtenerlo utilizando la posición de índice.
Sintaxis
Devolver los nombres de las filas
pyspark_pandas.hachas [0]Devolver nombres de columna
pyspark_pandas.hachas [1]Ejemplo
En este ejemplo, veremos las filas y columnas que existen en el cuadro de datos Pyspark Pyspark Pyspark.
Producción
[Int64Index ([0, 1, 2, 3, 4], dtype = "int64"), index (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "objeto")]]Podemos ver que los nombres de fila y columna fueron devueltos.
Pyspark - Pandas DataFrame: NDIM ()
pyspark.pandas.Marco de datos.ndim ()
ndim () en el Pyspark Pandas DataFrame se usa para devolver las dimensiones totales. Aquí el Pyspark Pandas DataFrame contiene dos dimensiones: fila y columna. Entonces volverá 2.
Sintaxis
pyspark_pandas.ndimDonde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo
En este ejemplo, obtendremos las dimensiones totales del Pyspark Pandas DataFrame.
Producción
2Pyspark - Pandas DataFrame: dtypes ()
pyspark.pandas.Marco de datos.dtypes ()
dtypes () en Pyspark Pandas DataFrame se utiliza para devolver los tipos de datos para todas las columnas
Sintaxis
pyspark_pandas.dtypesDonde pyspark_pandas es el marco de datos Pyspark Pandas.
Ejemplo
En este ejemplo, obtendremos los tipos de datos del Pyspark Pandas DataFrame.
Producción
objeto student_lastnameTambién es posible obtener el tipo de datos de una sola columna.
Sintaxis
Pyspark_pandas.columna.dtypesDonde la columna es el nombre de la columna
Ejemplo
En este ejemplo, obtendremos los tipos de datos de la columna Student_LastName y Mark1.
Producción
objetoConclusión
En este tutorial Pyspark Pandas DataFrame, vimos diferentes métodos para obtener la información de DataFrame.