"En Python, Pyspark es un módulo Spark que proporciona un tipo similar de procesamiento para chispa usando DataFrame, que almacenará los datos dados en formato de fila y columna.
Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.
PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.
Antes de eso, debe instalar el módulo Pyspark."
Dominio
1 | PIP install Pyspark |
Sintaxis para importar:
1 | de Pyspark Import Pandas |
Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.
Sintaxis para crear pandas dataFrame:
1 | pyspark.pandas.Marco de datos() |
Podemos aprobar un diccionario o lista de listas con valores.
Creemos un marco de datos Pandas a través de Pyspark con cuatro columnas y cinco filas.
1 2 3 4 5 6 7 8 9 10 11 12 13 | #Pandas de Import del módulo Pyspark |
Producción:
Ahora, entraremos en nuestro tutorial.
Es posible agregar prefijos y sufijos a una columna en particular o todas las columnas utilizando los métodos add_prefix () y add_suffix (). Discutamos uno por uno.
1 | pyspark.pandas.Marco de datos.add_prefix () |
add_prefix () se usa para agregar una cadena de prefijo a cada columna al comienzo del Pyspark Pandas DataFrame. También es posible agregar un prefijo a una sola columna especificando el nombre de la columna. En este escenario, se agregará a las etiquetas de la fila.
Sintaxis:
Para un marco de datos completo - pyspark_pandas.add_prefix ('string')
Para una columna particular - pyspark_pandas.columna.add_prefix ('string')
Dónde, Pyspark_pandas está el Pyspark Pandas DataFrame.
Parámetro:
Una cadena es un prefijo agregado a la columna al principio.
Ejemplo 1
En este ejemplo, estamos agregando el prefijo: "Linux_hint" a todas las columnas anteriores para crear Pyspark Pandas DataFrame.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #Pandas de Import del módulo Pyspark |
Producción:
Podemos ver que el prefijo se agrega a todas las columnas.
Ejemplo 2
Agregue prefijo a los valores en la columna Mark1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #Pandas de Import del módulo Pyspark |
Producción:
1 2 3 4 5 6 7 8 9 10 11 | Linux_hint0 90 |
Podemos ver que el prefijo se agrega a todos los valores en la columna Mark1.
1 | pyspark.pandas.Marco de datos.add_suffix () |
add_suffix () se usa para agregar una cadena de sufijo a cada columna al final del Pyspark Pandas DataFrame. También es posible agregar un sufijo a una sola columna especificando el nombre de la columna. En este escenario, se agregará a las etiquetas de la fila.
Sintaxis:
Para un marco de datos completo - pyspark_pandas.add_suffix ('string')
Para una columna particular - pyspark_pandas.columna.add_suffix ('string')
Dónde, Pyspark_pandas está el Pyspark Pandas DataFrame.
Parámetro:
Una cadena es un sufijo agregado a la columna al principio.
Ejemplo 1
En este ejemplo, estamos agregando el sufijo: "Linux_hint" a todas las columnas anteriores para crear el Pyspark Pandas DataFrame.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #Pandas de Import del módulo Pyspark |
Producción:
Podemos ver que el sufijo se agrega a todas las columnas.
Ejemplo 2
Agregue sufijo a los valores en la columna Mark1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #Pandas de Import del módulo Pyspark |
Producción:
1 2 3 4 5 6 7 8 9 10 11 | 0linux_hint 90 |
Podemos ver que el sufijo se agrega a todos los valores en la columna Mark1.
Conclusión
En este tutorial de Pyspark Pandas, vimos cómo agregar un prefijo usando add_prefix () y sufijo usando add_suffix () al Pyspark Pandas DataFrame. Se agregará a los nombres de la columna cuando especifiquemos todo el marco de datos. Si aplicamos los métodos anteriores a una columna en particular, el prefijo/sufijo se agregará a las posiciones de fila.