Pyspark - Pandas Dataframe add_prefix y add_suffix

Pyspark - Pandas Dataframe add_prefix y add_suffix

"En Python, Pyspark es un módulo Spark que proporciona un tipo similar de procesamiento para chispa usando DataFrame, que almacenará los datos dados en formato de fila y columna.

Pyspark: Pandas DataFrame representa el Pandas DataFrame, pero contiene el Pyspark DataFrame internamente.

PANDAS Support de la estructura de datos del marco de datos, y los pandas se importan desde el módulo Pyspark.

Antes de eso, debe instalar el módulo Pyspark."

Dominio

1
PIP install Pyspark

Sintaxis para importar:

1
de Pyspark Import Pandas

Después de eso, podemos crear o usar DataFrame desde el módulo Pandas.

Sintaxis para crear pandas dataFrame:

1
pyspark.pandas.Marco de datos()

Podemos aprobar un diccionario o lista de listas con valores.

Creemos un marco de datos Pandas a través de Pyspark con cuatro columnas y cinco filas.

1
2
3
4
5
6
7
8
9
10
11
12
13
#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Imprimir (pyspark_pandas)

Producción:

Ahora, entraremos en nuestro tutorial.

Es posible agregar prefijos y sufijos a una columna en particular o todas las columnas utilizando los métodos add_prefix () y add_suffix (). Discutamos uno por uno.

1
pyspark.pandas.Marco de datos.add_prefix ()

add_prefix () se usa para agregar una cadena de prefijo a cada columna al comienzo del Pyspark Pandas DataFrame. También es posible agregar un prefijo a una sola columna especificando el nombre de la columna. En este escenario, se agregará a las etiquetas de la fila.

Sintaxis:

Para un marco de datos completo - pyspark_pandas.add_prefix ('string')

Para una columna particular - pyspark_pandas.columna.add_prefix ('string')

Dónde, Pyspark_pandas está el Pyspark Pandas DataFrame.

Parámetro:

Una cadena es un prefijo agregado a la columna al principio.

Ejemplo 1

En este ejemplo, estamos agregando el prefijo: "Linux_hint" a todas las columnas anteriores para crear Pyspark Pandas DataFrame.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add el prefijo - 'linux_hint' a todo el marco de datos
Imprimir (Pyspark_Pandas.add_prefix ('linux_hint'))

Producción:

Podemos ver que el prefijo se agrega a todas las columnas.

Ejemplo 2

Agregue prefijo a los valores en la columna Mark1.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add el prefijo - 'linux_hint' a los valores de la columna Mark1
Imprimir (Pyspark_Pandas.marca.add_prefix ('linux_hint'))

Producción:

1
2
3
4
5
6
7
8
9
10
11
Linux_hint0 90
Linux_hint1 56
Linux_hint2 78
Linux_hint3 54
Linux_hint4 67
Nombre: Mark1, dtype: int64

Podemos ver que el prefijo se agrega a todos los valores en la columna Mark1.

1
pyspark.pandas.Marco de datos.add_suffix ()

add_suffix () se usa para agregar una cadena de sufijo a cada columna al final del Pyspark Pandas DataFrame. También es posible agregar un sufijo a una sola columna especificando el nombre de la columna. En este escenario, se agregará a las etiquetas de la fila.

Sintaxis:

Para un marco de datos completo - pyspark_pandas.add_suffix ('string')

Para una columna particular - pyspark_pandas.columna.add_suffix ('string')

Dónde, Pyspark_pandas está el Pyspark Pandas DataFrame.

Parámetro:

Una cadena es un sufijo agregado a la columna al principio.

Ejemplo 1

En este ejemplo, estamos agregando el sufijo: "Linux_hint" a todas las columnas anteriores para crear el Pyspark Pandas DataFrame.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add el sufijo - 'linux_hint' a todo el marco de datos
Imprimir (Pyspark_Pandas.add_suffix ('linux_hint'))

Producción:

Podemos ver que el sufijo se agrega a todas las columnas.

Ejemplo 2

Agregue sufijo a los valores en la columna Mark1.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#Pandas de Import del módulo Pyspark
de Pyspark Import Pandas
#Cree DataFrame de Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [[ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add el sufijo - 'linux_hint' a los valores de la columna Mark1
Imprimir (Pyspark_Pandas.marca.add_suffix ('linux_hint'))

Producción:

1
2
3
4
5
6
7
8
9
10
11
0linux_hint 90
1Linux_Hint 56
2linux_hint 78
3linux_hint 54
4Linux_Hint 67
Nombre: Mark1, dtype: int64

Podemos ver que el sufijo se agrega a todos los valores en la columna Mark1.

Conclusión

En este tutorial de Pyspark Pandas, vimos cómo agregar un prefijo usando add_prefix () y sufijo usando add_suffix () al Pyspark Pandas DataFrame. Se agregará a los nombres de la columna cuando especifiquemos todo el marco de datos. Si aplicamos los métodos anteriores a una columna en particular, el prefijo/sufijo se agregará a las posiciones de fila.