Introducción de Pyspark

Introducción de Pyspark
Los datos aumentan día a día. Necesitamos una gran cantidad de memoria para almacenar y procesar estos datos. Esto debería ser eficiente y fácil de administrar. Entonces la tecnología de big data entró en la imagen al proporcionar chispa.

Spark es una poderosa herramienta de procesamiento de datos utilizada para almacenar y procesar datos de manera efectiva y eficiente. Fue introducido por el equipo de Apache y también se conoce como Apache Spark.

Podemos relacionar los datos en un formato tabular. Entonces la estructura de datos utilizada es DataFrame. De todos modos, Spark admitirá lenguajes de programación de Java, Scala y Python. Usaremos Spark en el lenguaje de programación de Python a partir de ahora.

Podemos llamarlo como Pyspark. En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo de procesamiento similar utilizando DataFrame.

Instalación

Pero solo necesitamos es instalar Pyspark en nuestro sistema. Para instalar cualquier módulo, tenemos que usar el comando PIP en Python. Y la sintaxis es la siguiente.

Sintaxis:

PIP install Pyspark

Antes de usar este Pyspark, tenemos que importar este módulo en nuestra organización, y nuestros datos requerirán una aplicación Spark. Así que importemos este módulo y creemos una aplicación.

Podemos crear una aplicación usando SparkSession importando esta clase desde el Pyspark.módulo SQL.

Esto creará una sesión para nuestra aplicación.

Ahora, cree la aplicación Spark a partir de esta sesión. Podemos crear la aplicación Spark usando el método getorcreate ()

Sintaxis:

Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()

Es hora de crear una excelente estructura de datos conocida como un marco de datos que almacena los datos dados en formato de fila y columna.

En Pyspark, podemos crear un Método DataFrame desde la aplicación Spark con el método CreateATATAFRame ()

Sintaxis:

Spark_app.creatataFrame (input_data, columnas)

Donde input_data tal vez un diccionario o una lista para crear un marco de datos a partir de estos datos, y si el input_data es una lista de diccionarios, entonces las columnas no son necesarias; Si es una lista anidada, tenemos que proporcionar los nombres de la columna.

Creemos el Pyspark DataFrame

Código:

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# marco de datos
df.espectáculo()

Producción

En el código anterior, creamos el diccionario con 5 filas y 6 columnas y pasamos este diccionario al método createATATAFRame () para generar DataFrame. Finalmente, estamos mostrando DataFrame con el método show (). Este método mostrará el marco de datos en un formato tabular.

Mostrar las columnas en Pyspark DataFrame.

Podemos obtener los nombres de la columna en un formato de lista utilizando el método de columnas.

Sintaxis:

marco de datos.columnas

Ejemplo 2:

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = ['Rollno': '001', 'Nombre': 'Sravan', 'Age': 23, 'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# columnas de marco de datos
df.columnas

Producción:

['Dirección', 'edad', 'altura', 'nombre', 'rollno', 'peso']

Conclusión

En este artículo, discutimos cómo crear Pyspark DataFrame junto con la instalación y cómo podemos obtener las columnas en el marco de datos. Y utilizamos el método show () para mostrar el marco de datos en formato tabular.