Spark es una poderosa herramienta de procesamiento de datos utilizada para almacenar y procesar datos de manera efectiva y eficiente. Fue introducido por el equipo de Apache y también se conoce como Apache Spark.
Podemos relacionar los datos en un formato tabular. Entonces la estructura de datos utilizada es DataFrame. De todos modos, Spark admitirá lenguajes de programación de Java, Scala y Python. Usaremos Spark en el lenguaje de programación de Python a partir de ahora.
Podemos llamarlo como Pyspark. En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo de procesamiento similar utilizando DataFrame.
Instalación
Pero solo necesitamos es instalar Pyspark en nuestro sistema. Para instalar cualquier módulo, tenemos que usar el comando PIP en Python. Y la sintaxis es la siguiente.
Sintaxis:
PIP install PysparkAntes de usar este Pyspark, tenemos que importar este módulo en nuestra organización, y nuestros datos requerirán una aplicación Spark. Así que importemos este módulo y creemos una aplicación.
Podemos crear una aplicación usando SparkSession importando esta clase desde el Pyspark.módulo SQL.
Esto creará una sesión para nuestra aplicación.
Ahora, cree la aplicación Spark a partir de esta sesión. Podemos crear la aplicación Spark usando el método getorcreate ()
Sintaxis:
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()Es hora de crear una excelente estructura de datos conocida como un marco de datos que almacena los datos dados en formato de fila y columna.
En Pyspark, podemos crear un Método DataFrame desde la aplicación Spark con el método CreateATATAFRame ()
Sintaxis:
Spark_app.creatataFrame (input_data, columnas)Donde input_data tal vez un diccionario o una lista para crear un marco de datos a partir de estos datos, y si el input_data es una lista de diccionarios, entonces las columnas no son necesarias; Si es una lista anidada, tenemos que proporcionar los nombres de la columna.
Creemos el Pyspark DataFrame
Código:
#Importa el módulo pyspaprkProducción
En el código anterior, creamos el diccionario con 5 filas y 6 columnas y pasamos este diccionario al método createATATAFRame () para generar DataFrame. Finalmente, estamos mostrando DataFrame con el método show (). Este método mostrará el marco de datos en un formato tabular.
Mostrar las columnas en Pyspark DataFrame.
Podemos obtener los nombres de la columna en un formato de lista utilizando el método de columnas.
Sintaxis:
marco de datos.columnasEjemplo 2:
#Importa el módulo pyspaprkProducción:
['Dirección', 'edad', 'altura', 'nombre', 'rollno', 'peso']Conclusión
En este artículo, discutimos cómo crear Pyspark DataFrame junto con la instalación y cómo podemos obtener las columnas en el marco de datos. Y utilizamos el método show () para mostrar el marco de datos en formato tabular.