Aprenderemos sobre la Biblioteca Pyspark en esta sesión. Es un motor de procesamiento distribuido de uso general, en memoria y distribuido que le permite administrar de manera efectiva los datos en varias estaciones de trabajo. También aprenderemos sobre el método pyspark fillna () que se utiliza para llenar los valores nulos en el marco de datos con un valor personalizado, junto con sus ejemplos.
Que es pyspark?
Pyspark es uno de los idiomas compatibles con Spark. Spark es una gran tecnología de procesamiento de datos que puede manejar datos en una escala de petabyte. Pyspark es una cooperación de Apache Spark y Python. Python es un lenguaje de programación de alto nivel moderno, mientras que Apache Spark es un código abierto que se centra en las tareas computacionales de los clústeres y se dirige principalmente a la velocidad, la facilidad de uso y el análisis de transmisión. Debido a que Spark está construido principalmente en Scala, crear aplicaciones de chispa en Scala o Java le permite acceder a más de sus capacidades que escribir programas Spark en Python o R. Pyspark, por ejemplo, actualmente no admite el conjunto de datos. Puede desarrollar aplicaciones Spark para procesar datos y iniciarlos en la plataforma Spark utilizando Pyspark. El AWS ofrece el EMR administrado y la plataforma Spark.
Si está haciendo una ciencia de datos, Pyspark es una mejor opción que Scala porque hay muchas bibliotecas populares de ciencias de datos escritas en Python, como Numpy, TensorFlow y Scikit-Learn. Puede usar Pyspark para procesar los datos y establecer un clúster EMR en AWS. Pyspark puede leer los datos de una variedad de formatos de archivo que incluyen CSV, Parquet, JSON, así como bases de datos. Para conjuntos de datos más pequeños, se utiliza pandas, mientras que para conjuntos de datos más grandes, se emplea Pyspark. En comparación con Pyspark, Pandas da resultados más rápidos. Dependiendo de la disponibilidad de memoria y el tamaño de los datos, puede cambiar entre Pyspark y Pandas para mejorar el rendimiento. Use siempre pandas sobre Pyspark cuando los datos a procesar es suficiente para la memoria. Spark se ha convertido rápidamente en la tecnología preferida de la industria para el procesamiento de datos. Sin embargo, no es el primero. Antes de Spark, el motor de procesamiento era MapReduce.
¿Qué es Pyspark Fillna ()??
Pyspark Fillna () es un método Pyspark utilizado para reemplazar los valores nulos en una sola o muchas columnas en un modelo de cuadro de datos de Pyspark. Dependiendo de los requisitos comerciales, este valor podría ser cualquier cosa. Puede ser 0 o una cadena vacía y cualquier literal constante. Este método Fillna () es útil para el análisis de datos, ya que elimina los valores nulos que pueden causar dificultades con el análisis de datos.
Ejemplo de usar Fillna ()
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 dieciséis | de Pyspark.SQL Import Sparksession Spark_session = Sparksession.constructor \ .maestro ('local [1]') \ .AppName ('Ejemplo') \ .getorcreate () df = Spark_Session.creatataframe ( [ (1, 'Canadá', 'Toronto', ninguno), (2, 'Japón', 'Tokio', 8000000), (3, 'India', 'Amritsar', ninguno), (4, 'Turquía', 'Ankara', 550000), ], ['id', 'país', 'ciudad', 'población'] ) df.espectáculo() |
Producción:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | +---+---------+--------------+-----------+ | ID | País | ciudad | Población | +---+---------+--------------+-----------+ | 1 | Canadá | Toronto | NULL | | 2 | Japón | Tokio | 8000000 | | 3 | India | Amritsar | NULL | | 4 | Turquía | Ankara | 550000 | +---+---------+--------------+-----------+ |
Ahora podemos usar simplemente el argumento de valor para reemplazar todos los valores nulos en un marcado de datos:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 dieciséis 17 18 19 20 21 | df.n / A.relleno (valor = 0).espectáculo() df.n / A.relleno (valor = 0, subconjunto = ["población"]).espectáculo() df.Fillna (valor = 0).espectáculo() +---+---------+--------------+-----------+ | ID | País | ciudad | Población | +---+---------+--------------+-----------+ | 1 | Canadá | Toronto | 0 | | 2 | Japón | Tokio | 8000000 | | 3 | India | Amritsar | 0 | | 4 | Turquía | Ankara | 550000 | +---+---------+--------------+-----------+ |
La operación anterior reemplazará todos los valores nulos en las columnas enteras con 0.
Conclusión
Discutimos el método Pyspark, Pyspark Fillna () y sus ejemplos en esta sesión. El método fillna () reemplaza todos los valores nulos en el marco de datos con nuestros valores personalizados.