Instalación de Apache Spark en Ubuntu

Instalación de Apache Spark en Ubuntu
Apache-Spark es un marco de código abierto para el procesamiento de big data, utilizado por científicos e ingenieros de datos profesionales para realizar acciones en grandes cantidades de datos. Como el procesamiento de grandes cantidades de datos necesita un procesamiento rápido, la máquina/paquete de procesamiento debe ser eficiente para hacerlo. Spark utiliza el programador DAG, el almacenamiento en caché de memoria y la ejecución de consultas para procesar los datos lo más rápido posible y, por lo tanto, para un gran manejo de datos.

La estructura de datos de Spark se basa en RDD (acrónimo de conjunto de datos distribuido resiliente); RDD consiste en una colección distribuida inmutable de objetos; Estos conjuntos de datos pueden contener cualquier tipo de objetos relacionados con Python, Java, Scala y también pueden contener las clases definidas por el usuario. El amplio uso de Apache-Spark se debe a su mecanismo de trabajo que sigue:

El Apache Spark funciona en fenómenos maestros y esclavos; Después de este patrón, un coordinador central en Spark se conoce como "conductor"(Actúa como maestro) y sus trabajadores distribuidos son nombrados como" ejecutores "(actúa como esclavo). Y el tercer componente principal de Spark es "Cluster Manager"; Como el nombre indica, es un gerente que administra ejecutores y conductores. Los ejecutores son lanzados por "Cluster Manager"Y en algunos casos, los conductores también son lanzados por este gerente de Spark. Por último, el gerente incorporado de Spark es responsable de lanzar cualquier aplicación de Spark en las máquinas: Apache-Spark consiste en una serie de características notables que son necesarias para discutir aquí para resaltar el hecho de que se usan en un gran procesamiento de datos? Entonces, las características de Apache-Spark se describen a continuación:

Características

Aquí hay algunas características distintivas que hacen que Apache-Spark sea una mejor opción que sus competidores:

Velocidad: Como se discutió anteriormente, utiliza DAG Scheduler (programa los trabajos y determina la ubicación adecuada para cada tarea), la ejecución de consultas y las bibliotecas de apoyo para realizar cualquier tarea de manera efectiva y rápida.

Soporte de lenguaje múltiple: La característica de varios idiomas de Apache-Spark permite a los desarrolladores crear aplicaciones basadas en Java, Python, R y Scala.

Procesamiento en tiempo real: En lugar de procesar datos almacenados, los usuarios pueden procesar los resultados mediante el procesamiento de datos en tiempo real y, por lo tanto, produce resultados instantáneos.

Mejor análisis: Para Analytics, Spark utiliza una variedad de bibliotecas para proporcionar análisis como algoritmos de aprendizaje automático, consultas SQL, etc. Sin embargo, su competidor Apache-Mapreduce solo usa MAP y reduce las funciones para proporcionar análisis; Esta diferenciación analítica también indica por qué Spark supera a MapReduce.

Enfocando la importancia y las características sorprendentes de Apache Spark; Nuestra escritura de hoy allanará el camino para instalar Apache Spark en su Ubuntu

Cómo instalar Apache Spark en Ubuntu

Esta sección lo guiará para instalar Apache Spark en Ubuntu:

Paso 1: actualice el sistema e instale Java

Antes de obtener una idea de la parte central de la instalación; Actualicemos el sistema utilizando el comando mencionado a continuación:

$ sudo apt actualización

Después de la actualización, el comando escrito a continuación instalará el entorno Java ya que Apache-Spark es una aplicación basada en Java:

$ sudo apt instalación predeterminado-jdk

Paso 2: descargue el archivo apache spark y extraiga

Una vez que el Java se instala correctamente, está listo para descargar el archivo Apache Spark desde la web y el siguiente comando descargará los últimos 3.0.3 Build of Spark:

$ wget https: // Archive.apache.org/Dist/Spark/Spark-3.0.3/Spark-3.0.3-bin-hadoop2.7.tgz

Debe extraer el archivo descargado así; El siguiente comando realizará la extracción (en mi caso):

$ Tar XVF Spark-3.0.3-bin-hadoop2.7.tgz

Después de eso, mueva la carpeta extraída a "/optar/"Directorio siguiendo el comando mencionado a continuación:

$ sudo MV Spark-3.0.3-bin-hadoop2.7//opt/chispa

Una vez que haya completado los procesos anteriores, significa que ha terminado con la descarga de Apache Spark, pero espera; No funcionará hasta que configure el entorno Spark, las próximas secciones lo guiarán para configurar y usar Spark:

Cómo configurar el entorno Spark

Para esto, debe establecer algunas variables de entorno en el archivo de configuración "~/.perfil";

Acceda a este archivo utilizando su editor (Nano en mi caso), el comando escrito a continuación abrirá este archivo en el editor nano:

$ sudo nano ~/.perfil

Y escriba las siguientes líneas al final de este archivo; Una vez que haya terminado, presione "Ctrl+S"Para guardar el archivo:

Exportar Spark_Home =/Opt/Spark
exportación ruta = $ ruta: $ spark_home/bin: $ spark_home/sbin
Exportar pyspark_python =/usr/bin/python3

Cargue el archivo para obtener los cambios para el entorno Spark:

$ fuente ~/.perfil

Cómo iniciar el servidor maestro independiente de Spark

Una vez que se establecen las variables de entorno; Ahora puede iniciar el proceso para el servidor maestro independiente utilizando el comando escrito a continuación:

$ Start-Master.mierda

Una vez que haya comenzado el proceso; La interfaz web de Master Server se puede obtener utilizando la dirección mencionada a continuación; Escriba la siguiente dirección en la barra de direcciones de su navegador

https: // localhost: 8080/

Cómo iniciar el servidor de esclavos/trabajadores de Spark

El servidor de esclavos se puede iniciar utilizando el comando establecido a continuación: se nota que necesita URL de Master Server para iniciar el trabajador:

$ start-slave.SH Spark: // Adnan: 7077

Una vez que hayas comenzado; Ejecute la dirección (https: // localhost: 8080) y notará que hay un trabajador agregado "Trabajadores" sección. Se nota que el trabajador está utilizando el núcleo de procesador "1" y 3.3GB de RAM por defecto:

Por ejemplo, limitaremos el número de núcleos de los trabajadores utilizando el indicador "-c": por ejemplo, el comando mencionado a continuación iniciará un servidor con núcleos "0" de uso del procesador:

$ start-slave.sh -c 0 chispa: // adnan: 7077

Puede ver los cambios recargando la página (https: // localhost: 8080/)

Además, también puede limitar la memoria de los nuevos trabajadores usando "-metro"Bandera: el comando escrito a continuación iniciará un esclavo con un uso de memoria de 256 MB:

$ start-slave.SH -M 256M Spark: // Adnan: 7077

El trabajador agregado con memoria limitada es visible en la interfaz web (https: // localhost: 8080/)

Cómo comenzar/detener el maestro y el esclavo

Puede detener o estrellas maestro y esclavo a la vez usando el comando mencionado a continuación:

$ Start-All.mierda

Del mismo modo, el comando indicado a continuación detendrá todas las instancias a la vez:

$ stop-thol.mierda

Para comenzar y detener solo la instancia maestra, use los siguientes comandos:

$ Start-Master.mierda

Y para detener al maestro de carrera:

$ stop-master.mierda

Cómo ejecutar Spark Shell

Una vez que haya terminado con la configuración del entorno Spark; Puede usar el comando mencionado a continuación para ejecutar el shell Spark; Por este medio también se prueba:

$ Spark-Shell

Cómo ejecutar Python en Spark Shell

Si el shell shell se está ejecutando en su sistema, puede ejecutar Python en este entorno; Ejecute el siguiente comando para obtener esto:

$ Pyspark

Nota: El comando anterior no funcionará si está trabajando con Scala (lenguaje predeterminado en Spark Shell), puede salir de esto escribiendo ": Q"Y presionando"Ingresar"O simplemente presione"Ctrl+C".

Conclusión

Apache Spark es un motor de análisis unificado de código abierto que se utiliza para el procesamiento de big data utilizando varias bibliotecas y utilizado principalmente por ingenieros de datos y otros que tienen que trabajar en grandes cantidades de datos. En este artículo, hemos proporcionado una guía de instalación de Apache-Spark; así como la configuración del entorno Spark también se describe en detalle. La adición de trabajadores con números o núcleos limitados y memoria especificada sería útil para guardar recursos mientras trabaja con Spark.