Instale Apache Spark en Windows Top 10

Instale Apache Spark en Windows Top 10
Mientras trabajan con datos de programación, generalmente es bastante difícil para los desarrolladores web procesar una cantidad tan grande de datos. Junto con eso, a veces tiende a trabajar en diferentes lenguajes de programación simultáneamente para diseñar su sistema. En tales situaciones, es posible que deba pasar por una inmensa cantidad de código y procesarlo. Por lo tanto, necesitamos un sistema para procesar nuestra carga de trabajo sin pasar por todo el proceso de todo el sistema. Apache Spark nos brinda la oportunidad de trabajar con muchos idiomas a la vez, como Java, R, Python y Scala. Además, oculta el procesamiento complejo y nos permite trabajar con menos códigos. Esta guía lo ayudará a instalar el tiburón Apache en Windows 11.

Instalar Java:

Comenzando con el lanzamiento de su navegador más utilizado, descargue e instale la última versión de Java. Para esto, busque el sitio oficial "Java" y enruta a su página de descarga. De la página a continuación, descargue la última versión de Java de acuerdo con las especificaciones de su sistema.

Ejecute el archivo "JRE" descargado usando la opción "Ejecutar como administrador". Después de ejecutar este archivo "JRE" descargado, se le presentará una nueva ventana que se muestra a continuación. Debe asentir al contrato de licencia de Java para instalarlo. Entonces, toque el botón "Instalar" para continuar.

La configuración de instalación de Java comenzará a instalarla en nuestro sistema operativo Windows 11.

Después de completar la instalación de Java, presione el botón "Cerrar" para cerrar la ventana.

Al verificar la versión de Java en el símbolo del sistema, verá la versión de Java instalada en nuestro sistema en la primera línea de la salida del comando "-versión".

Instalar python:

Es hora de instalar la última versión de Python en nuestro sistema operativo Windows 11. Sin Python, nuestro Apache Spark podría no funcionar. Por lo tanto, vaya al sitio web oficial de Python usando su navegador y navegue hacia su página de descarga. Se le mostrará el lanzamiento más reciente de Python. Toque el enlace recomendado para descargarlo en su sistema, yo.E, Windows 11.

Ejecute el archivo EXE "Python" descargado y espere hasta que comience la progresión de la instalación.

Aparecería la ventana de instalación de Python, que nos muestra la información sobre su instalación. Debe usar la opción "Instalar ahora" en las opciones disponibles. No marque el "Agregar python 3.Casilla de verificación de 20 a ruta ”. La instalación se iniciaría después de eso.

Después de un tiempo, el Python se instalará correctamente y puede cerrar la ventana de instalación que se muestra a continuación utilizando el botón "Cerrar" en la parte inferior derecha.

Usando el comando de versión para Python en el símbolo del sistema, verá la versión instalada de Python, I.mi., Python 3.10.6.

Descargar chispa:

Después de las instalaciones exitosas de Java y Python, nuestro sistema ahora está listo para instalar Spark. Para esto, descarte primero desde su sitio web oficial. Asegúrese de seleccionar la última versión y la opción "Pre-construido para Apache Hadoop 3.3 y alterar "de la lista desplegable y solo haga clic en el archivo" TGZ "frente a la tercera línea, i.mi., "Descargar chispa".

Será redirigido a otra página donde puede seleccionar el archivo de espejo para Spark según su elección. Le recomendamos que use el primer enlace proporcionado en la imagen a continuación.

Ahora que se ha descargado el archivo Spark "TGZ", es hora de usarlo para la instalación.

Verificar el archivo Spark:

Para verificar la confiabilidad de su software descargado, debe utilizar el comando shows-below certutil. Asegurará la integridad del archivo utilizando su suma de verificación desde la opción "SUMS de verificación" en la línea 4 de la página de descarga. Debe proporcionar la ruta de su archivo en este comando con la opción "-hashfile". La salida muestra su suma de verificación junto con el mensaje de finalización exitoso para este comando. Puede confirmarlo visitando la página de descarga.

Instalar Apache Spark:

Después de esto, debe crear una nueva carpeta para una chispa en su carpeta de raíz donde tiende a instalar el sistema operativo y otros también, yo.mi., Drive "C". Entonces, use la instrucción "Mkdir" para crear una carpeta de "chispa" dentro de ella.

Ahora, abra su unidad C y navegue dentro de la carpeta "Spark". Tienes que extraer el archivo zip "spark" descargado dentro de él como se muestra en la imagen.

Agregar winutils.Archivo EXE:

Abra la página GitHub usando la "ruta" desde la imagen a continuación y toque "Winutils.exe". Aparecería otra pantalla, y tienes que golpear el botón "Descargar" para obtenerla.

Debe crear la carpeta "Hadoop" en la unidad "C" y crear una carpeta "Bin" dentro de ella a través de la consulta MKDIR.

Coloque el descargado "Winutils.Exe "Archivo dentro de la carpeta" Hadoop \ bin "recién creada.

Configurar variables de entorno para Spark:

Es hora de agregar chispa, hadoop y java a nuestras variables de entorno. Por lo tanto, busque la palabra clave "entorno" en la barra de búsqueda y toque la herramienta "editar las variables de entorno del sistema" que acaba de aparecer en su pantalla.

La ventana llamada "Propiedades del sistema" se abrirá en su pantalla. Desde su sección a continuación, presione el botón "Variables de entorno ..." para continuar.

Puede ver todas las variables de su sistema enumeradas allí. Toque el botón "Nuevo" para generar un entorno fresco mutable para "chispa" primero.

Un diálogo con "Editar variable de usuario" aparecerá en un momento y debe nombrar una variable "Spark_home" con la ruta de la carpeta Spark como valor variable, I.mi., "C: \ Spark \ Spark-3.3.0-bin-hadoop3 ". Haga clic en el botón "Aceptar" establecerá una nueva variable de entorno en un sistema.

Verá una variable llamada "Spark_Home" en la sección Variables de usuario. Toque la variable llamada "ruta" y aplasta el botón "Editar".

Se abrirá una pantalla "Editar variable de entorno". Presione el botón "Nuevo" para agregar la ruta de la variable. Considere usar el nombre de la variable %Spark_Home %"con la carpeta" \ bin ".

Del mismo modo, cree una nueva variable para "Hadoop".

Luego, cree una nueva variable para "Java" también y toque "OK".

De la misma manera, toque la variable "ruta" y agregue una ruta para las variables "Java" y "Hadoop" que acabamos de crear i.mi. Usando los nombres de variables "%hadoop_home%" y "%java_home%" con la carpeta "\ bin" como se muestra en la pantalla a continuación.

Ahora, inicie su aplicación "CMD" como "Administrador" mediante el uso de la elección "Ejecutar como administrador". Agregue la ruta de comando a continuación en su área de consulta con la "Sparkshell" para ver si la chispa se configura con éxito o no. Se abrirá una nueva ventana de flujo de información, y debe usar el botón "Permitir" para dar acceso. Si su símbolo del sistema muestra el logotipo de diseño "Spark" junto con su versión instalada, entonces la chispa está completamente configurada y lista para usar.

C: \ Spark \ Spark-3.3.0-bin-hadoop3 \ bin \ sparkshell

Abra su navegador preferido e ingrese la ruta "Localhost: 4040/Jobs/" en él. Aparecerá la interfaz de usuario web de Apache Spark, mostrando el resumen de los eventos de su sistema.

Conclusión:

Después de pasar por esta guía, podrá usar Apache Spark en su sistema operativo Windows 11, ya que hemos implementado cada parte de la configuración necesaria para configurar Apache Spark. Para asegurarse de que su Apache Spark funcione bien al final, no debe dejar un solo paso mencionado anteriormente en la guía, comenzando desde la instalación de Java, Python, Spark, agregando los Winutils.exe archivo y la parte más importante de configurar las variables de entorno.