Cómo instalar y configurar Apache Hadoop en Ubuntu

Cómo instalar y configurar Apache Hadoop en Ubuntu
Apache Hadoop es una plataforma de software basada en Java, de código abierto y disponible gratuitamente para almacenar y analizar grandes conjuntos de datos en los grupos de su sistema. Mantiene sus datos en el sistema de archivos distribuido (HDFS) de Hadoop y los procesa utilizando MapReduce. Hadoop se ha utilizado en técnicas de aprendizaje automático y minería de datos. También se usa para administrar múltiples servidores dedicados.

Los componentes principales de Apache Hadoop son:

  • HDFS: En Apache Hadoop, HDFS es un sistema de archivos que se distribuye en numerosos nodos.
  • Mapa reducido: Es un marco para desarrollar aplicaciones que manejan una gran cantidad de datos.
  • Hadoop común: Es un conjunto de bibliotecas y utilidades que necesitan los módulos Hadoop.
  • Hilo de hadoop: En Hadoop, Hadoop Yarn administra las capas de recursos.

Ahora, mira los métodos a continuación para Instalar y configurar Apache Hadoop en su sistema Ubuntu. Así que comencemos!

Cómo instalar Apache Hadoop en Ubuntu

En primer lugar, abriremos nuestra terminal Ubuntu presionando "Ctrl+Alt+T", También puedes escribir"Terminal"En la barra de búsqueda de la aplicación de la siguiente manera:

El siguiente paso es actualizar los repositorios del sistema:

$ sudo apt actualización

Ahora instalaremos Java En nuestro sistema Ubuntu escribiendo el siguiente comando en el terminal:

$ sudo apt install OpenJDK-11-JDK

Ingresar "y/y"Para permitir que el proceso de instalación continúe:

Ahora, verifique la existencia del Java instalado controlando su versión:

$ java -versión

Crearemos un usuario separado para ejecutar Apache Hadoop en nuestro sistema utilizando el "agregar usuario" dominio:

$ sudo adduser hadoopuser

Ingrese la contraseña del nuevo usuario, su nombre completo y otra información. Tipo "y/y"Para confirmar que la información proporcionada es correcta:

Es hora de cambiar al usuario actual con el usuario creado de Hadoop, que es "hadopuser" en nuestro caso:

$ su - hadoopuser

Ahora, utilice el comando otorgado para generar pares de claves privadas y públicas:

$ ssh -keygen -t rsa

Ingrese la dirección del archivo donde desea guardar el par de claves. Después de esto, agregue una frase de pases que se usará en toda la configuración del usuario de Hadoop:

A continuación, agregue estos pares de claves al SSH Authorized_Keys:

en ~/.ssh/id_rsa.Pub >> ~/.ssh/autorized_keys

Como hemos almacenado el par de claves generado en la clave autorizada SSH, ahora cambiaremos los permisos de archivo a "640"Lo que significa que solo nosotros como el"dueño"Del archivo tendrá los permisos de lectura y escritura", "grupos"Solo tendrá el permiso de lectura. No se otorgará ningún permiso a "otros usuarios":

$ chmod 640 ~/.ssh/autorized_keys

Ahora autentique el LocalHost escribiendo el siguiente comando:

$ ssh localhost

Utilizar el subtituminado wget Comando para instalar el marco Hadoop para su sistema:

$ wget https: // descargas.apache.org/Hadoop/Common/Hadoop-3.3.0/Hadoop-3.3.0.alquitrán.GZ

Extraiga el descargado "Hadoop-3.3.0.alquitrán.GZArchivo "con el comando TAR:

$ tar -xvzf hadoop -3.3.0.alquitrán.GZ

También puede cambiar el nombre del directorio extraído como lo haremos ejecutando el comando otorgado:

$ mv hadoop-3.3.0 Hadoop

Ahora, configure las variables de entorno Java para configurar Hadoop. Para esto, revisaremos la ubicación de nuestro "Java_home" variable:

$ dirname $ (dirname $ (readlink -f $ (que java)))

Abre el "~/.bashrc"Archivo en su"nano" editor de texto:

$ nano ~/.bashrc

Agregue las siguientes rutas en la apertura "~/.bashrc" archivo:

Exportar java_home =/usr/lib/jvm/java-11-openjdk-amd64
Exportar hadoop_home =/home/hadoopuser/hadoop
Exportar hadoop_install = $ hadoop_home
Exportar hadoop_mapred_home = $ hadoop_home
Exportar hadoop_common_home = $ hadoop_home
Exportar hadoop_hdfs_home = $ hadoop_home
Exportar hadoop_yarn_home = $ hadoop_home
Exportar hadoop_common_lib_native_dir = $ hadoop_home/lib/nativo
exportación ruta = $ ruta: $ hadoop_home/sbin: $ hadoop_home/bin
Exportar hadoop_opts = "-djava.biblioteca.ruta = $ hadoop_home/lib/nativo "

Después de eso, presione "CTRL+O"Para guardar los cambios que realizamos en el archivo:

Ahora, escriba el comando otorgado para activar el "Java_home" Variable ambiental:

$ fuente ~/.bashrc

Lo siguiente que tenemos que hacer es abrir el archivo variable de entorno de Hadoop:

$ nano $ hadoop_home/etc/hadoop/hadoop-env.mierda

Tenemos que establecer nuestro "Java_home"Variable en el entorno Hadoop:

Exportar java_home =/usr/lib/jvm/java-11-openjdk-amd64

De nuevo, presione "CTRL+O"Para guardar el contenido del archivo:

Cómo configurar Apache Hadoop en Ubuntu

Hasta este punto, hemos instalado con éxito Java y Hadoop, creado a los usuarios de Hadoop, autenticación basada en la tecla SSH configurada. Ahora avanzaremos para mostrarte Cómo configurar Apache Hadoop en Ubuntu sistema. Para esto, el paso es crear dos directorios: datanode y namenode, Dentro del directorio de inicio de Hadoop:

$ mkdir -p ~/hadoopdata/hdfs/namenode
$ mkdir -p ~/hadoopdata/hdfs/datanode

Actualizaremos el Hadoop "sitio de núcleo.xml"Archivo agregando nuestro nombre de host, así que en primer lugar, confirme el nombre de host de su sistema ejecutando este comando:

$ Nombre de host

Ahora, abre el "sitio de núcleo.xml"Archivo en su"nano" editor:

$ nano $ hadoop_home/etc/hadoop/core-site.xml

Nuestro nombre de host del sistema en "Linuxhint-vbox", Puede agregar las siguientes líneas con el nombre de host del sistema en el" sitio central abierto.archivo xml ”hadoop:



FS.defaultfs
hdfs: // hadoop.Linuxhint-vbox.com: 9000

Prensa "CTRL+O"Y guarde el archivo:

En el "sitio HDFS.xml"Archivo, cambiaremos la ruta de directorio de"datanode" y "namenode":

$ nano $ hadoop_home/etc/hadoop/hdfs-site.xml


DFS.replicación
1


DFS.nombre.prostituta
Archivo: /// home/hadoopuser/hadoopdata/hdfs/namenode


DFS.datos.prostituta
Archivo: /// home/hadoopuser/hadoopdata/hdfs/datanode

Nuevamente, para escribir el código agregado en el archivo, presione "CRTL+O":

A continuación, abra el "sitio de mapred.xmlArchivo "y agregue el código dado a continuación:

$ nano $ hadoop_home/etc/hadoop/mapred-site.xml


Mapa reducido.estructura.nombre
hilo

Prensa "CTRL+O"Para guardar los cambios que realizó en el archivo:

El último archivo que debe actualizarse es el "hilo.xml". Abra este archivo Hadoop en el "nano" editor:

$ nano $ hadoop_home/etc/hadoop/hilo-sitio.xml

Escriba las líneas a continuación en "hilo.xml" archivo:



hilo.nodo.Aux-Servicios
mapreduce_shuffle

Tenemos que comenzar el clúster de Hadoop para operar Hadoop. Para esto, formatearemos nuestro "namenode" primero:

$ hdfs namenode -format

Ahora comience el clúster Hadoop escribiendo el comando otorgado en su terminal:

$ start-dfs.mierda

En el proceso de iniciar el clúster Hadoop, si obtienes el "Podría resolver el error del nombre de host", Entonces debes especificar el nombre de host en el"/etc/huésped" archivo:

$ sudo nano /etc /anfitriones

Salva el "/etc/huéspedArchivo ", y ahora están todos listos para iniciar el clúster Hadoop:

$ start-dfs.mierda

En el siguiente paso, comenzaremos el "hilo"Servicio de Hadoop:

$ start-yarn.mierda

La ejecución del comando anterior le mostrará la siguiente salida:

Para verificar el estado de todos los servicios de Hadoop, ejecute el "JPS"Comando en su terminal:

$ JPS

La salida muestra que todos los servicios se ejecutan correctamente:

Hadoop escucha en el puerto 8088 y 9870, Por lo tanto, debe permitir estos puertos a través del firewall:

$ Firewall-CMD --Permanent --Add-Port = 9870/TCP
$ Firewall-CMD --Permanent --Add-Port = 8088/TCP

Ahora, vuelva a cargar la configuración del firewall:

$ firewall-cmd--Reload

Ahora, abra su navegador y acceda a su Hadoop "namenode"Al ingresar su dirección IP con el puerto 9870:

Utilizar el puerto "8080"Con su dirección IP para acceder al Hadoop Resource Manager:

En la interfaz web de Hadoop, puede buscar el "Directorio de navegación"Desplorando hacia abajo en la página web abierta de la siguiente manera:

Eso se trataba de instalar y configurar Apache Hadoop en el sistema Ubuntu. Para detener el clúster de Hadoop, debe detener los servicios de "hilo" y "namenode":

$ stop-dfs.mierda
$ stop-yarn.mierda

Conclusión

Para diferentes aplicaciones de big data, Apache Hadoop es una plataforma disponible gratuitamente para administrar, almacenar y procesar datos que operan en servidores clústicos. Es un sistema de archivos distribuido con tolerancia a fallas que permite el procesamiento paralelo. En Hadoop, el modelo MapReduce se utiliza para almacenar y extraer datos de sus nodos. En este artículo, le hemos mostrado el método Para instalar y configurar Apache Hadoop en su sistema Ubuntu.