Los componentes principales de Apache Hadoop son:
Ahora, mira los métodos a continuación para Instalar y configurar Apache Hadoop en su sistema Ubuntu. Así que comencemos!
Cómo instalar Apache Hadoop en Ubuntu
En primer lugar, abriremos nuestra terminal Ubuntu presionando "Ctrl+Alt+T", También puedes escribir"Terminal"En la barra de búsqueda de la aplicación de la siguiente manera:
El siguiente paso es actualizar los repositorios del sistema:
$ sudo apt actualización
Ahora instalaremos Java En nuestro sistema Ubuntu escribiendo el siguiente comando en el terminal:
$ sudo apt install OpenJDK-11-JDK
Ingresar "y/y"Para permitir que el proceso de instalación continúe:
Ahora, verifique la existencia del Java instalado controlando su versión:
$ java -versión
Crearemos un usuario separado para ejecutar Apache Hadoop en nuestro sistema utilizando el "agregar usuario" dominio:
$ sudo adduser hadoopuser
Ingrese la contraseña del nuevo usuario, su nombre completo y otra información. Tipo "y/y"Para confirmar que la información proporcionada es correcta:
Es hora de cambiar al usuario actual con el usuario creado de Hadoop, que es "hadopuser" en nuestro caso:
$ su - hadoopuser
Ahora, utilice el comando otorgado para generar pares de claves privadas y públicas:
$ ssh -keygen -t rsa
Ingrese la dirección del archivo donde desea guardar el par de claves. Después de esto, agregue una frase de pases que se usará en toda la configuración del usuario de Hadoop:
A continuación, agregue estos pares de claves al SSH Authorized_Keys:
en ~/.ssh/id_rsa.Pub >> ~/.ssh/autorized_keys
Como hemos almacenado el par de claves generado en la clave autorizada SSH, ahora cambiaremos los permisos de archivo a "640"Lo que significa que solo nosotros como el"dueño"Del archivo tendrá los permisos de lectura y escritura", "grupos"Solo tendrá el permiso de lectura. No se otorgará ningún permiso a "otros usuarios":
$ chmod 640 ~/.ssh/autorized_keys
Ahora autentique el LocalHost escribiendo el siguiente comando:
$ ssh localhost
Utilizar el subtituminado wget Comando para instalar el marco Hadoop para su sistema:
$ wget https: // descargas.apache.org/Hadoop/Common/Hadoop-3.3.0/Hadoop-3.3.0.alquitrán.GZ
Extraiga el descargado "Hadoop-3.3.0.alquitrán.GZArchivo "con el comando TAR:
$ tar -xvzf hadoop -3.3.0.alquitrán.GZ
También puede cambiar el nombre del directorio extraído como lo haremos ejecutando el comando otorgado:
$ mv hadoop-3.3.0 Hadoop
Ahora, configure las variables de entorno Java para configurar Hadoop. Para esto, revisaremos la ubicación de nuestro "Java_home" variable:
$ dirname $ (dirname $ (readlink -f $ (que java)))
Abre el "~/.bashrc"Archivo en su"nano" editor de texto:
$ nano ~/.bashrc
Agregue las siguientes rutas en la apertura "~/.bashrc" archivo:
Exportar java_home =/usr/lib/jvm/java-11-openjdk-amd64
Exportar hadoop_home =/home/hadoopuser/hadoop
Exportar hadoop_install = $ hadoop_home
Exportar hadoop_mapred_home = $ hadoop_home
Exportar hadoop_common_home = $ hadoop_home
Exportar hadoop_hdfs_home = $ hadoop_home
Exportar hadoop_yarn_home = $ hadoop_home
Exportar hadoop_common_lib_native_dir = $ hadoop_home/lib/nativo
exportación ruta = $ ruta: $ hadoop_home/sbin: $ hadoop_home/bin
Exportar hadoop_opts = "-djava.biblioteca.ruta = $ hadoop_home/lib/nativo "
Después de eso, presione "CTRL+O"Para guardar los cambios que realizamos en el archivo:
Ahora, escriba el comando otorgado para activar el "Java_home" Variable ambiental:
$ fuente ~/.bashrc
Lo siguiente que tenemos que hacer es abrir el archivo variable de entorno de Hadoop:
$ nano $ hadoop_home/etc/hadoop/hadoop-env.mierda
Tenemos que establecer nuestro "Java_home"Variable en el entorno Hadoop:
Exportar java_home =/usr/lib/jvm/java-11-openjdk-amd64
De nuevo, presione "CTRL+O"Para guardar el contenido del archivo:
Cómo configurar Apache Hadoop en Ubuntu
Hasta este punto, hemos instalado con éxito Java y Hadoop, creado a los usuarios de Hadoop, autenticación basada en la tecla SSH configurada. Ahora avanzaremos para mostrarte Cómo configurar Apache Hadoop en Ubuntu sistema. Para esto, el paso es crear dos directorios: datanode y namenode, Dentro del directorio de inicio de Hadoop:
$ mkdir -p ~/hadoopdata/hdfs/namenode
$ mkdir -p ~/hadoopdata/hdfs/datanode
Actualizaremos el Hadoop "sitio de núcleo.xml"Archivo agregando nuestro nombre de host, así que en primer lugar, confirme el nombre de host de su sistema ejecutando este comando:
$ Nombre de host
Ahora, abre el "sitio de núcleo.xml"Archivo en su"nano" editor:
$ nano $ hadoop_home/etc/hadoop/core-site.xml
Nuestro nombre de host del sistema en "Linuxhint-vbox", Puede agregar las siguientes líneas con el nombre de host del sistema en el" sitio central abierto.archivo xml ”hadoop:
FS.defaultfs hdfs: // hadoop.Linuxhint-vbox.com: 9000
Prensa "CTRL+O"Y guarde el archivo:
En el "sitio HDFS.xml"Archivo, cambiaremos la ruta de directorio de"datanode" y "namenode":
$ nano $ hadoop_home/etc/hadoop/hdfs-site.xml
DFS.replicación 1 DFS.nombre.prostituta Archivo: /// home/hadoopuser/hadoopdata/hdfs/namenode DFS.datos.prostituta Archivo: /// home/hadoopuser/hadoopdata/hdfs/datanode
Nuevamente, para escribir el código agregado en el archivo, presione "CRTL+O":
A continuación, abra el "sitio de mapred.xmlArchivo "y agregue el código dado a continuación:
$ nano $ hadoop_home/etc/hadoop/mapred-site.xml
Mapa reducido.estructura.nombre hilo
Prensa "CTRL+O"Para guardar los cambios que realizó en el archivo:
El último archivo que debe actualizarse es el "hilo.xml". Abra este archivo Hadoop en el "nano" editor:
$ nano $ hadoop_home/etc/hadoop/hilo-sitio.xml
Escriba las líneas a continuación en "hilo.xml" archivo:
hilo.nodo.Aux-Servicios mapreduce_shuffle
Tenemos que comenzar el clúster de Hadoop para operar Hadoop. Para esto, formatearemos nuestro "namenode" primero:
$ hdfs namenode -format
Ahora comience el clúster Hadoop escribiendo el comando otorgado en su terminal:
$ start-dfs.mierda
En el proceso de iniciar el clúster Hadoop, si obtienes el "Podría resolver el error del nombre de host", Entonces debes especificar el nombre de host en el"/etc/huésped" archivo:
$ sudo nano /etc /anfitriones
Salva el "/etc/huéspedArchivo ", y ahora están todos listos para iniciar el clúster Hadoop:
$ start-dfs.mierda
En el siguiente paso, comenzaremos el "hilo"Servicio de Hadoop:
$ start-yarn.mierda
La ejecución del comando anterior le mostrará la siguiente salida:
Para verificar el estado de todos los servicios de Hadoop, ejecute el "JPS"Comando en su terminal:
$ JPS
La salida muestra que todos los servicios se ejecutan correctamente:
Hadoop escucha en el puerto 8088 y 9870, Por lo tanto, debe permitir estos puertos a través del firewall:
$ Firewall-CMD --Permanent --Add-Port = 9870/TCP
$ Firewall-CMD --Permanent --Add-Port = 8088/TCP
Ahora, vuelva a cargar la configuración del firewall:
$ firewall-cmd--Reload
Ahora, abra su navegador y acceda a su Hadoop "namenode"Al ingresar su dirección IP con el puerto 9870:
Utilizar el puerto "8080"Con su dirección IP para acceder al Hadoop Resource Manager:
En la interfaz web de Hadoop, puede buscar el "Directorio de navegación"Desplorando hacia abajo en la página web abierta de la siguiente manera:
Eso se trataba de instalar y configurar Apache Hadoop en el sistema Ubuntu. Para detener el clúster de Hadoop, debe detener los servicios de "hilo" y "namenode":
$ stop-dfs.mierda
$ stop-yarn.mierda
Conclusión
Para diferentes aplicaciones de big data, Apache Hadoop es una plataforma disponible gratuitamente para administrar, almacenar y procesar datos que operan en servidores clústicos. Es un sistema de archivos distribuido con tolerancia a fallas que permite el procesamiento paralelo. En Hadoop, el modelo MapReduce se utiliza para almacenar y extraer datos de sus nodos. En este artículo, le hemos mostrado el método Para instalar y configurar Apache Hadoop en su sistema Ubuntu.