Cómo instalar y usar Apache Mahout en Linux

Cómo instalar y usar Apache Mahout en Linux

Cuidador de elefantes es un proyecto de código abierto de Apache Software Foundation. Se utiliza para la creación de algoritmos de aprendizaje automático y análisis estadísticos o matemáticos. Mahout puede asumir tareas de minería de datos y aprendizaje automático bastante grandes debido a su enfoque de computación distribuida a tales problemas. Usando Hadoop en segundo plano, Mahout puede dividir las grandes tareas de minería de datos en subtareas más pequeñas que luego están programadas para ejecutarse en diferentes instancias de manera paralela. Esto permite al usuario realizar una tarea compleja relativamente rápido dividiéndola en tareas más pequeñas y ejecutándolas todas en diferentes instancias de la aplicación utilizando la infraestructura en la nube.

Mahout proporciona a sus usuarios una variedad de funcionalidades diferentes. Estos incluyen técnicas relacionadas con el aprendizaje automático y el análisis de datos, algunas de las cuales son recomendación modelos, clasificación técnicas y agrupación modelos. Dado que está construido sobre Hadoop, permite a los usuarios hacer uso de la computación en la nube distribuida de Hadoop. Trabajando a la perfección junto con Hadoop, Mahout es capaz de lograr grandes tareas de minería y análisis de datos muy rápido, lo que lo convierte en una de las mejores soluciones para grandes problemas de minería de datos.

Instalación

Usar Cuidador de elefantes, Primero necesitas la versión 1 de Java (JDK).7, Maven versión 3.0 o superior, y subversión. Sin estas tres dependencias, Apache Mahout no funcionará en su máquina Linux.

Instalación Java JDK

1. Vaya a la página de Descargas de Java haciendo clic en este enlace.

2. Seleccione Linux X64: JDK-7U45-Linux-X64.alquitrán.GZ, aceptar los términos de licencia y descargar el archivo.

3. Vaya al directorio donde descargó el archivo y abra el terminal aquí.


Ejecute el siguiente comando:

$ sudo cp jdk-7u45-linux-x64.alquitrán.gz/usr/local/lib/

Esto copia la carpeta extraída en /usr/local/lib/.

4. Moverse hacia el /usr/local/lib/ carpeta ejecutando el siguiente comando:

$ CD/usr/local/lib/

5. Ejecute el siguiente comando en el terminal para extraer el contenido de la carpeta comprimida:

$ sudo tar -xzvf jdk-7u45-linux-x64.alquitrán.GZ


6. Elimine el archivo comprimido que acabamos de extraer:

$ sudo RM JDK-7U45-Linux-X64.alquitrán.GZ

7. Muévete a tu Inicio/nombre de usuario/ ejecutando el siguiente comando:

$ CD /Inicio //

8. Agregue la casa de Java a la ruta realizando los siguientes pasos:

Ejecute el siguiente comando:

$ nano .perfil

Agregue las siguientes dos líneas al final del perfil que acabamos de abrir.

Exportar java_home = "/usr/local/lib/jdk1.7.0_45 "
exportación ruta = "$ java_home/bin: $ ruta"


Instalación maven

1. Con un Java JDK ahora instalado, ahora instalamos Maven, que es el segundo requisito para ejecutar el Cuidador de elefantes.

Ejecute el siguiente comando en el terminal:

$ sudo apt-get instalación maven

Debería ver una salida que sea similar a la siguiente ilustración:

Para verificar si Maven se ha instalado correctamente en su máquina, ejecute el siguiente comando en el terminal:

$ MVN -V



Instalación de subversión

1. Con Maven ahora instalado correctamente, ahora instalamos subversión. La subversión es un sistema de control de revisión de software gratuito gratuito. Permite a los usuarios realizar un seguimiento de las diferentes versiones del código fuente en sus máquinas.

Ejecute el siguiente comando:

$ sudo apt-get install subversion

Debería ver una salida similar en su terminal:

Ejecute el siguiente comando para verificar si la subversión se ha instalado correctamente:

$ SVN -Versión


2. Con la subversión ahora instalada, hemos instalado con éxito todas las dependencias para Cuidador de elefantes.

Ahora procederemos a descargar e instalar mahout.

Primero, muévase al directorio en el que desea instalar Mahout en.

Ejecute el siguiente comando:

$ svn co http: // svn.apache.org/repos/asf/mahout/troncal

Debería ver una salida terminal similar:

Ahora nos movemos hacia el trompa directorio:

Trunk de $ CD

Ahora, ejecute el siguiente comando:

$ MVN -DSKIPTESTS

Ahora debería tener Apache Mahout listo para usar en su máquina Linux.

Guía del usuario

Mahout utiliza una interfaz de programación para desbloquear el potencial de la computación distribuida de Mahout. El lenguaje que se usa para interactuar con este marco es Java.

Mahout es una solución integral para el aprendizaje automático complejo y las tareas de minería de datos. Dado que no proporciona una interfaz de usuario interactiva, los usuarios deben conocer el uso del idioma Java para desatar todo el potencial de este marco.

Esto significa que Mahout no puede ser utilizado por personas que no hablan con fluidez Java. Sin embargo, esto no significa que uno no tenga que intentarlo. Aprender un nuevo lenguaje de programación es algo que no es complejo hoy en día. Con los recursos fácilmente disponibles, uno puede aprender fácilmente Java e interactuar con el marco Mahout para crear algoritmos que se pueden usar con grandes conjuntos de datos para encontrar las soluciones y patrones a los problemas en un entorno distribuido.

Conclusión

Hay muchos marcos de minería de datos y aprendizaje automático que están disponibles en el mercado hoy en día. Cuidador de elefantes por apache es uno de estos marcos. Mahout es famoso por permitir el uso de un entorno distribuido que usa Hadoop sobre la nube para dividir las complejas tareas de minería de datos en subtareas más pequeñas que se pueden ejecutar en múltiples instancias de la aplicación. Esto da como resultado que la tarea más grande se complete en un lapso de tiempo más corto al tiempo que reduce la potencia de cómputo general que se usa a unidades más pequeñas.

Mahout se usa escribiendo el código en Java, que es un idioma que se ha hecho su nombre sobreviviendo a las pruebas del tiempo. Esto hace que Java sea una habilidad muy útil para tener. Aprender a Java para usar esta funcionalidad ofrecida por Apache es algo que la mayoría de los científicos de datos hacen en algún momento de sus carreras. Si bien la mayoría de los profesionales de minería de datos nunca necesitarán usar la computación en la nube distribuida en el campo de la ciencia de datos, sin embargo, existe para la pequeña cantidad de tareas que requieren una solución distribuida más escalable.