Cómo instalar y usar MOA en Linux

Cómo instalar y usar MOA en Linux

El análisis masivo en línea (MOA) es una herramienta de software de código abierto gratuito que permite a los usuarios trabajar con flujos de datos. Los flujos de datos son paquetes de datos continuos que se transmiten en tiempo real para ser utilizados a medida que se reciben. Lo que hace que Moa sea especial es que puede recibir flujos de datos como entrada y ampliar la ejecución de un algoritmo subyacente para que se ajuste a las necesidades de los datos entrantes.

MOA es ampliamente utilizado por la comunidad de ciencias de datos para generar ideas sobre datos continuos de naturaleza. Contiene agrupación, clasificación, regresión, detección atípica, deriva conceptual y algoritmos de aprendizaje activo que pueden usar los flujos de datos entrantes para generar inferencias valiosas. Estas inferencias se pueden evaluar utilizando los algoritmos de evaluación incorporados.

Herramientas como MOA que viene con interfaces gráficas de usuario intuitivas facilitan que todos creen algoritmos complejos que puedan generar información útiles sobre datos que de otro modo requerirían la codificación en un lenguaje de programación. MOA permite que las personas de fondos sin programación funcionen con modelos de aprendizaje automático complejos y también les permite obtener resultados valiosos como salidas en diferentes formas, incluidas gráficos, tablas y gráficos.

Instalación

Para instalar MOA en cualquier máquina de Linux, comenzamos a descargar primero el archivo MOA.

1. Descargue el archivo de la página web de MOA.

2. Después de que se haya descargado el archivo, extraemos el archivo descargado y lo colocamos donde lo necesitamos.


3. Ahora abrimos la carpeta extraída y nos movemos al directorio raíz para MOA.

4. Después de pasar al directorio raíz, abrimos una instancia de terminal aquí haciendo clic derecho y seleccionando el Abrir en terminal opción.

5. Ahora ejecutamos el siguiente comando para ejecutar MOA en cualquier máquina de Linux:

$ bin/moa.mierda

Debe obtener una salida terminal que sea similar a esta:

Con esto, una instancia de MOA debe iniciar una ejecución en su máquina Linux.

Parece algo similar a esto:

Guía del usuario

Con MOA Ahora instalado y listo para usar en su máquina Linux, puede comenzar a construir su flujo de trabajo de análisis de datos.

Para comenzar, debe hacer clic en el Configurar Opción en la parte superior de la interfaz de usuario gráfica de MOA. Esto le proporciona diferentes categorías y opciones que puede elegir y seleccionar en función de qué tipo de modelo de minería de datos requiere su aplicación específica.

Para este experimento, creamos un Clasificación modelo seleccionando la opción de clasificación en el lado izquierdo.

Las tres categorías principales que puede cambiar o más bien elegir son Aprendiz, Arroyo, y Evaluador.


Aprendiz

Esto especifica qué tipo de modelo desea que su flujo de trabajo utilice para capacitación en sus datos. Hay múltiples opciones para elegir, algunas de las cuales son:

    1. Ingenuos
    2. Multinomialnaivebayes
    3. De la mayoría de la clase
    4. DriftDetectionMethodclassifier

Para este experimento, usamos el Multinomialnaivebayes modelo.


Arroyo

Esto especifica qué tipo de instancias de datos queremos que genere nuestro modelo. Hay múltiples opciones para elegir que incluyan:

    1. RandomTreeGenerator
    2. Estancador
    3. Segenerator
    4. WaveFormGenerator

Esta opción depende específicamente del tipo de instancias generadas que requiere su caso de uso.

Usamos WaveFormGenerator Para esta guía.


Evaluador

Esto especifica el tipo de evaluación que queremos que pasen las salidas generadas. Hay tres opciones principales para elegir en esta categoría que incluyen:

    1. BasicClassificationperFormanceEvaluator
    2. FadingFactorClassificationperFormanceEvaluator
    3. WindowClassificationperFormanceEvaluator

Usamos el Clasificación de ventanas evaluador con precisión, recuperación, precisión por clase, recuperación por clase y puntuación F1 por clase, todo el resultado como resultado. Estas métricas de rendimiento nos ayudan a comprender mejor las puntuaciones de distribución y rendimiento de la clase individualmente para nuestros datos.


Hay otras opciones después de las tres opciones relacionadas con el modelo principal que también podemos ajustar. Incluyen cosas como limitar el número de instancias al modelo e información sobre dónde generar los resultados de predicción generados por el modelo. Los dejaremos a sus ajustes predeterminados, ya que no son necesarios para los fines de este experimento.

Una vez que hayamos terminado de configurar el modelo para satisfacer nuestras necesidades exactas, hacemos clic en el Correr opción que esencialmente ejecuta el modelo tal como es. Con los datos continuos que se le alimentan a través de flujos de datos, continúa ejecutando las iteraciones del modelo a medida que continúa recibiendo los datos como entrada. Con cada iteración que se ejecuta, los resultados que genera se emiten a la pantalla.

La siguiente imagen muestra los diferentes resultados que ha generado el modelo. Estas incluyen categorías como el número de instancias sobre las que el modelo ha entrenado y el tiempo de evaluación que toma la CPU para generar los resultados en estos datos.


Si nos desplazamos más, podemos ver las métricas de rendimiento de clase. Estas métricas de rendimiento nos dicen los puntajes de precisión, retiro y F1 de clase. Todos los cuales están habilitados durante el paso de configuración en la creación del modelo.

Conclusión

El mundo del análisis de datos tiene muchas herramientas que pueden usarse para lograr los flujos de trabajo de minería de datos. Algunos de ellos vienen con interfaces de usuario gráficas, mientras que otras se basan estrictamente en la programación. El análisis masivo en línea es una de esas herramientas que utiliza una GUI intuitiva. Esto ayuda a las personas con poca o ninguna experiencia de programación a crear y ejecutar modelos inteligentes complejos que las ayuden a generar resultados en sus flujos de datos.

El beneficio clave de usar MOA es que permite a los usuarios trabajar con flujos de datos. Esto significa que los algoritmos de análisis de datos en tiempo real se pueden crear y utilizar para ciertos casos de uso. Como resultado, esta herramienta se ha convertido en la solución de referencia para la mayoría de las aplicaciones de generación de inferencia en tiempo real.