¿Qué se agrupa en python003f??
El concepto general de agrupación es hacer grupos de tipos similares de datos. Es el proceso de separar los datos con las mismas características en diferentes tipos de grupos. La atención médica, las finanzas, el comercio minorista y otros campos comúnmente utilizan las técnicas de agrupación para realizar las diferentes tareas analíticas. La agrupación en Python realiza las mismas funcionalidades con la ayuda de algoritmos extremadamente simples. Existen muchos métodos de agrupación en Python, pero Scipy solo proporciona dos módulos para la agrupación que son los K-means y la agrupación jerárquica. Dedicamos este artículo al módulo K-means. Por lo tanto, con la ayuda de ejemplos, aprenderemos sobre la agrupación de K-means de la biblioteca Scipy.
¿Cuál es el algoritmo de agrupación K-means??
Se necesita un conjunto de datos y el número de grupos que se realizarán como entrada y devuelve el número especificado de grupos de los datos dados. Sigue el mecanismo de distancia euclidiana para hacer los grupos. Primero, el algoritmo K-means encuentra el centroide de clúster, luego clasifica cada elemento a su media más cercana, repite el proceso para el número dado de tiempos de clúster y crea el número especificado de grupos de los datos dados.
¿Qué es Scipy K-Means Clustering??
La biblioteca SciPy proporciona una técnica de agrupación K-means que es el mismo enfoque de partición donde cada clúster de los datos se representa con el centroide calculado. En el centroide calculado, todos los puntos de datos tienen la misma distancia promedio desde el centro del clúster. La biblioteca Scipy ofrece dos paquetes de agrupación, VQ y jerarquía, que ofrecen diferentes métodos de agrupación. El clúster.VQ Clustering Packaging es el módulo de cuantización vectorial que proporciona el método de agrupación de K-means. La cuantización vectorial es muy útil en la distorsión y la reducción de la precisión de mejora. Para hacer grupos con el método K-Means de la biblioteca Scipy, debemos seguir los siguientes pasos:
Primero, instale el paquete Scipy con la siguiente declaración:
Es muy importante tener todas las bibliotecas instaladas antes de usar cualquier método de función de la biblioteca. Por lo tanto, si aún no ha instalado la biblioteca Scipy, instálela con la instrucción PIP install Scipy. Después de eso, proporcione los datos para hacer el clúster y el número del clúster que se debe hacer también. Luego, normalice los datos con la siguiente declaración:
Aquí, la función blanca de los paquetes VQ se utiliza para normalizar los datos. El parámetro "Datos" representa los datos de entrada y el parámetro "CF" se usa para verificar si los datos de entrada contienen solo números finitos o no. El siguiente paso es localizar el centroide de los datos proporcionados. La siguiente declaración se utiliza para calcular el centroide de los datos:
Los parámetros "Datos" y "CF" son los mismos que la función blanca y representan la misma información. Los parámetros adicionales son "k", "iteraciones" y "umbral" donde K representa el número de grupos a realizar, la iteración representa el número de iteraciones que se realizará por la función, y el umbral representa el valor umbral para la terminación de la función. Ahora, demostremos un ejemplo para que prácticamente podamos ver cómo funciona la función K-means.
Ejemplo:
Aquí, vamos a dar un ejemplo para demostrar los pasos que explicamos anteriormente. Cuando tiene un ejemplo práctico completo, puede comprender fácilmente el concepto. Consulte el código dado en la siguiente captura de pantalla:
Dado que ya instalamos la biblioteca Scipy, no es necesario instalarla nuevamente. La primera línea de código se utiliza para importar la biblioteca Numpy como "NP" en el programa. Después de eso, el Scipy.grupo.El paquete VQ se importa al programa para usar los módulos Whiten, KMeans y VQ. La variable de "datos" se inicializa con una matriz 2-D que luego se pasa a la función blanca para la normalización de los datos. Los datos normalizados se pueden ver en la salida, ya que la instrucción de impresión se usa para mostrarlo.
La función KMeans () calcula el centroide de los datos dados. Los datos dados se pasan a la función de Kmeans con el número de grupos a realizar. El valor del centroide para cada elemento de datos también se puede ver en la salida, ya que la instrucción de impresión se usa para mostrarlos. La media de los datos también se toma y se muestra en la salida con la declaración de impresión.
Finalmente, para la agrupación, se utiliza la función VQ. Los datos dados y los valores de centroides calculados se pasan a la función VQ y se muestran en la salida utilizando la declaración de impresión. Para obtener la salida completa en un solo lugar, puede consultar la siguiente captura de pantalla:
Como puede ver, primero tenemos los datos normalizados que devuelven la función blanca. Luego, tenemos los centroides para cada valor de datos. Después de eso, se proporciona la media de los datos, seguido de los índices de clúster. Puede ejecutar este código en cualquier compilador de Python en su sistema como Spyder, Pypy, Júpiter, etc. También puede usar los compiladores en línea como Colaboratory, que también se conoce como Colab.
Conclusión
Este artículo está dedicado al algoritmo de agrupación K-means. Aquí, aprendimos sobre la agrupación, la agrupación de K-means y la agrupación de K-means con la biblioteca Scipy. Primero, aprendimos el concepto básico de agrupación. Luego, exploramos el método específico de clúster K-means. Finalmente, aprendimos el método completo de K-means proporcionado por la biblioteca Scipy. También demostramos un ejemplo para explicar cada paso.