Seborn es un módulo de visualización notable para Python que le permite trazar imágenes estadísticas. Se basa en el software matplotlib y está estrechamente conectado con las estructuras de datos de Pandas. En un aprendizaje no supervisado, las técnicas de agrupación ayudan en la adquisición de datos estructurados. En este artículo, veremos qué es un mapa de clúster y cómo construirlo y usarlo para una variedad de fines.
Sintaxis del mapa de clúster en Seaborn
Tenemos una sintaxis simple para el mapa de clúster marítimo aquí:
1 | marino.ClusterMap (Data ,, Standard_Scale = None, FigSize = (6, 8), ** Kwargs) |
A continuación, explicamos el parámetro que se pasó dentro de la función de clúster marino junto con algunos parámetros opcionales.
datos: Para la agrupación, se utilizan datos rectangulares. NAS no está permitido.
pivot_kws: Si los datos están en un cuadro de datos ordenado, puede usar los parámetros de palabras clave para hacer un marco de datos rectangular con un pivote.
método: Para calcular grupos, aplique el enfoque de enlace. Para más detalles, consulte la documentación de Scipy.grupo.jerarquía.enlace().
métrico: Los datos deben medirse en términos de distancia. Se pueden encontrar más parámetros en el SciPy.espacial.distancia.documentación pdist (). Puede crear cada matriz de enlace manualmente y suministrarla como una fila. COL Linkage utiliza las métricas (o metodologías) para filas y columnas.
Z_Score: Si las puntuaciones Z deben calcularse o no para las columnas o filas. Los puntajes z se calculan como z = (media x)/std, lo que significa que los valores de cada fila (columna) se deducirán de la media de la fila (columna), luego se dividen por la desviación estándar (columna) de la fila (columna) (columna). Esto garantiza un promedio de 0 y una variación de 1 para cada fila (columna).
Standard_scale: Si normalizar o no esa dimensión, significa restar el mínimo y dividir cada fila o columna por su máximo.
higuera: El tamaño general de la figura que incluye ancho y altura.
fila, col _cluster: Si es cierto, las filas y columnas se agruparán juntas.
fila, col _colors: Los colores para etiquetar las filas o columnas. Se puede usar para ver si los datos dentro de una colección se agrupan colectivamente. Para varios niveles de color de etiquetado, puede usar las listas apiladas o un marco de datos si se entrega en forma de panda. DataFrame o Pandas son buenas opciones. Las etiquetas de color se derivan de los nombres de campo de Dataframes o el nombre de la serie. Los colores en DataFrame/Series también están correlacionados con el conjunto de datos por índice, asegurando que los colores se presenten en la secuencia adecuada.
dendrogram, colores _ratio: El porcentaje del tamaño gráfico está dedicado a las dos secciones de borde. Cuando se especifica un par, se refiere a las relaciones de fila y col.
CBAR_POS: En el diagrama, los ejes de la barra de color están en las posiciones correctas. La barra de color está apagada si la coloca a ninguno.
kwargs: HeatMap recibe todos los otros parámetros de palabras clave ().
Construiremos un mapa de calor utilizando los grupos jerárquicos a través de la función de mapa de clúster de mar. ClusterMap de Seaborn es una función realmente útil. Le mostraremos cómo utilizarlo con algunos ejemplos:
El mapa de clúster del Seaborn es un gráfico de matriz que le permite visualizar sus elementos de matriz como un mapa de calor mientras muestra simultáneamente una agrupación de sus filas y columnas. En el ejemplo posterior, trajimos las bibliotecas requeridas. Luego, creamos un marco de datos de los empleados que incluye sus nombres, identificaciones, edad y salario. Luego convertimos este marco de datos en los pandas utilizando el PD.función de marco de datos. Establecemos el índice del campo de nombre_data a través de la función establecida.
Después de esto, creamos un mapa de clúster de este marco de datos llamando a la función de clúster marino y pasando el empleado_data a esa función. Se usa otro argumento de palabras clave, Annot, y se establece en verdadero. Este parámetro nos permite ver los números reales que se muestran en el mapa de calor del mapa del clúster.
La salida del mapa del clúster está en la siguiente figura. Tenga en cuenta que nuestras filas y columnas son reorganizadas por Seaborn:
Usemos el conjunto de datos de muestra "MPG" para crear un mapa de clúster. Debemos filtrar los datos que enviamos a estos mapas de clúster al número de columnas en el marco de datos solamente.
Comience con la importación de las bibliotecas necesarias. Cargamos el conjunto de datos de "MPG" dentro de la variable "DataFrame_MPG". Además, utilizamos la función Dropna para eliminar las filas nulas dentro del marco de datos. Imprimimos el nombre de la columna dentro del marco de datos "MPG" junto con el tamaño de la columna. Luego, tenemos una función de mapa de clúster donde se pasa todo el marco de datos "mpg" con las columnas especificadas.
Las tres columnas se muestran en la consola.
Cuando ejecutamos el código anterior, vemos un mapa de clúster con solo una columna con un color claro. Esto se debe a que las escalas para estas varias columnas son diferentes.
Ejemplo 3:
Hay varias opciones para escalar los datos dentro de la función del mapa del clúster. Pero un método simple es utilizar el argumento de escala estándar. Si queremos escalar cada fila, entonces debemos pasar un valor de cero como argumento. Si queremos escalar cada columna, el valor será 1. Ahora, tenemos un valor de escala de 1. Además, pasamos un argumento de método dentro de la función de clúster que asignó un valor como único. La cadena se puede pasar como un valor único, que es un enlace mínimo.
El mapa del clúster "iris" de la trama de datos es ligeramente diferente en la figura al pasar un parámetros de escala y método.
Ejemplo 4:
Aquí, agregamos el parámetro Row_Color dentro de la función del mapa del clúster marítimo. Asignamos cada color a las especies de campo y sacamos la información de la columna de especies del marco de datos pingüinos.
Conclusión
Ahora, puede establecer el mapa del clúster marino ya que lo explicamos con algunos ejemplos de los diferentes parámetros aprobados. ClusterMap de Seaborn también tiene muchas alternativas para calcular una cuadrícula de longitud o semejanza de los datos para crear un mapa de calor.