Método de correlación de pandas

"Pandas" es una biblioteca de Python que usamos para analizar los datos. Es una herramienta de análisis y análisis de procesamiento y análisis de código abierto rápido, potente, adaptable y fácil de usar. Los valores se mantienen en un formato de fila y columna utilizando un modelo de datos bidimensional conocido como un "marco de datos de pandas".

Ahora, los pandas pueden ayudar en la producción de una variedad de mapas de análisis de datos. La correlación es una técnica. La correlación es una estadística muy útil que indica cómo se interrelacionan dos conjuntos de datos entre sí. El marco de datos de Pandas.El método corr () "se puede utilizar para encontrar la correlación entre dos o incluso más columnas en un marco de datos. Una correlación positiva significa que los valores en un grupo continúan aumentando con un aumento en el otro, mientras que una correlación negativa implica que los valores en un grupo continúan disminuyendo con un aumento en el otro.

Pandas DataFrame.función corr ()

Podemos usar los pandas "DataFrame.Corr () "Función siguiendo la sintaxis proporcionada a continuación:

Cuando usa el método "corr ()" para calcular la correlación de Pearson entre dos columnas de pandas, produce una sola figura que representa la correlación de Pearson entre las dos columnas. También puede usar el método explícitamente en un marco de datos para generar una matriz de correlaciones de pares entre varias columnas.

Ejemplo 1

En este ejemplo, encontraremos la correlación entre tres columnas de un marco de datos. Para la implementación práctica de este método en Python, hemos utilizado la herramienta "Spyder". Abra un nuevo archivo de Python en la herramienta "Spyder". El requisito más importante al comenzar a escribir el script es importar bibliotecas relevantes. Como tenemos que implementar un método "pandas", tenemos "importar pandas como pd" para acceder a las características de "pandas".

Luego comenzamos nuestro código principal de Python. Hemos creado un marco de datos utilizando el "PD.Método DataFrame () ". DataFrame se inicializa mediante tres columnas "computadora", "química" y "matemáticas". Todas las columnas de DataFrame almacenan la misma longitud de valores. La primera columna, "Computer", tiene ocho valores enteros, que son "80", "75", "62", "89", "63", "41", "73" y "54". La segunda columna, "Química", también almacena ocho valores int que son "87", "67", "53", "54", "66", "82", "58" y "66". La última columna, "Matemáticas", tiene valores "93", "75", "65", "47", "83", "78", "83" y "98".

Para mostrar nuestro DataFrame inicial, utilizamos el método "print ()" con el nombre de Dataframe "datos" como su parámetro en la línea final del script.

Para ver la salida en el terminal, use el botón "Ejecutar archivo" en la herramienta "Spyder" o presione las teclas "Shift+Enter". La salida que se muestra en el terminal muestra un marco de datos con tres columnas que se crea correctamente.

Hemos creado nuestro marco de datos fundamental. Ahora, tenemos que encontrar la correlación entre dos columnas de nuestro marco de datos de "datos". Para dicho propósito, hemos usado pandas "DataFrame.Función corr () ", que calculará la correlación entre las dos columnas especificadas del marco de datos. Primero tenemos que proporcionar el título del DataFrame con el nombre de la primera columna, luego el "".Corr () "Función que tiene el nombre de la segunda columna entre sus paréntesis.

Aquí, hemos utilizado la columna "computadora" y la columna "matemática" para encontrar la correlación entre ellos como "datos ['computadora']].corr (datos ['matemáticas']) ". Hemos creado una variable "resultado" y le asignamos la salida de llamar al ".método corr () ". Luego se llama a la función "print ()" para mostrar la corrección de ambas columnas.

En la imagen de salida, puede ver que la correlación calculada entre las columnas de "computadora" y "matemáticas" está en una figura negativa que muestra la correlación entre estas dos columnas es negativa o débil.

Del mismo modo, podemos verificar la correlación entre cualquiera de las dos columnas. Para su conveniencia, hemos encontrado la correlación entre otras dos columnas aquí. Esta vez elegimos la primera columna "matemática" y la segunda columna "química" e invocamos el "".corr () ". Hemos almacenado la salida que se generará a partir de la llamada de esta función, yo.mi., La correlación de "matemáticas" y "química". Ahora, podemos acceder a esta salida utilizando la variable "resultado". La función "print ()" simplemente imprime la salida.

El resultado generado a partir de este script se puede ver en la imagen a continuación. Aquí, la correlación calculada entre las columnas "matemáticas" y "química" está en un valor positivo, lo que significa que su correlación es positiva o fuerte.

Ejemplo # 2

También podemos encontrar correlaciones entre todas las columnas de un marco de datos mediante el uso de Pandas "DataFrame.método corr () ". En este ejemplo, aprenderá a través de su implementación práctica.

Para la demostración, utilizamos la herramienta "Spyder", que ya hemos instalado en nuestro sistema. Primero tenemos que importar la biblioteca esencial para este método que es pandas. Hemos utilizado el script "Importar pandas como PD" para importar pandas en nuestro archivo Python en la herramienta "Spyder", que nos permitirá acceder a los módulos PANDAS utilizando el "PD". Luego usamos el "PD.Función DataFrame () "para construir un DataFrame. Este marco de datos tiene cuatro columnas "Nombre", "Puntos", "Asistir" e "Impuesto".

Cada columna almacena seis valores. La columna "Nombre" tiene valores de cadena que son "A", "B", "C", "X", "Y" y "Z". La columna "Puntos" tiene seis valores enteros que son "17", "22", "15", "14", "24" y "21". La columna "Asistencia" tiene seis valores enteros "2", "13", "9", "4", "12" y "10". La última columna, "Impuesto", tiene valores "12", "4", "6", "11", "13" y "20". Hemos creado un objeto de DataFrame "información" y lo asignamos la salida de invocar el "PD.Método DataFrame () ". Entonces, el marco de marco de datos resultante generado a partir del "PD.DataFrame () "se almacenará en" Info ".

Ahora, podemos acceder a DataFrame usando este objeto. Para ver este DataFrame, hemos empleado el método "print ()" con el objeto DataFrame "Info" como su parámetro.

En el programa Python anterior, se mostraría un marco de datos con cuatro columnas en el terminal. Como puede ver en la siguiente imagen:

Ahora, tenemos que encontrar la correlación entre todas las columnas del marco de datos utilizando el "marcado de datos PANDAS.método corr () ". Nuestro objetivo es calcular la correlación entre todas las columnas, por lo que solo tenemos que escribir el nombre de DataFrame, que es "Información", con el ".método corr () ". Hemos creado una variable "R" para almacenar el resultado, que obtendremos llamando a la "información.método corr () ". Finalmente imprimimos el contenido almacenado en la variable "R" invocando la función "print ()".

Aquí, obtuvimos nuestra correlación de salida entre las tres columnas numéricas del marco de datos "Info". Podemos ver en la instantánea de salida que existe una correlación negativa entre "puntos" y "impuestos". Las "asistencias" y "impuestos" también comparten una correlación negativa, mientras que todos los otros pares comparten una correlación positiva entre ellos. Es posible que haya observado que las diagonales tienen el valor "1". Esto significa que cada columna está acoplada con precisión consigo misma.

Conclusión

Hemos hecho una introducción a Pandas "DataFrame.método corr () ". Este método es muy importante en el proceso de calcular la relación entre diferentes columnas. Hemos realizado dos ejemplos prácticos en la herramienta "Spyder". En el primer ejemplo, elaboramos y explicamos el concepto de encontrar la correlación entre dos columnas del marco de datos, mientras que el otro ejemplo se basa en calcular la correlación entre todas las columnas del marco de datos del Data. Asegúrese de seguir todos los pasos llevados a cabo en el proceso de implementación práctica para comprender el método de correlación de Pandas.

Pitón

TSPLOT SEABOR

En Python, el marítimo.El método LinePlot () se usa para trazar múltiples líneas en una sola gráfica...

Beatriz Enríquez

OS de Windows

¿Cuál es la diferencia entre Windows Top 10 Home y Pro

La versión Pro es para usuarios profesionales y tiene más herramientas administrativas, mientras que...

Pilar Melgar

golang

Introducción al lenguaje de programación de Golang

Golang es un lenguaje de programación de código abierto desarrollado por Google. Siga este artículo ...

Jacobo Piña