Covarianza de pandas

Covarianza de pandas
El método Pandas Cov () calcula la covarianza emparejada entre una serie de DataFrame. DataFrame devuelto es la matriz de covarianza de las columnas de DataFrame. El cálculo excluye automáticamente las entradas NA y NULL. Esta técnica se usa comúnmente para evaluar los datos de la serie temporal para determinar la asociación entre varias medidas a lo largo del tiempo.

La sintaxis para este método es la siguiente:

Aquí, los "períodos min" determina el menor número de ocurrencias necesarios para cada par de columnas para proporcionar un resultado válido.

Aprenderá y comprenderá este método a través de la demostración práctica de los códigos en este artículo.

Ejemplo 1

Esta ilustración se trata de encontrar la covarianza entre las columnas de un marco de datos. Comencemos a aprender su implementación práctica.

La primera y más necesaria tarea es encontrar una herramienta que sea compatible con su máquina y admite el lenguaje de Python. Para nuestros requisitos, la herramienta "Spyder" se encuentra la más apropiada. Entonces, tenemos que descargar, instalar y finalmente iniciar la herramienta. Una vez que se muestra la interfaz, abrimos un nuevo archivo haciendo clic en el botón "Archivo" y eligiendo la opción "Nuevo archivo". Un nuevo archivo con el ".Se abre la extensión de Py ”. El ".Py "se refiere al archivo" Python ".

Ahora, comience a escribir el código de Python. Antes de comenzar con nuestro código principal, necesitamos obtener algunas bibliotecas necesarias en este archivo de Python. Para el tema presente, no necesitamos muchas bibliotecas, sino solo un paquete que es "Pandas". Entonces, escribimos el código "Importar pandas como PD" que importa todas las características de los pandas en nuestro archivo de Python. Podemos acceder a ellos usando el "PD" en lugar de "Pandas" en todo el guión.

Dado que tenemos que calcular la covarianza entre las columnas de un marco de datos, debemos tener un marco de datos de pandas donde ejercemos este método. Para construir un marco de datos, Pandas nos proporciona un "PD.Función DataFrame () ". Como ya sabemos que "PD" es el "pandas", accedemos al método de pandas. El "DataFrame ()" es la palabra clave de esta función que, cuando se invoca, crea un DataFrame. Generamos un marco de datos utilizando este "PD.Método DataFrame () "y lo inicializó con tres columnas:" Alpha "," Beta "y" Gamma ".

Nuestra primera columna "Alpha" almacena seis valores que son "3", "4", "1", "10", "5" y "7". La segunda columna "beta" contiene seis valores que son "12", "2", "8", "13", "4" y "5". La tercera y la última columna "Gamma" tienen los valores "4", "6", "12", "9", "3" y "10". Todas estas columnas almacenan el tipo entero de valores y son de la misma longitud que es 6.

Ahora, para almacenar este marco de datos, creamos un objeto DataFrame o una variable de "grado". Esta variable de "grado" asigna la salida generada al llamar al pandas "PD.Método DataFrame () ". Entonces, cuando llamamos al "PD.Método DataFrame () ", se crea y almacena un marco de datos PANDAS en" Grado ". Podemos acceder a DataFrame con este objeto. Generamos el marco de datos y lo almacenamos. Ahora, ¿qué hay de mostrarlo?? Para mostrar el marco de datos en el terminal, tenemos un método "print ()" muy simple y útil. Este método toma la variable, la función o la declaración como su parámetro y simplemente lo muestra en el terminal. Lo escribimos como "Imprimir (Grado)" y mostrará el DataFrame.

Cuando hacemos clic en el botón "Ejecutar archivo" en la herramienta "Spyder" o presionamos las teclas "Shift+Enter", se muestra un marco de datos con tres columnas y seis filas en el terminal.

Ahora, necesitamos realizar nuestra tarea principal donde creamos este marco de datos que calcula la covarianza. Para calcular la covarianza entre todas las columnas de este marco de datos, tenemos un método "cov ()" proporcionado por pandas. Para utilizar este método, llamamos al ".Método Cov () "con el nombre de DataFrame" Grado.cov () ". Esto calcula la covarianza en el marco de datos proporcionado. Luego, colocamos este método entre los paréntesis del método "print ()" para mostrar el marco de datos con covarianza calculada en todas sus columnas. De lo contrario, puede crear una variable y almacenar la covarianza calculada en ella y mostrarla utilizando el método "print ()".

La ejecución del script explicado anteriormente nos brinda una matriz con covarianza calculada entre todas las columnas de DataFrame "Grade". Puedes ver que todos los valores de covarianza son positivos.

Ejemplo 2

Ahora, veremos qué sucede cuando tengamos algunos valores de "nan" (no un número) en nuestro marco de datos y necesitamos calcular la covarianza en ese marco de datos. Cuando DataFrame tiene algún valor "nan", la función "cov ()" ignora estos valores "nan" y calcula la covarianza entre el resto de los valores.

Para este propósito, utilizamos el cuadro de datos creado previamente y lo modificamos de acuerdo con nuestros requisitos. Cambiamos un valor de cada columna de DataFrame a un valor "ninguno". El segundo valor de la columna "Alpha" se cambia a "Ninguno", el segundo valor de la columna "Beta" se cambia a "Ninguno" y el quinto valor de la columna "Gamma" también se cambia a "Ninguno". Luego, simplemente mostramos el marco de datos modificado con la función "print ()".

Así es como se ve nuestro marco de datos actualizado con los valores nan.

Calculamos su covarianza ahora. Simplemente invocamos la función "cov ()" con el nombre del marco de datos y pasamos esta función como un parámetro al método "print ()" para mostrar la covarianza calculada con valores "nan".

Cuando ejecutamos el script mencionado previamente, nos muestra la covarianza calculada para todas las columnas en el marco de datos donde, después de ignorar los valores "nan", la covarianza entre esas columnas que tienen valores "nan" es negativo.

Ejemplo 3

Aprendió a calcular la covarianza entre todas las columnas del marco de datos con o sin valores de "nan". Aquí, lo hará familiarizar con otra técnica de uso de la función "Cov ()". Esta técnica está calculando la covarianza entre dos series de pandas. Utilizamos el DataFrame que creamos en la primera ilustración de esta guía. De este marco de datos, creamos dos series de pandas.

Para crear una serie, empleamos el "PD.Función Series () ". Entre sus aparatos ortopédicos, puede definir los valores manualmente, pero, en nuestra ilustración, creamos la serie a partir de la "calificación" de DataFrame de datos creada anteriormente anteriormente. Entonces, proporcionamos el nombre de la columna con el nombre de DataFrame entre el "PD.Series () "funcionan como" PD.Serie (grado ['Alpha']) ". Luego, almacenamos esta serie en una variable "V1". Creamos otra serie con los mismos pasos utilizando la columna "Gamma" de Dataframe de "Grado" esta vez como "PD.Serie (grado ['gamma']) "y guárdelo en variable" v2 ".

Utilizamos el método "print ()" para imprimir ambas series "V1" y "V2". En el último paso, calculamos la covarianza invocando el método "cov ()". Escribe el título de la primera serie con el ".función cov () "y luego la segunda serie dentro de sus aparatos ortopédicos como" v1.CoV (V2) ". Pasar esto como un parámetro al método "print ()" para mostrarlo.

Esto nos produce la siguiente salida con la covarianza calculada entre las dos series de pandas.

Conclusión

Calcular la covarianza entre todas las columnas del marco de datos o entre las dos series creadas a partir de DataFrame puede llevarse a cabo con una función PANDAS simple y efectiva: "Cov ()". Este artículo le proporcionó la implementación práctica de los códigos de Python ejecutados en la herramienta "Spyder". Se le explicó la primera ilustración para estimar la covarianza entre las columnas de Pandas DataFrame. El segundo ejemplo se basó en aprender el cálculo de covarianza con valores "nan". Y el último ejemplo se centró en encontrar la covarianza entre dos series de pandas. Elaboramos en cada detalle menor a mayor en este artículo para hacer que el aprendizaje sea divertido para usted.