Pandas eliminar valores atípicos

Pandas eliminar valores atípicos
Podemos utilizar la biblioteca "pandas" para realizar algunas tareas matemáticas sobre los datos de una manera manejable. Este conjunto de herramientas de código abierto se utiliza para manipular y analizar los datos para extraer la información requerida de los datos especificados. Cuando discutimos los "valores atípicos" en "pandas", podemos decir que un elemento de datos u objeto que difiere considerablemente de los otros elementos se conoce como un "atípico". Los errores en medición o implementación pueden ser la razón de ellos. La minería atípica es la técnica utilizada para el descubrimiento atípico. Existen numerosos métodos para encontrar valores atípicos y el procedimiento de limpieza es el mismo para el marco de datos del panda que para el marco de datos del panda en sí. Tenemos que eliminar los "valores atípicos" en el conjunto de datos "pandas" porque cuando eliminamos estos valores atípicos, con frecuencia ayudará a nuestro modelo a generalizar de manera más efectiva. Eliminaremos los valores atípicos en el marco de datos "pandas" en este artículo utilizando el método "pandas".

Métodos para eliminar valores atípicos en "Pandas"

Podemos utilizar dos métodos en "Pandas" para eliminar los valores atípicos en "Pandas". Estos son:

  • Método de rango intercuartil
  • Método de puntaje Z

Estos métodos se utilizarán para eliminar los "valores atípicos" de la serie "pandas" y el marco de datos "pandas". En este artículo, también ilustraremos ejemplos de cómo usamos estas técnicas en los códigos "pandas".

Ejemplo # 01:

Estamos utilizando la herramienta "Spyder" para realizar los códigos "Pandas" que se presentan en este artículo. Como vamos a generar el código "pandas", tenemos que "importar" sus módulos. Para importar los módulos de los "pandas", estamos agregando la "importación", que es la palabra clave y luego ponemos "pandas como PD". Ayudará a obtener los métodos de "pandas" si escribimos el "PD" con el nombre de la función que queremos utilizar. Luego, importamos el "Numpy", que también es la biblioteca. Lo importamos como "NP" para que también podamos obtener sus métodos con el nombre de la función "Numpy" que queremos usar.

Después de esto, hemos declarado "tamaño", que es el nombre de la variable y esta variable se inicializa con el valor que es "15". Ahora, después de inicializar el "tamaño", también estamos declarando otra variable llamada "datos" debajo de esto. Estos "datos" se inicializan luego con el "PD.Método Series () ". Como hemos escrito "PD, obtenemos el método de" Pandas ". En este "PD.Método de serie () ", ponemos el" NP.aleatorio.Método normal () "y este es el método de la biblioteca" numpy "porque hemos agregado" np "con él. Este método nos ayuda a crear los datos distribuidos normalmente. Estos datos se crean en forma de la serie "Pandas".

Pasamos el parámetro de "tamaño" y asignamos la variable "tamaño" que hemos creado a este parámetro de "tamaño". Entonces, generará una serie aleatoria de "Pandas" con el tamaño de "15" y es unidimensional. La variable "datos" en la que se almacena la serie aleatoria se pasa a la función "print ()", por lo que ayuda a imprimir esa serie aleatoria en el terminal.

Ahora, podemos obtener fácilmente la salida de los códigos en la aplicación "Spyder" de dos maneras. Una de ellas es presionar las teclas "Shift+Enter" y la otra es utilizar el icono "Ejecutar" de esta herramienta. Ahora, después de hacer esto, tenemos el resultado del código en el terminal de esta herramienta. El resultado también se muestra en el que se muestra la serie, que es la serie aleatoria que hemos generado en el código "pandas". Ahora, eliminaremos los valores atípicos de esta serie a continuación.

Aquí, estamos ajustando los valores "Quantile ()". Hemos ajustado ".15 "como el valor del primer cuantil y también es el cuantil más bajo. Entonces, ajustamos el ".Valor de 85 "como el valor del segundo cuantil y es el valor cuantil más alto. Hemos agregado el nombre de la serie que es "datos". En los soportes cuadrados, nuevamente colocamos "datos" y luego escribimos el método "entre ()". Dentro de este método, hemos agregado dos parámetros en los que el primer método es el cuantil más bajo y el segundo parámetro es el cuantil más alto.

También hemos agregado este método en la variable "data1", por lo que cuando ejecutamos este código, los valores después de eliminar los valores atípicos se almacenarán en la variable "data1". Ahora, eliminará todos los valores atípicos que se encuentran en el cuantil más bajo y más alto. Luego, tenemos "imprimir" en la que hemos agregado "data1".

Los valores atípicos se eliminan de la serie que hemos generado anteriormente y solo se muestran nueve valores. La serie que hemos creado anteriormente contiene 15 valores, pero después de eliminar los valores atípicos hay nueve valores.

Ejemplo # 02:

También estamos importando las "estadísticas" de la biblioteca "Scipy" porque tenemos que utilizar este método en este código. Estamos creando un marco de datos en el que hemos agregado solo una columna que se llama "datos". Hemos agregado "-2, 7, 15, 19, 34, 39, 50, 13, 19, 14, 87, 89 y 1456" a esta columna "Datos". Además, hemos almacenado este marco de datos en el "my_df". Entonces, solo imprimimos "my_df".

El marco de datos se representa en este resultado. Ahora, aplicaremos el método "Z-Score" a este marco de datos para eliminar los valores atípicos.

Estamos encontrando el "ZScore" utilizando las "estadísticas" que hemos importado anteriormente. Solo utilizamos este método cuando importamos las "estadísticas". Hemos agregado la columna "Z_Score" donde almacenamos los valores "Zscore". Para encontrar los valores "ZScore" de la columna "Datos", hemos agregado el nombre de DataFrame y la columna en este método. Luego, también representamos "my_data" en la que también se agrega la columna "Z_Score".

Se muestran dos columnas en este resultado. La columna "Datos", que hemos agregado en el cuadro de datos y la otra es la columna "Z_Score", contiene los valores "Zscore" que obtenemos aplicando las "Estadísticas.método zscore () ". Aquí, puede tener en cuenta que todos los valores, que están presentes en la columna "Z_Score", son negativos, pero el último es el valor positivo. Entonces, significa que es el valor atípico y tenemos que eliminarlo.

Según los criterios empíricos, los valores atípicos son los valores de la puntuación z que son mayores de 3. Por lo tanto, hemos agregado el método "Loc" para filtrar esas filas en las que el valor del "Z_Score" es inferior a 3 o igual a 3 y también muestra esas filas en el resultado porque este método está escrito dentro de la "impresión ( ) ". Todos los demás valores son valores atípicos y se eliminarán de este marco de datos.

Aquí, todos los valores que son menos de 3 aparecen. El último valor se elimina porque era mayor de 3 y fue el valor atípico en este marco de datos.

Conclusión

Este artículo se presenta para describir en detalle el concepto de "Pandas Eliminar los valores atípicos". Hemos discutido en este artículo que los valores que están presentes en un conjunto de datos que se considera extremos, erróneos o no representativos del tema del conjunto de datos se denominan Outliers llamados. También hemos explicado que estos valores atípicos pueden ser el resultado de métodos de recopilación de datos inexactos o hallazgos atípicos reales. Hemos discutido dos métodos para eliminar estos valores atípicos en "Pandas". Hemos eliminado los valores atípicos en la serie "pandas" y el marco de datos en este artículo y también discutimos ambos métodos en detalle.