¿Qué es el procesamiento de datos??
El preprocesamiento de datos es una etapa crítica en el aprendizaje automático que mejora la calidad de los datos para fomentar la extracción de información valiosa de los datos. La preparación de datos en el aprendizaje automático es el proceso de preparar los datos sin procesar (limpiarlos y organizarlos) para crear y entrenar modelos de aprendizaje automático. El preprocesamiento de datos en el aprendizaje automático es, en pocas palabras, un enfoque de minería de datos que convierta los datos sin procesar en un formato que sea legible e inteligible.
¿Por qué necesitamos preprocesamiento de datos??
Los datos del mundo real frecuentemente carecen de valores o tendencias de atributos particulares y son frecuentemente inconsistentes, erróneos (contiene errores o valores atípicos) e incompletos. La preparación de datos entra en juego en esta situación porque ayuda a limpiar, formatear y organizar los datos sin procesar, lo que lo prepara para su uso mediante modelos de aprendizaje automático.
El preprocesamiento de datos trata de lo siguiente:
Normas para la API Scikit-Learn
Hay varias especificaciones para el tipo de datos que el Sklearn procesará.
Implementación del preprocesamiento Sklearn
Importación de las bibliotecas y datos
# Importar las bibliotecas y clasesCargando las primeras 5 filas de los datos
df.cabeza()Producción
longitud sepal (cm) | Ancho sepal (CM) | Longitud del pétalo (CM) | Ancho de pétalos (CM) | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
2 | 4.7 | 3.2 | 1.3 | 0.2 |
3 | 4.6 | 3.1 | 1.5 | 0.2 |
4 | 5.0 | 3.6 | 1.4 | 0.2 |
Obtener información sobre tipos y valores nulos
df.info ()Producción
RangeIndex: 150 entradas, 0 a 149Llenar los valores faltantes del marco de datos usando sklearn:
Imputer = SimpleImputer (estrategia = 'media')Podemos iterar todas las columnas para realizar esta tarea en todas las columnas.
Escalar los datos utilizando escalador estándar
Scaler = estándaressCaler ()Producción
Array ([[-0.90068117, 1.01900435, -1.34022653, -1.3154443],Una codificación caliente
Encoder = OneHotencoder (Handle_Unknown = 'Ignore')Producción
[array (['a', 'b'], dtype = objeto), array ([1, 2, 3], dtype = objeto)]Conclusión
Discutimos el preprocesamiento y su implementación en la Biblioteca Sklearn Python en este artículo. Para facilitar la extracción de ideas útiles de los datos, el preprocesamiento de datos es un paso crucial en el aprendizaje automático. Plantea la calidad de los datos. Luego, discutimos la implementación en Sklearn. Primero recuperamos información sobre los datos, incluidos los valores y los tipos de datos faltantes, y luego completamos los valores faltantes. También trabajamos en escalar los datos y una codificación en caliente.