Pandas read_csv multiprocesamiento

Pandas read_csv multiprocesamiento

El multiprocesamiento es una técnica de uso de múltiples procesadores o núcleos para realizar tareas en paralelo. En Python, el multiprocesamiento se implementa a través del módulo de multiprocesamiento. Autoriza al usuario a ejecutar múltiples tareas simultáneamente, utilizando así la potencia completa de la CPU de la máquina.

En esta guía de Python, presentaremos una guía en profundidad sobre el "pandas.read_csv ()Función con un módulo de multiprocesamiento. Se cubrirán los siguientes temas:

    • Read_csv () función en python
    • Leyendo CSV usando "pandas.read_csv ()" Función
    • Leyendo CSV usando "pandas.read_csv ()"Con multiprocesamiento

"Pandas.Read_csv () "Función en Python

El "pandas.read_csv ()"Es una función en el módulo pandas de Python que lee/toma un archivo CSV y recupera un objeto DataFrame que contiene los datos del CSV.

Sintaxis

pd.read_csv (filepath_or_buffer, sep = ',', header = 'infer', index_col = none, useCols = none, motor = none, skiprows = none, nrows = none)


Ejemplo 1: Leer CSV usando "Pandas.función read_csv () "

En el siguiente ejemplo, los "Pandas.La función read_csv () "se usa para leer los datos de CSV:


Código

importación de pandas
df = pandas.read_csv ('ejemplo.CSV ')
Imprimir (DF)


En el fragmento de código anterior:

    • El módulo llamado "pandas"Se importa.
    • El "pd.read_csv ()La función se utiliza para leer el archivo CSV proporcionado.
    • El "imprimir()La función se utiliza para mostrar/mostrar los datos de CSV.

Producción


Como se observó, se han mostrado el contenido del archivo CSV.

Ejemplo 2: Leer CSV usando "Pandas.read_csv () "con multiprocesamiento

El siguiente código utiliza el "pd.read_csv ()Función para leer múltiples archivos CSV en paralelo usando la biblioteca de multiprocesamiento en Python:

importación de pandas
importar multiprocesamiento
Si __name__ == '__main__':
grupo = multiprocesamiento.Piscina()
archivos = ['Ejemplo.CSV ',' Ejemplo1.CSV ',' Ejemplo2.CSV ']
Dataframes = grupo.mapa (pandas.read_csv, archivos)
Para DF en Dataframes:
Imprimir (DF)


Según el código anterior:

    • Los módulos nombrados "pandas" y "multiprocesamientoSe importan los módulos.
    • El "__nombre__" y "__principal__"Los atributos se usan con el"siCondición para garantizar que el código dentro de él se ejecute directamente desde el script en lugar de ser importado.
    • Dentro de la condición, el "multiprocesamiento.Piscina()"Se usa para crear un objeto de grupo de multiprocesamiento utilizando el número predeterminado de procesos disponibles en el sistema.
    • La lista de nombres de archivo para los archivos CSV a leer se inicializa y almacena en una variable llamada "archivos".
    • El "piscina.mapa()"El método se utiliza para aplicar el"pd.Read_csv"Funciona a cada archivo en paralelo. Esto significa que cada archivo se lee simultáneamente por un proceso separado, que puede acelerar el tiempo general de procesamiento.
    • Finalmente, el "paraEl bucle se usa para iterar a través de cada marco de datos.

Producción


En este resultado, el "PD.La función read_csv () "se usa con multiprocesamiento para leer archivos CSV.

Conclusión

Para mejorar la velocidad de carga de datos, incluidos sus beneficios y limitaciones los "pd.read_csv ()La función se usa con el módulo de multiprocesamiento. El modelo de multiprocesamiento ofrece una forma de acelerar la carga de datos utilizando múltiples núcleos de CPU para cargar los datos en paralelo. Este tutorial de Python presentó una guía en profundidad sobre el multiprocesamiento de Python Read_CSV.