Seleccione varias columnas en Pandas

Seleccione varias columnas en Pandas

Discutiremos los pandas en Python, una biblioteca de código abierto que ofrece estructuras de datos de alto rendimiento y herramientas de análisis de datos que están listas para usar. También aprenderemos sobre DataFrame, las ventajas de los pandas y cómo puede usar pandas para seleccionar múltiples columnas de un marco de datos . Empecemos!

¿Qué son los pandas en Python??

Pandas es una biblioteca de código abierto de Python. Ofrece estructuras y herramientas eficientes para el análisis de datos que están listos para usar. Pandas es un módulo de Python que funciona sobre Numpy y se usa ampliamente para la ciencia y el análisis de datos. Numpy es otro conjunto de estructuras de datos de bajo nivel que pueden manejar matrices multidimensionales y una variedad de operaciones de matriz matemática. Los pandas tienen una interfaz de usuario más avanzada. También tiene una capacidad robusta de la serie temporal y una alineación eficiente de datos tabulares. La estructura de datos primaria de Pandas es el marco de datos. Una estructura de datos en 2-D nos permite almacenar y modificar datos tabulares. Los pandas proporcionan cualquier funcionalidad al marco de datos, como la manipulación de datos, la concatenación, la fusión, la agrupación, etc.

¿Qué es un marco de datos??

La estructura de datos más esencial y ampliamente utilizada es el marco de datos. Es un método común de almacenamiento de datos. DataFrame almacena datos en filas y columnas, al igual que una tabla SQL o una base de datos de hoja de cálculo.

Ventajas de los pandas

Muchos usuarios desean que el SQL haya incluido capacidades como la generación de números aleatorios gaussianos o cuantiles porque luchan por incorporar una noción de procedimiento en una consulta SQL. Los usuarios pueden decir: "Si tan solo pudiera escribir esto en Python y volver a SQL rápidamente", y Pandas proporciona un tipo de datos tabulares con interfaces bien diseñadas que les permiten hacer exactamente eso. Hay opciones más detalladas, como utilizar un lenguaje de procedimiento específico como el PLSQL de Oracle o PLPGSQL de Postgres o una interfaz de base de datos de bajo nivel. Los pandas tienen una interfaz de lectura SQL de una línea (PD.Leer SQL) y una interfaz de escritura SQL de una línea (PD.a SQL), comparable a los marcos de datos R.

Otra ventaja significativa es que las bibliotecas de gráficos como Seaborn pueden tratar las columnas del marco de datos como atributos de gráficos de alto nivel. Por lo tanto, los pandas proporcionan una forma razonable de administrar los datos tabulares en Python y algunas API de almacenamiento y gráficos muy maravillosas.

Opción 1: Uso del índice de clave básica

1
2
3
4
5
6
7
8
9
10
importar pandas como PD
data = 'name': ['a', 'b', 'c', 'd'],
'Age': [27, 24, 22, 32]
DF = PD.DataFrame (datos)
df [['nombre', 'edad']]

Producción:

1
2
3
4
5
6
7
8
9
Nombre Edad
0 A 27
1 b 24
2 C 22
3 D 32

Opción 2: Usando .Loc []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
importar pandas como PD
data = 'fruta': ['manzana', 'plátano', 'uvas', 'naranja'],
'Price': [160, 100, 60, 80]
DF = PD.DataFrame (datos)
df.Loc [0: 2, ['fruta', 'precio']]

Producción:

1
2
3
4
5
6
7
8
9
Precio de la fruta
0 Apple 160
1 plátano 100
2 uvas 60
3 naranja 80

Opción 3: Usando .Iloc []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
dieciséis
17
18
importar pandas como PD
data = 'dog': ['a', 'b', 'c', 'd'],
'Edad': [2, 4, 3, 1]
DF = PD.DataFrame (datos)
df.Iloc [:, 0: 2]

Producción:

1
2
3
4
5
6
7
8
9
Edad del perro
0 A 2
1 b 4
2 C 3
3 D 1

Opciones 4: Usando .ix []

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
dieciséis
17
18
importar pandas como PD
data = 'name': ['a', 'b', 'c', 'd'],
'Número de rollo': [21, 25, 19, 49]
DF = PD.DataFrame (datos)
Imprimir (DF.ix [:, 0: 2])

Producción:

1
2
3
4
5
6
7
8
9
Número de rollo de nombre
0 A 21
1 b 25
2 C 19
3 D 49

Conclusión

Discutimos sobre los pandas en Python, el marco de datos, las ventajas de los pandas y cómo usar pandas para seleccionar múltiples columnas de un marco de datos. Hay cuatro opciones que discutimos al seleccionar múltiples columnas: usando la indexación de clave básica ",".ix ",".loc "y".iloc ”, respectivamente.