Muestre las filas superiores del marcador de datos de Pyspark

En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. Proporciona varios métodos para devolver las filas superiores del marco de datos de Pyspark. Proporcionaremos ejemplos para las 5 formas de mostrar las filas superiores en Pyspark:

Pyspark - show ()
Pyspark - Collect ()
Pyspark - Take ()
Pyspark - Primero ()
Pyspark - Head ()

Pyspark - show ()

Se utiliza para mostrar las filas superiores o el marco de datos completo en un formato tabular.

Sintaxis:

marco de datos.Show (n, vertical, truncado)

Dónde, DataFrame es la entrada Pyspark DataFrame.

Parámetros:

n es el primer parámetro opcional que representa el valor entero para obtener las filas superiores en el marco de datos y n representa el número de filas superiores que se mostrarán. Por defecto, mostrará todas las filas de DataFrame
El parámetro vertical toma valores booleanos que se utilizan para mostrar el marco de datos en el parámetro vertical cuando está configurado en verdadero. y muestre el marco de datos en formato horizontal cuando se establece en falso. Por defecto, se mostrará en formato horizontal
Truncate se usa para obtener el número de caracteres de cada valor en el marco de datos. Tomará un entero como algunos personajes para mostrarse. Por defecto, mostrará todos los caracteres.

Ejemplo 1:

En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostraremos el marco de datos utilizando el método show () sin ningún parámetro. Por lo tanto, esto da como resultado un marco de datos tabular al mostrar todos los valores en el marco de datos

#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# marco de datos
df.espectáculo()

Producción:

Ejemplo 2:

En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostraremos el marco de datos utilizando el método show () con n parámetro. Establecemos el valor n en 4 para mostrar las 4 filas principales de DataFrame. Por lo tanto, esto da como resultado un marco de datos tabular al mostrar 4 valores en el marco de datos.

#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Obtenga las 4 filas principales en el marco de datos
df.show (4)

Producción:

Pyspark - Collect ()

El método recopilar () en Pyspark se utiliza para mostrar los datos presentes en DataFrame Row por fila desde la parte superior.

Sintaxis:

marco de datos.recolectar()

Ejemplo:

Mostraramos todo el método de DataFrame con recopilación ()

Producción:

[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67),
Fila (dirección = 'hyd', edad = 16, altura = 3.79, nombre = 'ojaswi', rollno = '002', peso = 34),
Fila (dirección = 'patna', edad = 7, altura = 2.79, nombre = 'Gnanesh Chowdary', rollno = '003', peso = 17),
Fila (dirección = 'hyd', edad = 9, altura = 3.69, nombre = 'rohith', rollno = '004', peso = 28),
Fila (dirección = 'hyd', edad = 37, altura = 5.59, nombre = 'sridevi', rollNo = '005', peso = 54)]

Pyspark - Take ()

Se usa para mostrar las filas superiores o el marco de datos completo.

Sintaxis:

marco de datos.tomado)

Dónde, DataFrame es la entrada Pyspark DataFrame.

Parámetros:

n es el parámetro requerido que representa el valor entero para obtener las filas superiores en el marco de datos.

Ejemplo 1:

En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostrará 3 filas desde el marco de datos utilizando el método Take (). Entonces, esto resulta de las 3 principales filas del marco de datos.

Producción:

Ejemplo 2:

Producción:

[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67)]

Pyspark - Primero ()

Se usa para mostrar las filas superiores o el marco de datos completo.

Sintaxis:

marco de datos.primero()

Dónde, DataFrame es la entrada Pyspark DataFrame.

Parámetros:

No tomará parámetros.

Ejemplo:

En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostrará 1 fila desde DataFrame utilizando el primer método (). Entonces, esto solo resulta en la primera fila.

Producción:

[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67)]

Pyspark - Head ()

Se usa para mostrar las filas superiores o el marco de datos completo.

Sintaxis:

marco de datos.Cabeza (n)

Dónde, DataFrame es la entrada Pyspark DataFrame.

Parámetros:

n es el parámetro opcional que representa el valor entero para obtener las filas superiores en el marco de datos y n representa el número de filas superiores que se mostrarán. De forma predeterminada, mostrará la primera fila desde DataFrame, si N no se especifica.

Ejemplo 1:

En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostrará 3 filas desde el marco de datos utilizando el método head (). Entonces, estos resultados superan las 3 filas de DataFrame.

Producción:

Ejemplo 2:

En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostrará 1 fila desde DataFrame utilizando el método Head (). Entonces, esto resulta a la 1 fila superior del marco de datos.

Producción:

[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67)]

Conclusión

En este tutorial, discutimos cómo obtener las filas superiores del Pyspark DataFrame usando show (), recopilar (). Take (), head () y primero () métodos. Notamos que el método show () devolverá las filas superiores en un formato tabular y los métodos restantes devolverán la fila por fila.

c agudo

¿Qué es el sistema?.IO espacio de nombres en C#

Sistema.IO es un espacio de nombres en la C# que proporciona un conjunto de clases, estructuras, enu...

Lorenzo Morales

Estibador

¿Qué son los monturas de enlace de Docker??

Un montaje de enlace de Docker es un tipo de montaje que permite a los usuarios asignar un directori...

Daniela Villaseñor

Base de datos Oracle

¿Oracle Fusion se considera mejor que SAP??

Oracle Fusion (ERP basado en la nube) tiene una interfaz fácil de usar, mientras que SAP (Cloud y lo...

José Luis Villagómez