En Python, Pyspark es un módulo Spark utilizado para proporcionar un tipo similar de procesamiento como Spark usando DataFrame. Proporciona varios métodos para devolver las filas superiores del marco de datos de Pyspark. Proporcionaremos ejemplos para las 5 formas de mostrar las filas superiores en Pyspark:
- Pyspark - show ()
- Pyspark - Collect ()
- Pyspark - Take ()
- Pyspark - Primero ()
- Pyspark - Head ()
Pyspark - show ()
Se utiliza para mostrar las filas superiores o el marco de datos completo en un formato tabular.
Sintaxis:
marco de datos.Show (n, vertical, truncado)
Dónde, DataFrame es la entrada Pyspark DataFrame.
Parámetros:
- n es el primer parámetro opcional que representa el valor entero para obtener las filas superiores en el marco de datos y n representa el número de filas superiores que se mostrarán. Por defecto, mostrará todas las filas de DataFrame
- El parámetro vertical toma valores booleanos que se utilizan para mostrar el marco de datos en el parámetro vertical cuando está configurado en verdadero. y muestre el marco de datos en formato horizontal cuando se establece en falso. Por defecto, se mostrará en formato horizontal
- Truncate se usa para obtener el número de caracteres de cada valor en el marco de datos. Tomará un entero como algunos personajes para mostrarse. Por defecto, mostrará todos los caracteres.
Ejemplo 1:
En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostraremos el marco de datos utilizando el método show () sin ningún parámetro. Por lo tanto, esto da como resultado un marco de datos tabular al mostrar todos los valores en el marco de datos
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# marco de datos
df.espectáculo()
Producción:
Ejemplo 2:
En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostraremos el marco de datos utilizando el método show () con n parámetro. Establecemos el valor n en 4 para mostrar las 4 filas principales de DataFrame. Por lo tanto, esto da como resultado un marco de datos tabular al mostrar 4 valores en el marco de datos.
#Importa el módulo pyspaprk
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Obtenga las 4 filas principales en el marco de datos
df.show (4)
Producción:
Pyspark - Collect ()
El método recopilar () en Pyspark se utiliza para mostrar los datos presentes en DataFrame Row por fila desde la parte superior.
Sintaxis:
marco de datos.recolectar()
Ejemplo:
Mostraramos todo el método de DataFrame con recopilación ()
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Mostrar
df.recolectar()
Producción:
[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67),
Fila (dirección = 'hyd', edad = 16, altura = 3.79, nombre = 'ojaswi', rollno = '002', peso = 34),
Fila (dirección = 'patna', edad = 7, altura = 2.79, nombre = 'Gnanesh Chowdary', rollno = '003', peso = 17),
Fila (dirección = 'hyd', edad = 9, altura = 3.69, nombre = 'rohith', rollno = '004', peso = 28),
Fila (dirección = 'hyd', edad = 37, altura = 5.59, nombre = 'sridevi', rollNo = '005', peso = 54)]
Pyspark - Take ()
Se usa para mostrar las filas superiores o el marco de datos completo.
Sintaxis:
marco de datos.tomado)
Dónde, DataFrame es la entrada Pyspark DataFrame.
Parámetros:
n es el parámetro requerido que representa el valor entero para obtener las filas superiores en el marco de datos.
Ejemplo 1:
En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostrará 3 filas desde el marco de datos utilizando el método Take (). Entonces, esto resulta de las 3 principales filas del marco de datos.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Muestra las 3 filas principales de DataFrame
df.tomar (3)
Producción:
[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67),
Fila (dirección = 'hyd', edad = 16, altura = 3.79, nombre = 'ojaswi', rollno = '002', peso = 34),
Fila (dirección = 'patna', edad = 7, altura = 2.79, nombre = 'Gnanesh Chowdary', rollNo = '003', peso = 17)]
Ejemplo 2:
En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostrará 3 filas desde el marco de datos utilizando el método Take (). Entonces, esto resulta de la primera fila de DataFrame.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Muestra la 1 fila superior desde el marco de datos
df.toma 1)
Producción:
[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67)]
Pyspark - Primero ()
Se usa para mostrar las filas superiores o el marco de datos completo.
Sintaxis:
marco de datos.primero()
Dónde, DataFrame es la entrada Pyspark DataFrame.
Parámetros:
Ejemplo:
En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostrará 1 fila desde DataFrame utilizando el primer método (). Entonces, esto solo resulta en la primera fila.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Muestra la 1 fila superior desde el marco de datos
df.Primero (1)
Producción:
[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67)]
Pyspark - Head ()
Se usa para mostrar las filas superiores o el marco de datos completo.
Sintaxis:
marco de datos.Cabeza (n)
Dónde, DataFrame es la entrada Pyspark DataFrame.
Parámetros:
n es el parámetro opcional que representa el valor entero para obtener las filas superiores en el marco de datos y n representa el número de filas superiores que se mostrarán. De forma predeterminada, mostrará la primera fila desde DataFrame, si N no se especifica.
Ejemplo 1:
En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostrará 3 filas desde el marco de datos utilizando el método head (). Entonces, estos resultados superan las 3 filas de DataFrame.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Muestra las 3 filas principales de DataFrame
df.Cabeza (3)
Producción:
[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67),
Fila (dirección = 'hyd', edad = 16, altura = 3.79, nombre = 'ojaswi', rollno = '002', peso = 34),
Fila (dirección = 'patna', edad = 7, altura = 2.79, nombre = 'Gnanesh Chowdary', rollNo = '003', peso = 17)]
Ejemplo 2:
En este ejemplo, vamos a crear un marco de datos de Pyspark con 5 filas y 6 columnas y mostrará 1 fila desde DataFrame utilizando el método Head (). Entonces, esto resulta a la 1 fila superior del marco de datos.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'Nombre': 'Sravan', 'Age': 23,
'Altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'Ojaswi', 'Age': 16,
'Altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7,
'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'Rollno': '004', 'Nombre': 'Rohith', 'Age': 9,
'Altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37,
'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
# Muestra la 1 fila superior desde el marco de datos
df.Cabeza (1)
Producción:
[Fila (dirección = 'Guntur', edad = 23, altura = 5.79, nombre = 'sravan', rollno = '001', peso = 67)]
Conclusión
En este tutorial, discutimos cómo obtener las filas superiores del Pyspark DataFrame usando show (), recopilar (). Take (), head () y primero () métodos. Notamos que el método show () devolverá las filas superiores en un formato tabular y los métodos restantes devolverán la fila por fila.