En Python, Pyspark es un módulo de chispa utilizado para proporcionar un tipo de procesamiento similar como Spark.
RDD significa conjuntos de datos distribuidos resilientes. Podemos llamar a RDD una estructura de datos fundamental en Apache Spark.
Sintaxis:
1 | Spark_app.sparkcontext.Paralelizar (datos) |
Podemos mostrar los datos en formato tabular. La estructura de datos utilizada es DataFrame.El formato tabular significa que almacena datos en filas y columnas.
Sintaxis:
En Pyspark, podemos crear un marcado de datos desde la aplicación Spark con el método createATATAFRame ().
Sintaxis:
1 | Spark_app.creatataFrame (input_data, columnas) |
Donde input_data puede ser un diccionario o una lista para crear un marco de datos a partir de estos datos, y si el input_data es una lista de diccionarios, entonces las columnas no son necesarias. Si es una lista anidada, tenemos que proporcionar los nombres de la columna.
Ahora, discutamos cómo verificar los datos dados en Pyspark RDD o DataFrame.
Creación de Pyspark Rdd:
En este ejemplo, crearemos un RDD llamado Estudiantes y mostraremos una acción coleccionista ().
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Estudiantes = Spark_App.sparkcontext.Paralelizar ([[
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd'])
#display el rdd usando coleccionar ()
Imprimir (estudiantes.recolectar())
Producción:
['Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
Creación de Pyspark DataFrame:
En este ejemplo, crearemos un marco de datos llamado DF a partir de los datos de los estudiantes y los mostraremos utilizando el método show ().
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Disprazando el marco de datos
df.espectáculo()
Producción:
Método 1: isInstance ()
En Python, el método isInstance () se usa para comparar el objeto dado (datos) con el tipo (RDD/DataFrame)
Sintaxis:
1 | IsInstance (Object, RDD/DataFrame) |
Se necesitan dos parámetros:
Parámetros:
Devolverá los valores booleanos (verdadero/falso).
Suponga que los datos son RDD y el tipo también es RDD, entonces devolverá verdadero, de lo contrario, devolverá False.
Del mismo modo, si los datos son DataFrame y el tipo también es DataFrame, entonces devolverá verdadero, de lo contrario, devolverá False.
Ejemplo 1:
Verifique el objeto RDD
En este ejemplo, aplicaremos isInstance () para el objeto RDD.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession y DataFrame para crear una sesión
de Pyspark.SQL Import Sparksession, DataFrame
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Estudiantes = Spark_App.sparkcontext.Paralelizar ([[
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd'])
#Chek si el objeto de los estudiantes es RDD
Impresión (Isinstance (Estudiantes, RDD))
#Chek Si el objeto de los estudiantes es DataFrame
Imprimir (IsInstance (estudiantes, DataFrame))
Producción:
1 2 3 | Verdadero |
Primero, comparamos a los estudiantes con RDD; Devolvió verdadero porque es un RDD; Y luego comparamos a los estudiantes con DataFrame, devolvió falso porque es un RDD (no un marco de datos).
Ejemplo 2:
Verifique el objeto DataFrame
En este ejemplo, aplicaremos isInstance () para el objeto DataFrame.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession, DataFrame para crear una sesión
de Pyspark.SQL Import Sparksession, DataFrame
#Importa la función col
de Pyspark.sql.Funciones Importar Col
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Check si el DF es RDD
Impresión (IsInstance (DF, RDD))
#Check Si el DF es DataFrame
Imprimir (IsInstance (DF, DataFrame))
Producción:
1 2 3 | FALSO |
Primero, comparamos DF con RDD; Devolvió falso porque es un marco de datos y luego comparamos DF con DataFrame; Devolvió verdadero porque es un marcado de datos (no un RDD).
Método 2: Tipo ()
En Python, el método type () devuelve la clase del objeto especificado. Se necesita objeto como parámetro.
Sintaxis:
1 | tipo (objeto) |
Ejemplo 1:
Verifique un objeto RDD.
Aplicaremos tipo () al objeto RDD.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
# Importar RDD de Pyspark.RDD
de Pyspark.RDD import rdd
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
Estudiantes = Spark_App.sparkcontext.Paralelizar ([[
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd'])
#Coble el tipo de estudiantes
Imprimir (tipo (estudiantes))
Producción:
1 |
Podemos ver que la clase RDD se devuelve.
Ejemplo 2:
Verifique el objeto DataFrame.
Aplicaremos tipo () en el objeto DataFrame.
#Importa el módulo Pyspark
importar pyspark
#Import Sparksession para crear una sesión
de Pyspark.SQL Import Sparksession
#Importa la función col
de Pyspark.sql.Funciones Importar Col
#cree una aplicación llamada Linuxhint
Spark_app = Sparksession.constructor.AppName ('Linuxhint').getorcreate ()
# Crear datos de estudiante con 5 filas y 6 atributos
estudiantes = [
'Rollno': '001', 'nombre': 'sravan', 'edad': 23, 'altura': 5.79, 'Peso': 67, 'Dirección': 'Guntur',
'Rollno': '002', 'Nombre': 'ojaswi', 'edad': 16, 'altura': 3.79, 'Peso': 34, 'Dirección': 'Hyd',
'Rollno': '003', 'Nombre': 'Gnanesh Chowdary', 'Age': 7, 'Altura': 2.79, 'Peso': 17, 'Dirección': 'Patna',
'rollno': '004', 'nombre': 'rohith', 'edad': 9, 'altura': 3.69, 'Peso': 28, 'Dirección': 'Hyd',
'Rollno': '005', 'Nombre': 'Sridevi', 'Age': 37, 'Altura': 5.59, 'Peso': 54, 'Dirección': 'Hyd']
# Crea el DataFrame
DF = Spark_App.Createdataframe (estudiantes)
#Chek el tipo de DF
Imprimir (tipo (DF))
Producción:
1 |
Podemos ver que la clase DataFrame se devuelve.
Conclusión
En el artículo anterior, vimos dos formas de verificar si los datos u objeto dados son un RDD o DataFrame usando isInstance () y type (). Debe tener en cuenta que ISInStance () da como resultado valores booleanos basados en el objeto dado: si el tipo de objeto es el mismo, entonces devolverá verdadero, de lo contrario falso. Y tipo () se usa para devolver la clase de los datos u objeto dados.