Pyspark Case SQL cuando

Pyspark Case SQL cuando

Discutiremos sobre Pyspark, una tecnología significativa de procesamiento de datos que puede manejar datos en una escala de petabyte, Pyspark cuando de otro modo y SQL en Pyspark cuando.

Que es pyspark?

Spark es un motor de procesamiento distribuido de uso general, en memoria y distribuido que le permite manejar los datos en varias máquinas de manera eficiente. Puede desarrollar aplicaciones Spark para procesar los datos y ejecutarlos en la plataforma Spark usando Pyspark. El AWS ofrece EMR administrado y la plataforma Spark. Puede usar Pyspark para procesar datos y establecer un clúster EMR en AWS. Pyspark puede leer los datos de varios formatos de archivo, incluidos CSV, Parquet, JSON y Bases de datos. Debido a que Spark se implementa principalmente en Scala, la creación de aplicaciones de Spark en Scala o Java le permite acceder a más de sus características que escribir programas Spark en Python o R. Pyspark, por ejemplo, actualmente no admite el conjunto de datos. Si está haciendo una ciencia de datos, Pyspark es una mejor opción que Scala porque hay muchas bibliotecas populares de ciencias de datos escritas en Python, como Numpy, TensorFlow y Scikit-Learn.

Pyspark "Cuándo" y "De lo contrario"

"De lo contrario" y "cuándo" en Pyspark, y el caso SQL "cuando" trabaja con DataFrame Pyspark, como SQL y otros lenguajes de programación, tienen un mecanismo de verificar múltiples condiciones en orden y devolver un valor cuando se cumple la primera condición utilizando SQL como SQL caso y cuando(). De lo contrario() Las expresiones son similares a las declaraciones de "conmutación" e "if-then-else" en su funcionalidad.

Pyspark cuando de otra manera - Cuando () es una función SQL que devuelve un tipo de columna, y de lo contrario () es una función de columna que no produce ninguno/nulo, si no se usa ().

Caso SQL en Pyspark cuando - Esto es similar a una expresión de SQL, y se usa de la siguiente manera: si la condición 1 es verdadera, entonces el resultado es verdadero y viceversa.

Ejemplo 1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
dieciséis
17
Org de importación.apache.Chispa - chispear.sql.funciones.cuando
val df = seq (
("A B", "2019-01-19"),
("A A", "2019-01-10"),
("B F", "2019-01-15"),
("B E", "2019-01-30"),
("C B", "2019-01-22"),
("D O", "2019-01-30"),
("E U", "2019-01-22")
df.WithColumn ("Ends_with_b", When ($ "Word".Endswith ("b"), verdadero).de lo contrario (falso))

Ejemplo 2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
dieciséis
17
Org de importación.apache.Chispa - chispear.sql.funciones.element_at, dividido, cuando
val df = seq (
("Ba", "humano"),
("AB", "Humano"),
("E_bot", "bot"),
("D_bot", "bot"),
("TT", "humano"),
("A_bot", "bot"),
("C_bot", "bot")
).TODF ("Usuario", "Tipo")
df.WithColumn ("isbot", cuando ($ "usuario".Endswith ("Bot"), element_at (Split ($ "usuario", "_"), 1))))

Conclusión

Discutimos sobre Pyspark, Pyspark cuando, Pyspark lo contrario y el caso SQL en Pyspark cuando se usan para verificar múltiples condiciones y devolver el primer elemento que sigue la condición, junto con algunos ejemplos.