Una base de datos es una colección de datos que se almacenan en un sistema informático. SQL es uno de los lenguajes de programación más universales que puede realizar miles de funciones, incluidas la lectura, la escritura y la manipulación de datos.
Es el lenguaje de programación estándar para la gestión de bases de datos relacionales y es utilizado por informáticos, analistas de datos y científicos de datos en todo el mundo.
En esta guía, repasaremos las declaraciones o consultas SQL que se utilizan ampliamente en la ciencia de datos.
Esta guía utiliza el software PostgreSQL para ejecutar las consultas. Puede descargarlo desde el sitio web oficial haciendo clic aquí.
Dicho esto, comencemos!1
1. Seleccionando todas las columnas
La instrucción SELECT es una de las consultas SQL más fundamentales. Esta declaración le ayuda a seleccionar algunas o todas las columnas de la base de datos. Utilizará esta función en sus proyectos de ciencia de datos.
Para seleccionar todas las columnas, use '*' como se muestra en el siguiente ejemplo:
El "producto" es una tabla que consta de 3 columnas. Después de ejecutar la consulta anterior, podemos mirar las columnas que están presentes dentro de la tabla de productos.
2. De la cláusula
De la cláusula viene después de seleccionar y ayuda a identificar dónde se encuentra la columna en la tabla por nombre.
Al especificar múltiples tablas, use comas y espacio entre los nombres de las tablas. Esto se muestra en el siguiente ejemplo:
La salida es más específica con una sola columna. Esto se muestra en lo siguiente:
3. Dónde cláusula
La siguiente declaración después de donde. Nos ayuda a filtrar los datos de la base de datos en función de ciertas condiciones.
Producción:
4. Grupo por declaración
Esta cláusula se usa para seleccionar y agrupar las filas que tienen los mismos valores.
En la consulta SQL dada, agruparemos dos filas donde el Product_Price es igual a 6.
La salida tendrá una nueva columna llamada Count. Es seguido por la columna Product_Name como se muestra en lo siguiente:
5. Tener una declaración
Funciones de agregación como Sum, AVG, Max, Min, etc. no se puede usar dentro de la cláusula WHERE. Para usarlos, debe usar la declaración de tener. Esto se demuestra con la ayuda del siguiente código:
Producción:
6. Orden por declaración
Como del nombre, el orden por comando se usa para enumerar los registros en orden ascendente o descendente. Para ascender, use el orden solo o agregue la palabra clave "ass" a lo largo de él. Del mismo modo, para ordenar los valores en orden descendente, use la palabra clave "DESC" junto con el orden por.
Para orden descendente:
Producción:
Del mismo modo, para el orden ascendente:
Producción:
7. Declaración de límite
El límite es una declaración SQL importante que le ayuda a especificar el número de registros para devolver de la base de datos. Por ejemplo, para devolver solo dos filas de nuestra base de datos, use el comando de límite de la siguiente manera:
Producción:
8. Funciones de datos predefinidas
Las funciones predefinidas son muy importantes en SQL, ya que ayudan a los científicos de datos a ahorrar tiempo. Estas funciones también se denominan funciones agregadas que funcionan en un conjunto de filas en lugar de una sola fila y devuelven un valor único. Hay muchas funciones agregadas diferentes. Algunos importantes se enumeran en lo siguiente:
Count (*) -> Devuelve el número de filas.
Min () -> encuentra el valor mínimo en la columna.
Max () -> encuentra el valor máximo en la columna.
Sum () -> la suma de todos los valores dentro del nombre de la columna.
¿Cuál es el precio máximo en nuestra tabla de datos??
Producción:
9. Interno, izquierdo y derecho se une
Hay muchos tipos de uniones, pero los tres principales se discuten aquí.
La unión interna es la unión más simple y común que se utiliza para crear una nueva tabla que tiene filas coincidentes en columnas izquierda y derecha.
Producción:
La unión izquierda devuelve todas las filas en la columna izquierda y las filas coincidentes en la columna derecha.
Producción:
Aquí, nos unimos a la columna Product_Profit de la Tabla2 con la columna Product_Name de la Tabla 1.
La unión derecha es lo opuesto a la izquierda. Devuelve todas las filas presentes en la columna derecha y las filas coincidentes en la columna izquierda.
10. Subcontrol
Por último, pero no menos importante, tenemos una subconsulta que también se conoce como una consulta interna. Está anidado dentro de una consulta más grande que puede ocurrir dentro de la cláusula Select o Where Where.
Una subconsulta no se limita a estas cláusulas. También puede ocurrir en otras cláusulas como Eliminar, Insertar o Actualizar.
Otra característica importante de la subconsulta es que puede usar los operadores lógicos como>, <, or =. A subquery is also executed first before its parent query.
Por ejemplo:
Producción:
Conclusión
En este artículo, repasamos las importantes consultas SQL para los científicos de datos. Estas consultas son muy comunes y pueden ser utilizadas por profesionales como ingenieros de datos, analistas de datos, etc. La mejor manera de aprender todas estas consultas es crear su propia base de datos y luego practicar tanto como pueda. Con esta guía como fundación, ahora puede aprender sobre consultas más avanzadas para la ciencia de datos.