Python urlparse

Python urlparse
Las URL con frecuencia incluyen datos esenciales que podrían explotarse al evaluar un sitio web, la búsqueda de un participante o la distribución del material en cada área. Aunque a veces parecen ser bastante complejos, Python viene con una variedad de bibliotecas útiles que le permiten analizar las URL y recuperar sus partes constituyentes.

En Python 3, el paquete Urllib permite a los usuarios explorar sitios web desde su script. El urllib contiene varios módulos para administrar diferentes funciones de URL. Al abrir una URL en la programación de Python, la biblioteca de urllib es crucial. Le permite visitar e interactuar con los sitios web utilizando su localizador de recursos universales. Esta biblioteca nos proporciona paquetes como: Urllib.Solicitud, urllib.Error, urllib.analizar y urllib.robotparser.

En este fragmento, a pesar de que este es un gran tema para comprender todo a la vez, simplemente prestaremos atención al urllib.módulo de análisis. Más particularmente, el método urlParse ().

El urllib.Se utiliza el módulo de análisis para analizar las URL de los sitios web. Implica que al dividir una URL, podemos obtener sus diversas partes. Además, se puede usar para obtener cualquier URL de una URL de origen y ruta de referencia.

Cargando el urllib:

Python incluye a Urllib como una biblioteca estándar. Para usarlo, primero debemos importar esta biblioteca. Para esto, abriremos la herramienta Spyder y escribiremos el siguiente comando:

Importar urllib

Módulo urlParse ():

El módulo URLPARSE () ofrece un método definido para analizar un localizador de recursos uniforme (URL) en secciones distintas. En pocas palabras, este módulo nos permite separar fácilmente las URL en diferentes componentes y filtrar cualquier parte particular de las URL. Simplemente divide la URL en 6 componentes que se relacionan con la sintaxis general de un

URL: esquema:/netloc/ruta; parámetros?consulta#fragmento.

Comencemos ahora nuestro tutorial con un ejemplo práctico.

de urllib.PARSE IMPORT ORLPARSE, URLUNPARSE

En este fragmento de código, lo primero que hicimos es importar la urlparse y la urlunparse desde el urllib.analizar gramaticalmente. Esto habilitará todas las características requeridas del método urlParse () en nuestra herramienta.

de urllib.PARSE IMPORT ORLPARSE
ejemploUrl = urlparse ('https: // linuxhint.com/')
Imprimir ("Componentes de URL:", EjemploRURL)

Ahora, como podemos usar el método urlParse (). Hemos definido una variable llamada "Ejemplourl" que almacenará los valores de las cadenas. Luego, utilizamos el operador de asignación "=" para asignar valores. Al lado, hemos llamado al método "urlParse ()". Dentro de los aparatos ortopédicos del método urlParse (), entre las comas invertidas, hemos definido una URL de un sitio web en particular en el que queremos realizar el análisis. La declaración de los aparatos ortopédicos de la instrucción print () contiene un texto citado y el nombre de la variable, separado por una coma.

La imagen a continuación nos muestra la siguiente salida.

Puede ver que la URL proporcionada se divide en 6 componentes. Ahora, antes de sumergirnos en el aprendizaje de estos componentes, primero aprenderemos cómo volver a poner estos componentes a la URL original.

Para este propósito, el método que se usa es "urlunParse ()".

de urllib.PARSE IMPORT ORLPARSE, URLUNPARSE
ejemploUrl = urlparse ('https: // linuxhint.com/')
Imprimir ("Componentes de URL:", EjemploRURL)
Unpar_url = UrlunParse (EjemploRURL)
Imprimir ("URL original:", Unpar_url)

Ya hemos importado el Urlunparse desde el urllib.analizar en el fragmento anterior. Ahora, crearemos una variable llamada "Unpar_url". Invocando el método "urlunParse ()" y escribiendo el nombre de la variable, asignamos la apertura de URL para el método urlParse () i.mi. "Ejemplo". En el último paso, use la instrucción "print ()" para mostrar un texto y el nombre de la variable para incomparar la URL.

La URL analizada se muestra en la imagen adjunta a continuación.

Se ha demostrado el uso de las funciones de urlParse () y urlunParse (). Ahora, exploremos la importancia de cada elemento del parseresult que se devolvió.

Componentes urlParse ():

El método urlParse () divide la URL proporcionada en 6 trozos que son esquema, netloc, ruta, parámetros, consulta y fragmento.

El primer componente es el esquema. El esquema se utiliza para especificar el protocolo que se utilizará para adquirir los recursos en línea que podrían ser HTTP o HTTPS. El siguiente componente es netloc: net se refiere a la red, mientras que la ubicación de LOC significa. Entonces, nos cuenta sobre la ubicación de red de URLS proporcionada. El componente camino Contiene la vía precisa que un navegador web debe tomar para adquirir el recurso proporcionado. El parámetros son los parámetros de los elementos de ruta. El consulta se adhiere al componente de ruta y ofrece un flujo de datos que el recurso puede utilizar. El último componente fragmento simplemente clasifica una parte.

Como se mencionó anteriormente, cada uno de estos elementos contiene algunos datos sobre la URL. Dado que el objeto devuelto se proporciona como tupla, todos estos componentes también se pueden recuperar utilizando la posición de índice.

de urllib.PARSE IMPORT ORLPARSE
ejemploUrl = urlparse ('https: // linuxhint.com/')
Imprimir (Ejemplourl.esquema, "==", EjemplosUrl [0])
Imprimir (Ejemplourl.NetLoc, "==", EjemploRURL [1])
Imprimir (Ejemplourl.ruta, "==", EjemploRURL [2])
Imprimir (Ejemplourl.parámetros, "==", EjemploRURL [3])
Imprimir (Ejemplourl.consulta, "==", EjemplosUrl [4])
Imprimir (Ejemplourl.fragmento, "==", EjemploRURL [5])

En este fragmento de código, definimos índices para cada componente por separado dentro de la instrucción print (). Utilizamos el nombre de la variable con el nombre del componente contra el cual mencionamos el nombre de la variable con la posición de índice en la que se encuentra en el flujo. Continuaremos usando esta secuencia hasta que hayamos mencionado todos los componentes con las posiciones de índice correspondientes.

Las cadenas resultantes se pueden ver en la imagen aquí.

A pesar de que estos componen la mayoría del contenido indexado, también se pueden usar más palabras clave para recuperar ciertas funcionalidades adicionales, como nombre de host, nombre de usuario, contraseña y puerto. El nombre de host identifica el nombre de host de la URL especificada, la nombre de usuario contiene el nombre del usuario, la contraseña Mantiene la contraseña que el usuario ha proporcionado, mientras que el puerto le dice el número de puerto.gramo\

Conclusión

En el tema de hoy, hemos discutido el módulo UrlParse () proporcionado por el Urllib.analizar gramaticalmente. Explicamos el propósito y la usabilidad del método urlParse (). Elaboramos en diferentes componentes del método UrlParse () y también cómo hacemos acceso. Al implementar los códigos de ejemplo prácticos en la URL de cualquier sitio web especificado que emplee la herramienta Spyder, tratamos de hacer que sea simple, comprensible pero beneficioso aprendizaje para usted.