urllib.robotparser

urllib.robotparser
En esta publicación, aprenderá sobre el módulo RobotParser en el paquete de Urllib, que proporciona la clase RobotFileParser para determinar si un agente de usuario determinado puede acceder a una URL especificada en los robots.archivo txt.

Clase RobotFileParser

La clase RobotFileParser proporciona varios métodos para leer, analizar y responder preguntas sobre los robots.archivo txt en un recurso dado.

Los métodos compatibles incluyen:

  1. set_url () - Define la URL para los robots.archivo txt.
  2. leer () - lee los robots.TXT File y lo alimenta a los robots.txt analizador.
  3. analizar (líneas) - analizar el argumento de la línea.
  4. can_fetch (userAgent): verifica si un agente de usuario especificado puede acceder a una URL especificada como se especifica en los robots.archivo txt.
  5. mtime () - Devuelve el tiempo los robots.El archivo txt se obtuvo,
  6. modificado () - Actualiza el último tiempo de búsqueda para los robots.txt a la hora actual.
  7. Crawl_delay (UserAgent, URL) - Devuelve el valor del parámetro Crawl_Delay.
  8. request_rate (userAgent): devuelve el parámetro de tasa de solicitud como una tupla nombrada.
  9. sitio_maps () - Devuelve el parámetro Sitemap de los robots.archivo txt como lista.

Caso de uso de ejemplo

El siguiente código muestra el uso de la clase RobotFileParser y los métodos proporcionados.

importar urllib.robotparser
rp = urllib.robotparser.RobotFileParser ()
RP.set_url ("https: // linuxhint.com/robots.TXT")
RP.leer()
req_rate = rp.request_rate ("*")
req_rate.segundos
RP.Crawl_delay ("*")
RP.can_fetch ("*", "https: // linuxhint.com/suscríbete a linuxhint-com/")
RP.can_fetch ("*", "https: // linuxhint.com/suscríbete a linuxhint-com/wp-admin ")

El código anterior comienza importando el módulo RobotParser y creando una instancia de la clase RobotFileParser.

Luego pasamos la URL a los robots.archivo txt y enviar el archivo al analizador. Luego usamos los métodos proporcionados para realizar diversas acciones.
El código anterior debería devolver:

5
30
Verdadero
FALSO

Conclusión

En este artículo, discutimos cómo usar el módulo RobotParser del paquete Urllib que le permite realizar varias acciones según lo dispuesto en los robots.archivo txt. Siéntase libre de explorar el código fuente para obtener más información.