Robots.txt

Sin valoraciones

Robots.txt

El archivo robots es aquel que ponemos en la raíz del servidor para indicarle a Google qué debe ver, qué no debe ver, qué debe indexar y qué no. Y todo esto podemos especificarlo, además, por bot (Googlebot, Googlebot Mobile, Yahoo, Bing, Slurp…). Es decir, podemos especificar qué ver e indexar por user-agent de la visita que estemos recibiendo.

Nutricion enteral y parenteral

El robots.txt es crítico para tener control sobre lo que se indexa o no

En este archivo es importante abrir todas aquellas URLs y extensiones de archivo que queramos que vean y/o indexen los bots, especialmente imágenes, CSS y JS. Digo especialmente, porque si Google no puede acceder a dichos archivos, no verá la página como un usuario final (con su maquetación e interacciones) y eso no es bueno.

Cursos de Sketchup

Lo mismo para las que no queramos que vea/indexe: página de carrito, login, recuperación de password…

Y para los parámetros que no deba seguir como filtros de ordenación, facetas…

¡Ah! y poner también la URL del sitemap, que acostumbramos a dejárnosla.

 

 

Funciones y Uso del archivo robots.txt:

  1. Control de Rastreo:
    • El principal propósito del archivo robots.txt es controlar qué partes del sitio web pueden ser rastreadas por los motores de búsqueda y otros bots.
    • Esto se logra mediante la especificación de directivas para diferentes agentes de usuario (user agents), como Googlebot, Bingbot, entre otros.
  2. Estructura y Ubicación:
    • El archivo robots.txt se encuentra en la raíz del dominio del sitio web. Por lo tanto, la URL completa para acceder a él sería http://ejemplo.com/robots.txt.
    • Es un archivo de texto simple que sigue una estructura básica de reglas y directivas.
  3. Directivas Principales:
    • User-agent: Define para qué agente de usuario se aplican las siguientes reglas. Ejemplo: User-agent: * se aplica a todos los bots.
    • Disallow: Indica qué partes del sitio no deben ser rastreadas. Por ejemplo, Disallow: /admin/ evitará que los bots accedan a la carpeta «admin».
    • Allow: Es opcional y se usa para permitir el acceso a partes específicas de un sitio que están bloqueadas de forma más general. Por ejemplo, Allow: /publico/ permite acceso a la carpeta «publico» si la regla anterior es para bloquear a todos los bots.
    • Sitemap: Puedes especificar la ubicación del archivo XML del sitemap usando la directiva Sitemap: para ayudar a los motores de búsqueda a encontrar y rastrear todas las páginas importantes de tu sitio.
  4. Consideraciones Adicionales:
    • Es importante tener en cuenta que el archivo robots.txt es público y cualquier persona puede ver qué partes de tu sitio web estás bloqueando.
    • No todos los bots respetan las reglas del archivo robots.txt. Aunque la mayoría de los motores de búsqueda principales lo hacen, algunos bots maliciosos pueden ignorar estas directivas.
  5. Errores Comunes:
    • Los errores en el archivo robots.txt pueden llevar a problemas de rastreo y a que partes importantes de tu sitio no se indexen correctamente.
    • Es fundamental revisar regularmente el archivo robots.txt para asegurarte de que esté configurado correctamente y no esté bloqueando accidentalmente áreas importantes del sitio.

Ejemplo de Archivo robots.txt Básico:

javascript

User-agent: *
Disallow: /admin/
Disallow: /temp/
Allow: /publico/
Sitemap: http://ejemplo.com/sitemap.xml

Este ejemplo muestra que todos los bots (User-agent: *) están prohibidos de acceder a las carpetas /admin/ y /temp/, pero se les permite acceder a la carpeta /publico/. Además, se especifica la ubicación del sitemap del sitio web.

Herramientas y Verificación:

  • Utiliza herramientas como Google Search Console para verificar cómo Googlebot y otros bots interpretan tu archivo robots.txt.
  • Puedes hacer pruebas y ajustes en el archivo robots.txt según sea necesario para mejorar la indexación y el rastreo de tu sitio web.

Compártelo en tus redes

Valore este curso

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Utilizamos cookies para asegurar que damos la mejor experiencia al usuario en nuestra web. Si sigues utilizando este sitio asumimos que estás de acuerdo. VER