El archivo robots es aquel que ponemos en la raíz del servidor para indicarle a Google qué debe ver, qué no debe ver, qué debe indexar y qué no. Y todo esto podemos especificarlo, además, por bot (Googlebot, Googlebot Mobile, Yahoo, Bing, Slurp…). Es decir, podemos especificar qué ver e indexar por user-agent de la visita que estemos recibiendo.
Nutricion enteral y parenteral
El robots.txt es crítico para tener control sobre lo que se indexa o no
En este archivo es importante abrir todas aquellas URLs y extensiones de archivo que queramos que vean y/o indexen los bots, especialmente imágenes, CSS y JS. Digo especialmente, porque si Google no puede acceder a dichos archivos, no verá la página como un usuario final (con su maquetación e interacciones) y eso no es bueno.
Lo mismo para las que no queramos que vea/indexe: página de carrito, login, recuperación de password…
Y para los parámetros que no deba seguir como filtros de ordenación, facetas…
¡Ah! y poner también la URL del sitemap, que acostumbramos a dejárnosla.
Funciones y Uso del archivo robots.txt:
- Control de Rastreo:
- El principal propósito del archivo robots.txt es controlar qué partes del sitio web pueden ser rastreadas por los motores de búsqueda y otros bots.
- Esto se logra mediante la especificación de directivas para diferentes agentes de usuario (user agents), como Googlebot, Bingbot, entre otros.
- Estructura y Ubicación:
- El archivo robots.txt se encuentra en la raíz del dominio del sitio web. Por lo tanto, la URL completa para acceder a él sería
http://ejemplo.com/robots.txt
. - Es un archivo de texto simple que sigue una estructura básica de reglas y directivas.
- El archivo robots.txt se encuentra en la raíz del dominio del sitio web. Por lo tanto, la URL completa para acceder a él sería
- Directivas Principales:
- User-agent: Define para qué agente de usuario se aplican las siguientes reglas. Ejemplo:
User-agent: *
se aplica a todos los bots. - Disallow: Indica qué partes del sitio no deben ser rastreadas. Por ejemplo,
Disallow: /admin/
evitará que los bots accedan a la carpeta «admin». - Allow: Es opcional y se usa para permitir el acceso a partes específicas de un sitio que están bloqueadas de forma más general. Por ejemplo,
Allow: /publico/
permite acceso a la carpeta «publico» si la regla anterior es para bloquear a todos los bots. - Sitemap: Puedes especificar la ubicación del archivo XML del sitemap usando la directiva
Sitemap:
para ayudar a los motores de búsqueda a encontrar y rastrear todas las páginas importantes de tu sitio.
- User-agent: Define para qué agente de usuario se aplican las siguientes reglas. Ejemplo:
- Consideraciones Adicionales:
- Es importante tener en cuenta que el archivo robots.txt es público y cualquier persona puede ver qué partes de tu sitio web estás bloqueando.
- No todos los bots respetan las reglas del archivo robots.txt. Aunque la mayoría de los motores de búsqueda principales lo hacen, algunos bots maliciosos pueden ignorar estas directivas.
- Errores Comunes:
- Los errores en el archivo robots.txt pueden llevar a problemas de rastreo y a que partes importantes de tu sitio no se indexen correctamente.
- Es fundamental revisar regularmente el archivo robots.txt para asegurarte de que esté configurado correctamente y no esté bloqueando accidentalmente áreas importantes del sitio.
Ejemplo de Archivo robots.txt Básico:
javascript
User-agent: *
Disallow: /admin/
Disallow: /temp/
Allow: /publico/
Sitemap: http://ejemplo.com/sitemap.xml
Este ejemplo muestra que todos los bots (User-agent: *
) están prohibidos de acceder a las carpetas /admin/
y /temp/
, pero se les permite acceder a la carpeta /publico/
. Además, se especifica la ubicación del sitemap del sitio web.
Herramientas y Verificación:
- Utiliza herramientas como Google Search Console para verificar cómo Googlebot y otros bots interpretan tu archivo robots.txt.
- Puedes hacer pruebas y ajustes en el archivo robots.txt según sea necesario para mejorar la indexación y el rastreo de tu sitio web.