22/07/2020

Robots.txt

[mr_rating_result]

El archivo robots es aquel que ponemos en la raíz del servidor para indicarle a Google qué debe ver, qué no debe ver, qué debe indexar y qué no. Y todo esto podemos especificarlo, además, por bot (Googlebot, Googlebot Mobile, Yahoo, Bing, Slurp…). Es decir, podemos especificar qué ver e indexar por user-agent de la visita que estemos recibiendo.

Nutricion enteral y parenteral

El robots.txt es crítico para tener control sobre lo que se indexa o no

En este archivo es importante abrir todas aquellas URLs y extensiones de archivo que queramos que vean y/o indexen los bots, especialmente imágenes, CSS y JS. Digo especialmente, porque si Google no puede acceder a dichos archivos, no verá la página como un usuario final (con su maquetación e interacciones) y eso no es bueno.

Cursos de Sketchup

Lo mismo para las que no queramos que vea/indexe: página de carrito, login, recuperación de password…

Y para los parámetros que no deba seguir como filtros de ordenación, facetas…

¡Ah! y poner también la URL del sitemap, que acostumbramos a dejárnosla.

Funciones y Uso del archivo robots.txt:

Control de Rastreo:
- El principal propósito del archivo robots.txt es controlar qué partes del sitio web pueden ser rastreadas por los motores de búsqueda y otros bots.
- Esto se logra mediante la especificación de directivas para diferentes agentes de usuario (user agents), como Googlebot, Bingbot, entre otros.
Estructura y Ubicación:
- El archivo robots.txt se encuentra en la raíz del dominio del sitio web. Por lo tanto, la URL completa para acceder a él sería http://ejemplo.com/robots.txt.
- Es un archivo de texto simple que sigue una estructura básica de reglas y directivas.
Directivas Principales:
- User-agent: Define para qué agente de usuario se aplican las siguientes reglas. Ejemplo: User-agent: * se aplica a todos los bots.
- Disallow: Indica qué partes del sitio no deben ser rastreadas. Por ejemplo, Disallow: /admin/ evitará que los bots accedan a la carpeta «admin».
- Allow: Es opcional y se usa para permitir el acceso a partes específicas de un sitio que están bloqueadas de forma más general. Por ejemplo, Allow: /publico/ permite acceso a la carpeta «publico» si la regla anterior es para bloquear a todos los bots.
- Sitemap: Puedes especificar la ubicación del archivo XML del sitemap usando la directiva Sitemap: para ayudar a los motores de búsqueda a encontrar y rastrear todas las páginas importantes de tu sitio.
Consideraciones Adicionales:
- Es importante tener en cuenta que el archivo robots.txt es público y cualquier persona puede ver qué partes de tu sitio web estás bloqueando.
- No todos los bots respetan las reglas del archivo robots.txt. Aunque la mayoría de los motores de búsqueda principales lo hacen, algunos bots maliciosos pueden ignorar estas directivas.
Errores Comunes:
- Los errores en el archivo robots.txt pueden llevar a problemas de rastreo y a que partes importantes de tu sitio no se indexen correctamente.
- Es fundamental revisar regularmente el archivo robots.txt para asegurarte de que esté configurado correctamente y no esté bloqueando accidentalmente áreas importantes del sitio.

Ejemplo de Archivo robots.txt Básico:

javascript

User-agent: *

Disallow: /admin/

Disallow: /temp/

Allow: /publico/

Sitemap: http://ejemplo.com/sitemap.xml

Este ejemplo muestra que todos los bots (User-agent: *) están prohibidos de acceder a las carpetas /admin/ y /temp/, pero se les permite acceder a la carpeta /publico/. Además, se especifica la ubicación del sitemap del sitio web.

Herramientas y Verificación:

Utiliza herramientas como Google Search Console para verificar cómo Googlebot y otros bots interpretan tu archivo robots.txt.
Puedes hacer pruebas y ajustes en el archivo robots.txt según sea necesario para mejorar la indexación y el rastreo de tu sitio web.

Compártelo en tus redes

[mr_rating_form]

Robots.txt

Funciones y Uso del archivo robots.txt:

Ejemplo de Archivo robots.txt Básico:

Herramientas y Verificación:

Compártelo en tus redes

Deja una respuesta Cancelar la respuesta

CURSOS ONLINE

LEGAL

SÍGUENOS EN NUESTRAS REDES

CONTACTO