Cómo puede evitar que un robot escanee su sitio.

Sin valoraciones

CÓMO PUEDE EVITAR QUE UN ROBOT ESCANEE

SU SITIO

El camino más rápido para evitar esto es crear un archivo robot.txt con las siguientes dos líneas y ponerlo en su servidor.
User-agent: *
Disallow: /
Si no tiene acceso completo a su servidor, simplemente puede incluir las siguientes líneas (tags o etiquetas) en su página web para que no sea indexada:
<META name=»ROBOTS» content=»NOINDEX»>
Y si desea que los links no sean indexados por el robot incluya:
<META name=»ROBOTS» content=»NOFOLLOW»>

SITEMAP

El sitemap es un archivo que le enviamos a google para que su buscador lo tenga más fácil, como un
navegador dentro de la web y donde podemos indicar que pagina es más importante que otra.
Lo primero es descargar un programa de Sitemap.
Un programa muy sencillo para crear sitemap es el:
Descargamos este programa desde, por ejemplo, la web de softonic.com
El programa le hace el trabajo al robot de Google, lo que hacemos es decirle al programa: rastrea todas
las páginas de mi web, escríbelo en un archivo y le diremos a google donde puede encontrar este
archivo para que le sea todo más fácil y rápido.
Su uso es muy sencillo.

Vamos a pulsar en Nuevo dado que es la primera vez que realizamos el sitemap de la web,
posteriormente cuando lo hallamos hecho y queramos recuperarlo para modificarlo, solo tendremos
que seleccionar en Abrir. Obviamente, cada vez que añadamos nuevas paginas en la web, deberemos
modificar el sitemap.

Pulsamos en Ad y seleccionamos Araña.
Escribimos la dirección url de nuestra web y pulsamos en Partida, a partir de ahí el programa rastreará,
indexará y realizará el sitemap.

Una vez acabado nos mostrara el resultado del rastreo: todas las páginas de la web encontradas y
cuando fue su última modificación.

Esto es el sitemap, lo guardamos y cerramos:

Manual de posicionamiento web

HERRAMIENTAS PARA WEBMASTERS
El siguiente paso es utilizar “Herramientas para webmasters” de Google, una opción de google que nos
permite comunicarnos con este buscador en todo lo referente a la indexación de nuestra web.
Lo que vamos a hacer es dar de alta la web con el buscador y subir el sitemap. Pero es importante saber
que esta web de google nos permite otras cosas mas importantes, por ejemplo pedirle que reindexe
nuestra web.
Podemos tener la gran desgracia (habitual por otra parte) de que algún troyano se apodere de nuestra
web, ello hace que Google lo detecte y marque negativamente la web y no permita el acceso a nuestra
web desde su buscador.
Bien, en ese caso lo que hay que hacer primero es limpiar el troyano del servidor y después ir a
Herramientas para webmasters de google e indicarle que la web esta limpia y que pase de nuevo el
rastreador, es la mejor forma, y la mas rápida para que limpie el buen nombre de nuestra web.
Iremos a
https://www.google.com/webmasters/tools/home?hl=es o simplemente buscaremos en Google “Herramientas para webmasters”
Tendremos que abrirnos una cuenta, por lo que tendremos que utilizar de nuevo nuestra cuenta de Gmail
Una vez dados de alta pulsaremos en «añadir un sitio»
Para incluir nuestra web (podemos incluir varias)

Ahora tenemos que verificar de cara a Google que el sitio que queremos añadir es nuestro, para ello
descargaremos un archivo que nos propone y lo subiremos a nuestro servidor.
Cuando esto esté hecho pulsaremos en Verificar, una vez Google ha verificado que el archivo descargado y subido a la web es correcto, entonces nos dará de alta la web y ya podremos utilizar las
herramientas de webmaster de Google con nuestra web.
Pulsaremos en el nombre de nuestra web y entraremos en la ventana principal de administración del
sitio.

En el menú de la izquierda seleccionamos Sitemaps.
Seleccionamos arriba:
En el cuadradito que nos sale, con la dirección de nuestra pagina web tendremos que escribir donde
hemos subido el sitemap, normalmente será:
www.webejemplo.es/sitemap.xml
Como vemos la página de Herramientas para webmasters de Google nos va a dar mucha información
interesante. También los errores. Estos errores no nos tienen que quitar el sueño, es normal que los haya, lo importante también es configurar una buena página 404 de error en nuestro servidor para que cuando se produzcan errores de rastreo no perdamos visitantes.

PROMOCION DE PAGO: ADWORDS

Adwords es el sistema de publicidad de Google, podemos salir en los primeros resultados de Google, eso si, pagando.
Vamos a ir a la web de AdWords.
Como siempre vamos a crear una cuenta utilizando la que tenemos de Gmail.
Adwors es un sistema por el que creamos anuncios para que salgan en los resultados de Google. Vamos
a indicar cuanto queremos pagar por clic. Y cuales son nuestros límites.
Podemos crear un anuncio del tipo:

Restaurante El Pato Loco
Restaurante con especialidad en marisco en Sevilla
www.restauranteelpatoloco.es
Este seria un anuncio que podríamos realizar en Adwords, le tendríamos que indicar cual es nuestro limite por clic, es decir, que si ponemos 1 €, cada vez que alguien haga clic en nuestro anuncio, Google
cargara en nuestra cuenta 1 €. Obviamente contra mas alto pongamos este valor, mas posibilidades de
salir y mas veces saldremos, pero también gastaremos mas dinero, si ponemos menos es posible que sea inferior al que hallan puesto nuestros competidores y ni siquiera salgamos en las búsquedas.

Vea nuestro Máster de Marketing Digital

1. Archivo robots.txt

El archivo robots.txt es una herramienta que permite a los administradores de sitios web especificar qué partes de su sitio web pueden ser rastreadas por los robots de búsqueda y qué partes deben ser ignoradas. Este archivo debe colocarse en el directorio raíz de su sitio web.

Ejemplo de robots.txt para bloquear todos los robots:

plaintext

User-agent: *
Disallow: /

Ejemplo de robots.txt para permitir el acceso a todos los robots excepto a uno específico:

plaintext

User-agent: Googlebot
Disallow: /

User-agent: *
Disallow: /private/

2. Meta Etiquetas Robots

Puede usar metaetiquetas en el <head> de su HTML para controlar el comportamiento de los robots en una página específica.

Ejemplo de metaetiqueta para no permitir el rastreo:

html

<meta name="robots" content="noindex, nofollow">
  • noindex evita que la página sea indexada en los motores de búsqueda.
  • nofollow evita que los enlaces en la página sean seguidos.

3. Archivos .htaccess (para servidores Apache)

Puede usar el archivo .htaccess para bloquear el acceso a ciertas partes de su sitio web o al sitio completo desde ciertos robots.

Ejemplo de bloqueos de IP en .htaccess:

apache

# Bloquear una dirección IP específica
Order Deny,Allow
Deny from 192.168.1.1

Ejemplo de bloqueos de user-agents en .htaccess:

apache

# Bloquear un user-agent específico
SetEnvIf User-Agent "BadBot" bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot

4. Autenticación y Acceso Restringido

Proteger su sitio web o partes de él con una autenticación básica o mediante credenciales de acceso puede evitar que los bots escaneen el contenido. Esta opción es más segura y requiere que los usuarios inicien sesión para acceder al contenido.

Ejemplo de autenticación básica con .htaccess y .htpasswd:

apache

# .htaccess
AuthType Basic
AuthName "Restricted Area"
AuthUserFile /path/to/.htpasswd
Require valid-user

5. Uso de CAPTCHAs

Implementar CAPTCHAs en formularios y otras áreas interactivas puede ayudar a prevenir el acceso automatizado. Aunque no es una solución completa para evitar el rastreo, puede proteger áreas específicas contra bots.

6. Restricción mediante IP y Geolocalización

Puedes bloquear el acceso desde direcciones IP específicas o países enteros usando herramientas y configuraciones en tu servidor. Esto puede ser útil si conoces las IPs de los bots que deseas bloquear.

7. Política de Acceso en el Servidor

Configura políticas en el servidor para limitar la velocidad de las solicitudes o bloquear el acceso a ciertos tipos de bots. Muchos servidores y plataformas de hosting tienen herramientas para gestionar estas configuraciones.

8. Header HTTP X-Robots-Tag

Para bloquear el rastreo de archivos que no son HTML, como PDFs, imágenes, etc., puedes usar el encabezado HTTP X-Robots-Tag.

Ejemplo para un archivo PDF:

plaintext

X-Robots-Tag: noindex, nofollow

Consideraciones Finales

  • Tenga en cuenta que el archivo robots.txt y las metaetiquetas son directrices y no garantizan al 100% que los bots respeten estas indicaciones, especialmente si son bots maliciosos o no conformistas.
  • Revise regularmente su configuración y accesos para asegurarse de que las restricciones estén funcionando como se espera.
  • Equilibre la accesibilidad: Asegúrese de no bloquear accidentalmente bots útiles como los de motores de búsqueda importantes que pueden ayudar a su sitio a ser encontrado por los usuarios.

Compártelo en tus redes

Share on facebook
Share on twitter
Share on linkedin
Share on pinterest

Valore este curso

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Utilizamos cookies para asegurar que damos la mejor experiencia al usuario en nuestra web. Si sigues utilizando este sitio asumimos que estás de acuerdo. VER