Gestión del tráfico de bots y rastreadores en su sitio

Jazmie Jamaludin

Si alguna vez has mirado las cifras de visitantes de tu sitio web y has sentido un atisbo de orgullo por lo ocupado que parece, aquí tienes una verdad ligeramente desalentadora: una gran parte de ese tráfico puede que no sean personas en absoluto. Podrían ser bots, programas automatizados que visitan tu sitio las 24 horas del día, haciendo clic en páginas que ningún humano ha solicitado. Algunos de ellos te están haciendo un enorme favor. Otros están malgastando tus recursos, distorsionando tus números o buscando activamente tus defensas. El truco está en aprender a diferenciar y tratar a cada tipo en consecuencia.

Esta guía desmitifica el tráfico de bots en un lenguaje sencillo. Aprenderás qué son realmente estos visitantes automatizados, por qué algunos son invitados bienvenidos a los que nunca debes rechazar, cómo los no deseados causan problemas y las formas prácticas y amigables de gestionar a toda la multitud, sin bloquear accidentalmente a los mismos bots que ayudan a que tu negocio sea encontrado.

¿Qué es un bot, realmente?

Un bot es simplemente un software que visita sitios web automáticamente, sin que una persona haga clic en nada. Piensa en tu sitio web como un edificio público. La mayoría de tus visitantes son clientes que entran por la puerta principal. Pero el edificio también recibe un flujo constante de no clientes: el cartero que entrega el correo, el inspector que revisa las salidas de incendios, un investigador que cuenta el número de visitantes, y, menos bienvenido, el carterista ocasional que comprueba si la puerta trasera está cerrada. Los bots son todo esto. La categoría es enorme, y agruparlos es el primer error que cometen las personas.

La idea más importante es que no todos los bots son malos. De hecho, algunos son esenciales. Si bloquearas a todos los visitantes automatizados, también bloquearías a los que hacen que tu negocio sea descubrible en primer lugar. Por lo tanto, el objetivo nunca es eliminar los bots. Es dar la bienvenida a los útiles, gestionar a los simplemente ruidosos y rechazar a los dañinos: un trabajo de clasificación, no una batalla.

Una gran parte del tráfico web está automatizada
La investigación de la industria encuentra consistentemente que una parte sustancial de todas las visitas a sitios web provienen de bots en lugar de personas, lo que hace que la gestión de bots sea una preocupación de todos, no solo de los sitios grandes.
Fuente: Informe de Bots Malignos de Imperva

Los bots que quieres conservar

Los bots amigables más importantes son los rastreadores de motores de búsqueda. Estos son los exploradores automatizados que leen tus páginas para que tu sitio pueda aparecer cuando la gente busca lo que ofreces. Cuando publicas una nueva página, un rastreador la visita eventualmente, la lee y la añade al índice del motor de búsqueda. Sin rastreadores, no hay visibilidad en las búsquedas; es así de simple. Bloquearlos por accidente es una de las heridas autoinfligidas más perjudiciales que puede sufrir un sitio web, porque el daño es invisible hasta que tu tráfico se agota silenciosamente.

También hay otros bots útiles: servicios de monitoreo que verifican que tu sitio sigue en línea, herramientas que prueban tu rendimiento y servicios legítimos que obtienen una vista previa cuando alguien comparte tu enlace en redes sociales. Todos ellos desempeñan papeles útiles. La palabra clave con los bots amigables es simple: no te interpongas en su camino. Saber que tu sitio es accesible para estos buenos actores se conecta directamente con el monitoreo del tiempo de actividad y la supervisión, ya que las mismas comprobaciones que te tranquilizan también dependen del acceso de los bots.

Clasificando tu tráfico de bots: mantener, gestionar o bloquear
Tipo de bot Qué hace Cómo tratarlo
Rastreador de búsqueda Lee páginas para que aparezcas en los resultados de búsqueda Bienvenido — nunca bloquear
Bot de monitoreo Verifica que tu sitio esté en línea y sea rápido Bienvenido — permitir
Scraper Copia tu contenido en masa Gestionar o limitar
Bot de spam Inunda formularios con basura Bloquear en el formulario y el firewall
Bot de ataque Busca debilidades para explotar Bloquear — alta prioridad

Los bots que causan problemas

En el otro extremo de la multitud están los bots que preferirías no alojar. Vienen en varias categorías, cada una causando un tipo diferente de daño.

Scrapers que copian tu trabajo

Algunos bots existen para recolectar contenido en masa, copiando tu texto, precios o imágenes para usarlos en otro lugar. Más allá de la obvia injusticia, un scraping intensivo puede ejercer una gran presión sobre tu sitio, consumiendo los recursos que deberían estar sirviendo a clientes genuinos. Un poco de scraping es inevitable; vale la pena limitar el scraping agresivo.

Bots de spam que bombardean tus formularios

Estos son los programas automatizados que llenan tu formulario de contacto con basura, un problema lo suficientemente grande como para merecer su propio manual. Si tu bandeja de entrada se está ahogando, las defensas amigables e invisibles para detener el spam en formularios son el remedio directo: alejan a los bots sin afectar a los visitantes reales.

Bots de ataque que prueban tus defensas

Los bots más preocupantes prueban activamente tu sitio en busca de debilidades, buscando una puerta desbloqueada. Escanean en busca de software obsoleto y vulnerabilidades conocidas a todas horas. Por eso un firewall de aplicaciones web vale la pena: puede reconocer y bloquear gran parte de este tráfico automatizado hostil antes de que llegue a tu sitio, actuando como un portero vigilante que nunca duerme. Combinar eso con conceptos básicos de seguridad sólidos elimina la mayoría de lo que estos bots buscan en primer lugar.

Bloquea lo dañino, da la bienvenida a lo útil
El objetivo nunca es detener todos los bots, sino mantener el flujo de rastreadores y monitores de búsqueda mientras se filtran los scrapers, spammers y atacantes.
Fuente: Cloudflare Radar

Por qué los bots no gestionados te cuestan dinero

Incluso cuando los bots no son activamente maliciosos, grandes volúmenes de tráfico automatizado tienen un precio. Consumen recursos del servidor, lo que puede ralentizar tu sitio para los visitantes reales durante los períodos de mayor actividad. Distorsionan tus análisis, dificultando la comprensión de cómo se comportan los humanos reales en tu sitio; podrías celebrar un pico de tráfico que en realidad fue solo un enjambre de scrapers. Y los hostiles añaden un zumbido de sondeo constante que, si no se controla, eventualmente encuentra cualquier debilidad que hayas dejado expuesta.

La buena noticia es que una buena gestión de los bots también hace que tu sitio sea más saludable en general. Reducir la carga automatizada inútil libera recursos para los clientes genuinos, y filtrar a los malos actores reduce el ruido que oculta problemas reales. Todo encaja perfectamente en una auditoría periódica de salud del sitio web, donde comprender quién y qué está visitando tu sitio es parte de comprender su estado general.

Cómo gestionar los bots sin estropear nada

La gestión de bots es un acto de equilibrio, y la regla cardinal es nunca bloquear a los bots útiles en tu afán por detener a los dañinos. Unos pocos pasos sensatos y de bajo riesgo cubren la mayoría de las necesidades.

Dale instrucciones claras a los bots buenos. Los sitios web pueden publicar una guía cortés que indique a los rastreadores bien educados qué áreas visitar y cuáles omitir. Los bots de buena reputación la respetan. Pon un firewall delante. Un firewall realiza gran parte del trabajo pesado, reconociendo y filtrando la automatización hostil antes de que llegue a tu sitio. Limita a los visitantes agresivos. Los controles de velocidad pueden ralentizar una única fuente que está bombardeando tu sitio, sin afectar el tráfico normal. Protege los formularios por separado. Las defensas invisibles contra el spam se encargan de los bots que apuntan a tu formulario de contacto. Mantén el software actualizado. Dado que los bots de ataque buscan componentes obsoletos, mantenerse al tanto de las actualizaciones de software elimina la mayoría de lo que buscan.

Prueba los cambios antes de confiar en ellos

Las reglas de bots son sorprendentemente fáciles de aplicar mal de una manera que te perjudica: un bloqueo ligeramente demasiado amplio puede accidentalmente excluir un rastreador de búsqueda y dañar silenciosamente tu visibilidad. Siempre que cambies la forma en que se manejan los bots, es aconsejable probarlo primero en una copia de prueba y observar los resultados, para que una regla bien intencionada nunca se convierta en un autogol. El costo de bloquear accidentalmente el bot equivocado es alto y lento de notar, por lo que la precaución vale la pena.

Encontrar el equilibrio adecuado

El tráfico de bots no es un problema que deba eliminarse, es una multitud que debe gestionarse. Los bots útiles son socios que hacen que tu negocio sea descubrible y vigilan tu tiempo de actividad; los dañinos son molestias y amenazas que deben filtrarse. Los propietarios que entienden esta distinción dejan de temer sus cifras de visitantes y comienzan a leerlas con claridad, sabiendo qué invitados automatizados agradecer y cuáles rechazar.

Si la tarea de clasificar esa multitud te parece algo que preferirías no aprender, es un trabajo perfecto para un socio de mantenimiento. Ellos pueden configurar una gestión de bots sensata, ejecutar un firewall, proteger tus formularios y mantener todo actualizado, todo mientras se aseguran de que los rastreadores de búsqueda de los que dependes nunca sean bloqueados. Si deseas que los bots útiles sean bienvenidos y los dañinos sean discretamente mostrados la puerta, simplemente puedes contactar con un equipo que gestiona esto a diario.

Preguntas frecuentes

¿Todos los bots son malos para mi sitio web?+
En absoluto. Los rastreadores de motores de búsqueda son esenciales; sin ellos, tu sitio no aparecería en los resultados de búsqueda. Los bots de monitoreo y de vista previa de enlaces también son útiles. El objetivo es darles la bienvenida y filtrar los dañinos, como los scrapers, los bots de spam y los bots de ataque, en lugar de bloquear todo.
¿Podría bloquear accidentalmente los motores de búsqueda?+
Sí, y es uno de los errores más dañinos porque el daño es invisible hasta que tu tráfico disminuye. Una regla de bloqueo de bots demasiado amplia puede excluir a los rastreadores de los que dependes. Siempre prueba los cambios en la gestión de bots primero en una copia de prueba y confirma que los rastreadores de búsqueda aún pueden llegar a tus páginas.
¿Por qué los bots ralentizan mi sitio web?+
Cada visita, ya sea humana o de bot, utiliza una pequeña parte de los recursos de tu servidor. Cuando un gran número de bots agresivos, especialmente los scrapers, atacan tu sitio a la vez, pueden consumir la capacidad que debería servir a los clientes reales, ralentizando las páginas durante los períodos de mayor actividad. Limitar los bots agresivos libera esos recursos.
¿Cuál es la forma más fácil de gestionar bots?+
Para la mayoría de los sitios, un firewall de aplicaciones web realiza la mayor parte del trabajo al filtrar la automatización hostil antes de que llegue, junto con una protección invisible contra el spam en tus formularios y software actualizado. Esta combinación da la bienvenida a los bots buenos y bloquea a los malos con muy poco esfuerzo continuo por tu parte.

Referencias

  1. Imperva. “Informe de Bots Malignos.” imperva.com.
  2. Cloudflare. “Radar: Tendencias de Tráfico y Bots.” radar.cloudflare.com.
  3. Google. “Search Central: Rastreo e Indexación.” developers.google.com.
Regresar al blog

AUTOMATICE. OPTIMICE. DOMINE.

Optimice sus operaciones y ofrezca una experiencia de cliente fluida. Deje que nuestros expertos implementen tecnología de vanguardia y flujos de trabajo optimizados para que pueda concentrarse en lo que mejor sabe hacer.