robots.txt explicado: controlando qué rastrean los motores de búsqueda

Jazmie Jamaludin

Imagina que tienes una tienda muy concurrida y que cada mañana llega a la puerta un visitante educado preguntando: "¿A qué habitaciones puedo entrar hoy?". Tú le entregas una pequeña nota clavada en la entrada. La lee, asiente y solo deambula por donde le has dicho que está bien. Esa pequeña nota es, más o menos, lo que un archivo robots.txt es para tu sitio web. Recibe a los visitantes automatizados que envían los motores de búsqueda y les dice discretamente qué partes de tu sitio pueden explorar.

Suena modesto, y es solo un archivo de texto sin formato que reside en la raíz de tu dominio. Sin embargo, este archivo discreto tiene el poder de ayudar a los motores de búsqueda a comprender tu sitio de manera eficiente o, si lo haces mal, hacer que grandes partes de tu sitio web sean invisibles accidentalmente. En esta guía, desglosaremos qué hace realmente robots.txt, qué no puede hacer de ninguna manera, los errores que silenciosamente cuestan tráfico a las empresas y cómo manejarlo sin estropear nada.

Qué es realmente robots.txt

Los motores de búsqueda descubren páginas utilizando programas automatizados a menudo llamados rastreadores, bots o arañas. Siguen enlaces de página en página, leyendo contenido y agregándolo a un índice gigante que luego usan para responder búsquedas. Antes de que un rastreador bien comportado lea tu sitio, primero verifica una ubicación específica: un archivo llamado robots.txt que se encuentra en la parte superior de tu dominio, como tudominio.com/robots.txt.

Ese archivo contiene un breve conjunto de instrucciones escritas en un formato simple. Nombra a qué rastreadores se aplican las reglas y enumera qué rutas deben o no deben solicitar. Piensa en ello como una hoja de instrucciones de un portero en lugar de una puerta cerrada. El rastreador lee la hoja y, si es uno de buena reputación de un motor de búsqueda importante, sigue la guía. Esto es parte del mundo más amplio de los conceptos básicos de SEO técnico que silenciosamente dan forma a lo bien que funciona un sitio.

La conexión con el presupuesto de rastreo

Cada sitio recibe una asignación aproximada de atención de los motores de búsqueda, a veces llamada presupuesto de rastreo. Es la cantidad de rastreo que un motor de búsqueda está dispuesto a hacer en tu sitio en una ventana determinada. Para un sitio pequeño de folletos, esto casi nunca importa. Pero para una tienda grande con miles de páginas, filtros y resultados de búsqueda, no querrás que los rastreadores desperdicien sus visitas en URL inútiles. Un archivo robots.txt bien pensado puede alejarlos de los rincones de bajo valor para que dediquen más energía a las páginas que te consiguen clientes.

El primer archivo que lee un rastreador
Los rastreadores de buena reputación solicitan robots.txt antes que cualquier otra cosa en tu sitio, por lo que un solo error tipográfico aquí puede repercutir en miles de páginas.
Fuente: Documentación de Google Search Central

Cómo se ve el archivo por dentro

No necesitas ser programador para leer un archivo robots.txt. Está construido a partir de algunos ingredientes que se repiten. Los más comunes son User-agent, que nombra al rastreador al que se dirigen las reglas, y Disallow, que enumera una ruta que los rastreadores deben evitar. También está Allow, que crea una excepción, y una línea que apunta a tu mapa del sitio.

Un ejemplo simple podría decir: para cada rastreador, por favor no visites la carpeta de administración ni los resultados de búsqueda internos, pero todo lo demás es válido, y aquí es donde puedes encontrar el mapa de mis páginas importantes. Eso es genuinamente la mayor parte de lo que hace el archivo. El arte está en decidir qué pertenece a la lista de "por favor, evita" y qué debe permanecer abierto.

Un asterisco y una barra hacen mucho trabajo

Dos símbolos tienen mucho significado. El asterisco actúa como un comodín, haciendo coincidir cualquier secuencia de caracteres, y el signo de dólar marca el final de una URL. Así, una regla puede dirigirse a cada URL que contenga un signo de interrogación, o a cada archivo que termine en una extensión particular. Esto es poderoso y ligeramente peligroso: un comodín colocado descuidadamente puede coincidir con mucho más de lo que pretendías, que es exactamente cómo ocurren los bloqueos accidentales en todo el sitio.

Lo más importante que hay que entender

Aquí está el concepto erróneo que causa más daño, y vale la pena leerlo dos veces: robots.txt controla el rastreo, no la indexación. Son dos cosas diferentes. El rastreo es si un motor de búsqueda lee la página. La indexación es si la página puede aparecer en los resultados de búsqueda. Bloquear una página en robots.txt detiene la lectura, pero no detiene de manera confiable que la página aparezca en los resultados.

¿Cómo puede aparecer una página en los resultados si el rastreador nunca la leyó? Porque los motores de búsqueda también aprenden sobre las páginas a partir de los enlaces que apuntan a ellas en otros lugares. Si muchos sitios enlazan a una URL que has bloqueado, el motor de búsqueda puede incluirla de todos modos, a menudo con un título escueto y una nota de que no hay descripción disponible porque el rastreo no estaba permitido. Así que, si tu objetivo real es mantener una página completamente fuera de los resultados de búsqueda, robots.txt es la herramienta equivocada. En su lugar, querrías una instrucción noindex en la propia página, que un rastreador solo puede ver si le permites leer la página.

Rastreo vs. indexación: eligiendo la herramienta correcta
Tu objetivo Herramienta correcta Por qué
Evitar desperdiciar esfuerzo de rastreo en URLs basura robots.txt Disallow Evita que los rastreadores soliciten la ruta en absoluto.
Mantener una página fuera de los resultados de búsqueda Etiqueta noindex en la página El rastreador debe leer la página para ver la instrucción, así que no la bloquees.
Ocultar datos privados o sensibles Protección con contraseña robots.txt es público; nunca confíes en él para la seguridad.
Dirigir a los rastreadores a tus páginas clave Línea de sitemap en robots.txt Ayuda a descubrir URLs importantes de manera eficiente.

Qué no puede hacer robots.txt

Vale la pena ser franco sobre los límites, porque no entenderlos conduce a problemas reales. Primero, como ya hemos cubierto, no garantiza que una página se mantenga fuera de los resultados de búsqueda. Segundo, no es una medida de seguridad. El archivo es legible públicamente por cualquiera que escriba la dirección, por lo que listar tu ruta de administración secreta en realidad la anuncia a los curiosos. Si algo debe permanecer privado, protégelo con un inicio de sesión, no con una solicitud amable.

Tercero, los rastreadores que se portan bien lo obedecen, pero no todos los bots en internet se portan bien. Los extractores de datos y los bots maliciosos pueden ignorar el archivo por completo. Y finalmente, bloquear una página en robots.txt puede ser contraproducente cuando esa página ya genera tráfico. Si un rastreador ya no puede leerla, el motor de búsqueda pierde lentamente su comprensión de lo que hay allí, lo que puede erosionar silenciosamente las clasificaciones. Si alguna vez has lidiado con páginas que fueron rastreadas pero no indexadas, robots.txt es a menudo parte del rompecabezas de diagnóstico.

Los errores que silenciosamente cuestan tráfico a las empresas

La mayoría de los desastres de robots.txt no son dramáticos. Son pequeños, silenciosos y se descubren semanas después cuando alguien nota que el tráfico ha disminuido. El más infame es el bloqueo sobrante de la construcción de un sitio web. Durante el desarrollo, los equipos a menudo agregan una regla que prohíbe todo para que el sitio inacabado se mantenga fuera de la búsqueda. El error es olvidar eliminarlo el día del lanzamiento. El sitio se activa, se ve perfecto para los visitantes, y es completamente invisible para los motores de búsqueda porque esa línea obstinada todavía le dice a cada rastreador que se mantenga alejado.

Bloqueando tus propios recursos

Otro error clásico es bloquear los archivos que hacen que tus páginas funcionen, como las hojas de estilo y los scripts. Hace años, algunas personas los bloqueaban para "ordenar" el rastreo. Hoy en día, los motores de búsqueda renderizan las páginas de manera muy similar a como lo hace un navegador, por lo que si bloqueas los recursos que controlan el diseño, el rastreador ve una versión rota y a medio construir de tu página y puede juzgarla con dureza. Permite que los rastreadores lleguen a los activos que hacen que tus páginas se vean y se comporten correctamente.

Reglas conflictivas y demasiado amplias

Los comodines son maravillosos hasta que abarcan más de lo previsto. Una regla destinada a bloquear un tipo de URL puede coincidir accidentalmente con todo tu catálogo si el patrón es demasiado flexible. Las líneas Allow y Disallow conflictivas también confunden las cosas, ya que la forma en que se resuelven los conflictos no siempre es obvia para un no experto. El hábito más seguro es mantener las reglas escasas, específicas y fáciles de leer, y luego probarlas en lugar de confiar en ellas. Estos son exactamente el tipo de problemas que una auditoría SEO exhaustiva está diseñada para detectar antes de que te perjudiquen.

Una línea olvidada, un sitio invisible
Una regla "bloquear todo" olvidada de la fase de construcción es una de las razones más comunes por las que un sitio recién lanzado no aparece en la búsqueda.
Fuente: Orientación de Google Search Central sobre verificaciones de lanzamiento

Lo que normalmente deberías dejar abierto

Es tentador pensar que más bloqueo equivale a más control, pero suele ser al contrario. Para la mayoría de los sitios web, quieres que los rastreadores lean tus páginas libremente. Las páginas que realmente se benefician de ser bloqueadas son pocas: páginas de resultados de búsqueda internas que generan interminables URLs delgadas, ciertas versiones filtradas o ordenadas de páginas de categorías que crean casi duplicados, pasos del carrito y del pago, y áreas de administración. Aun así, el bloqueo no siempre es la mejor solución para los duplicados. A veces, un problema de contenido duplicado se resuelve mejor con etiquetas canónicas para que el motor de búsqueda siga entendiendo la relación entre las páginas.

Siempre apunta a tu mapa del sitio

Una línea genuinamente útil para incluir es la ubicación de tu sitemap XML. Ofrece a los rastreadores un mapa ordenado de las URL que te interesan, lo que acelera el descubrimiento, especialmente para sitios nuevos o más grandes. Si estás configurando un proyecto completamente nuevo, este pequeño paso debe incluirse en tu rutina de lanzamiento y se combina naturalmente con la lista de verificación más amplia para el SEO para sitios web nuevos.

Cómo verificarlo y probarlo de forma segura

Antes de cambiar cualquier cosa, mira lo que ya tienes. Escribe tu dominio seguido de /robots.txt en un navegador y léelo. Si no tienes uno, eso suele estar bien; un archivo ausente simplemente significa que los rastreadores asumen que todo está permitido. Si tienes uno, lee cada línea y pregúntate, en lenguaje sencillo, "¿Qué impide esto que un rastreador lea, y realmente quiero eso?"

Cuando realices cambios, trátalos con cuidado. Los principales motores de búsqueda ofrecen herramientas de prueba que te permiten verificar si una URL específica está permitida o bloqueada según tus reglas. Úsalas. Es mucho mejor confirmar que una regla se comporta como se espera que publicarla y descubrir las consecuencias en tus informes de tráfico quince días después. Después de los cambios, vigila los informes de cobertura en busca de cualquier aumento repentino en las páginas bloqueadas, y observa la salud y el rendimiento general de tu sitio para que nada pase desapercibido.

Coordina con tu estrategia más amplia

Robots.txt no vive aislado. Funciona junto con tu mapa del sitio, tus enlaces internos y tus instrucciones de indexación. Un fuerte enlazado interno ayuda a los rastreadores a encontrar tus páginas importantes de manera eficiente, lo que reduce la necesidad de un bloqueo masivo en primer lugar. Cuando todas estas piezas están de acuerdo entre sí, los rastreadores dedican su atención a lo que realmente importa y tu mejor contenido obtiene la visibilidad que se merece. Si todavía te estás familiarizando con los fundamentos, vale la pena revisar cómo funciona el SEO en su conjunto.

Un enfoque tranquilo para un archivo pequeño pero potente

Si hay una mentalidad que llevarse, es esta: con robots.txt, la moderación suele ser mejor que el entusiasmo. El archivo es más útil cuando es conciso, deliberado y fácil de entender para un humano de un vistazo. Bloquea solo lo que realmente merece ser bloqueado, nunca confíes en él para ocultar secretos, recuerda que controla el rastreo en lugar de los resultados, y siempre apunta a tu mapa del sitio. Luego, prueba antes de confiar.

Manejado de esta manera, ese humilde archivo de texto se convierte en un aliado silencioso, guiando a los motores de búsqueda hacia tu mejor trabajo y lejos del desorden. Manejado descuidadamente, se convierte en una de las formas más fáciles de desaparecer de la búsqueda sin darte cuenta de por qué. La buena noticia es que prestarle un poco de atención ahora significa que rara vez tendrás que volver a pensar en ello. Si tu sitio se ha vuelto complejo o lo has movido recientemente, es aconsejable incluir una revisión de robots.txt en una verificación técnica de salud más amplia o en una migración de sitio web planificada, y pedir ayuda si algo parece complicado.

Preguntas frecuentes

¿Todo sitio web necesita un archivo robots.txt?+
No. Si no tienes uno, los rastreadores simplemente asumen que todo está permitido, lo cual está perfectamente bien para muchos sitios pequeños. Un robots.txt se vuelve realmente útil una vez que tienes áreas de las que vale la pena alejar a los rastreadores, o una vez que quieres indicarles tu sitemap. El riesgo reside menos en no tener uno y más en tener uno con una regla descuidada dentro.
¿Bloquear una página en robots.txt la eliminará de Google?+
No de forma fiable. El bloqueo impide que un rastreador lea la página, pero la página aún puede aparecer en los resultados si otros sitios la enlazan. Para mantener una página completamente fuera de los resultados, permite que se rastree y agrega una instrucción noindex a la propia página, para que el motor de búsqueda pueda leer y obedecer esa solicitud.
¿Puedo usar robots.txt para ocultar información privada?+
No, y nunca deberías intentarlo. El archivo es visible públicamente por cualquiera que escriba la dirección, por lo que listar una ruta sensible en realidad la señala directamente a la gente. Cualquier cosa que deba permanecer privada necesita protección real, como una contraseña o un inicio de sesión. Trata robots.txt como una guía para rastreadores cooperativos, no como un candado.
Bloqueé algo por error. ¿Qué tan rápido funciona la solución?+
Una vez que elimines la regla ofensiva, los rastreadores pueden volver a leer la página la próxima vez que la visiten, pero la recuperación no es instantánea. El motor de búsqueda necesita volver a rastrear y reevaluar la página, lo que puede llevar días o, a veces, más tiempo, dependiendo de la frecuencia con la que se visite tu sitio. Enviar un sitemap actualizado y solicitar que se vuelvan a rastrear las páginas clave puede ayudar a acelerar el proceso.

Referencias

  1. Google Search Central. "Introducción a robots.txt." developers.google.com.
  2. Google Search Central. "Cómo interpreta Google la especificación robots.txt". developers.google.com.
  3. Bing Webmaster Tools. "Control de rastreo y robots.txt". bing.com.
Regresar al blog

AUTOMATICE. OPTIMICE. DOMINE.

Optimice sus operaciones y ofrezca una experiencia de cliente fluida. Deje que nuestros expertos implementen tecnología de vanguardia y flujos de trabajo optimizados para que pueda concentrarse en lo que mejor sabe hacer.