robots.txt explicado: controlando qué rastrean los motores de búsqueda
Jazmie JamaludinImagina que tienes una tienda muy concurrida y que cada mañana llega a la puerta un visitante educado preguntando: "¿A qué habitaciones puedo entrar hoy?". Tú le entregas una pequeña nota clavada en la entrada. La lee, asiente y solo deambula por donde le has dicho que está bien. Esa pequeña nota es, más o menos, lo que un archivo robots.txt es para tu sitio web. Recibe a los visitantes automatizados que envían los motores de búsqueda y les dice discretamente qué partes de tu sitio pueden explorar.
Suena modesto, y es solo un archivo de texto sin formato que reside en la raíz de tu dominio. Sin embargo, este archivo discreto tiene el poder de ayudar a los motores de búsqueda a comprender tu sitio de manera eficiente o, si lo haces mal, hacer que grandes partes de tu sitio web sean invisibles accidentalmente. En esta guía, desglosaremos qué hace realmente robots.txt, qué no puede hacer de ninguna manera, los errores que silenciosamente cuestan tráfico a las empresas y cómo manejarlo sin estropear nada.
Qué es realmente robots.txt
Los motores de búsqueda descubren páginas utilizando programas automatizados a menudo llamados rastreadores, bots o arañas. Siguen enlaces de página en página, leyendo contenido y agregándolo a un índice gigante que luego usan para responder búsquedas. Antes de que un rastreador bien comportado lea tu sitio, primero verifica una ubicación específica: un archivo llamado robots.txt que se encuentra en la parte superior de tu dominio, como tudominio.com/robots.txt.
Ese archivo contiene un breve conjunto de instrucciones escritas en un formato simple. Nombra a qué rastreadores se aplican las reglas y enumera qué rutas deben o no deben solicitar. Piensa en ello como una hoja de instrucciones de un portero en lugar de una puerta cerrada. El rastreador lee la hoja y, si es uno de buena reputación de un motor de búsqueda importante, sigue la guía. Esto es parte del mundo más amplio de los conceptos básicos de SEO técnico que silenciosamente dan forma a lo bien que funciona un sitio.
La conexión con el presupuesto de rastreo
Cada sitio recibe una asignación aproximada de atención de los motores de búsqueda, a veces llamada presupuesto de rastreo. Es la cantidad de rastreo que un motor de búsqueda está dispuesto a hacer en tu sitio en una ventana determinada. Para un sitio pequeño de folletos, esto casi nunca importa. Pero para una tienda grande con miles de páginas, filtros y resultados de búsqueda, no querrás que los rastreadores desperdicien sus visitas en URL inútiles. Un archivo robots.txt bien pensado puede alejarlos de los rincones de bajo valor para que dediquen más energía a las páginas que te consiguen clientes.
Cómo se ve el archivo por dentro
No necesitas ser programador para leer un archivo robots.txt. Está construido a partir de algunos ingredientes que se repiten. Los más comunes son User-agent, que nombra al rastreador al que se dirigen las reglas, y Disallow, que enumera una ruta que los rastreadores deben evitar. También está Allow, que crea una excepción, y una línea que apunta a tu mapa del sitio.
Un ejemplo simple podría decir: para cada rastreador, por favor no visites la carpeta de administración ni los resultados de búsqueda internos, pero todo lo demás es válido, y aquí es donde puedes encontrar el mapa de mis páginas importantes. Eso es genuinamente la mayor parte de lo que hace el archivo. El arte está en decidir qué pertenece a la lista de "por favor, evita" y qué debe permanecer abierto.
Un asterisco y una barra hacen mucho trabajo
Dos símbolos tienen mucho significado. El asterisco actúa como un comodín, haciendo coincidir cualquier secuencia de caracteres, y el signo de dólar marca el final de una URL. Así, una regla puede dirigirse a cada URL que contenga un signo de interrogación, o a cada archivo que termine en una extensión particular. Esto es poderoso y ligeramente peligroso: un comodín colocado descuidadamente puede coincidir con mucho más de lo que pretendías, que es exactamente cómo ocurren los bloqueos accidentales en todo el sitio.
Lo más importante que hay que entender
Aquí está el concepto erróneo que causa más daño, y vale la pena leerlo dos veces: robots.txt controla el rastreo, no la indexación. Son dos cosas diferentes. El rastreo es si un motor de búsqueda lee la página. La indexación es si la página puede aparecer en los resultados de búsqueda. Bloquear una página en robots.txt detiene la lectura, pero no detiene de manera confiable que la página aparezca en los resultados.
¿Cómo puede aparecer una página en los resultados si el rastreador nunca la leyó? Porque los motores de búsqueda también aprenden sobre las páginas a partir de los enlaces que apuntan a ellas en otros lugares. Si muchos sitios enlazan a una URL que has bloqueado, el motor de búsqueda puede incluirla de todos modos, a menudo con un título escueto y una nota de que no hay descripción disponible porque el rastreo no estaba permitido. Así que, si tu objetivo real es mantener una página completamente fuera de los resultados de búsqueda, robots.txt es la herramienta equivocada. En su lugar, querrías una instrucción noindex en la propia página, que un rastreador solo puede ver si le permites leer la página.
| Tu objetivo | Herramienta correcta | Por qué |
|---|---|---|
| Evitar desperdiciar esfuerzo de rastreo en URLs basura | robots.txt Disallow | Evita que los rastreadores soliciten la ruta en absoluto. |
| Mantener una página fuera de los resultados de búsqueda | Etiqueta noindex en la página | El rastreador debe leer la página para ver la instrucción, así que no la bloquees. |
| Ocultar datos privados o sensibles | Protección con contraseña | robots.txt es público; nunca confíes en él para la seguridad. |
| Dirigir a los rastreadores a tus páginas clave | Línea de sitemap en robots.txt | Ayuda a descubrir URLs importantes de manera eficiente. |
Qué no puede hacer robots.txt
Vale la pena ser franco sobre los límites, porque no entenderlos conduce a problemas reales. Primero, como ya hemos cubierto, no garantiza que una página se mantenga fuera de los resultados de búsqueda. Segundo, no es una medida de seguridad. El archivo es legible públicamente por cualquiera que escriba la dirección, por lo que listar tu ruta de administración secreta en realidad la anuncia a los curiosos. Si algo debe permanecer privado, protégelo con un inicio de sesión, no con una solicitud amable.
Tercero, los rastreadores que se portan bien lo obedecen, pero no todos los bots en internet se portan bien. Los extractores de datos y los bots maliciosos pueden ignorar el archivo por completo. Y finalmente, bloquear una página en robots.txt puede ser contraproducente cuando esa página ya genera tráfico. Si un rastreador ya no puede leerla, el motor de búsqueda pierde lentamente su comprensión de lo que hay allí, lo que puede erosionar silenciosamente las clasificaciones. Si alguna vez has lidiado con páginas que fueron rastreadas pero no indexadas, robots.txt es a menudo parte del rompecabezas de diagnóstico.
Los errores que silenciosamente cuestan tráfico a las empresas
La mayoría de los desastres de robots.txt no son dramáticos. Son pequeños, silenciosos y se descubren semanas después cuando alguien nota que el tráfico ha disminuido. El más infame es el bloqueo sobrante de la construcción de un sitio web. Durante el desarrollo, los equipos a menudo agregan una regla que prohíbe todo para que el sitio inacabado se mantenga fuera de la búsqueda. El error es olvidar eliminarlo el día del lanzamiento. El sitio se activa, se ve perfecto para los visitantes, y es completamente invisible para los motores de búsqueda porque esa línea obstinada todavía le dice a cada rastreador que se mantenga alejado.
Bloqueando tus propios recursos
Otro error clásico es bloquear los archivos que hacen que tus páginas funcionen, como las hojas de estilo y los scripts. Hace años, algunas personas los bloqueaban para "ordenar" el rastreo. Hoy en día, los motores de búsqueda renderizan las páginas de manera muy similar a como lo hace un navegador, por lo que si bloqueas los recursos que controlan el diseño, el rastreador ve una versión rota y a medio construir de tu página y puede juzgarla con dureza. Permite que los rastreadores lleguen a los activos que hacen que tus páginas se vean y se comporten correctamente.
Reglas conflictivas y demasiado amplias
Los comodines son maravillosos hasta que abarcan más de lo previsto. Una regla destinada a bloquear un tipo de URL puede coincidir accidentalmente con todo tu catálogo si el patrón es demasiado flexible. Las líneas Allow y Disallow conflictivas también confunden las cosas, ya que la forma en que se resuelven los conflictos no siempre es obvia para un no experto. El hábito más seguro es mantener las reglas escasas, específicas y fáciles de leer, y luego probarlas en lugar de confiar en ellas. Estos son exactamente el tipo de problemas que una auditoría SEO exhaustiva está diseñada para detectar antes de que te perjudiquen.
Lo que normalmente deberías dejar abierto
Es tentador pensar que más bloqueo equivale a más control, pero suele ser al contrario. Para la mayoría de los sitios web, quieres que los rastreadores lean tus páginas libremente. Las páginas que realmente se benefician de ser bloqueadas son pocas: páginas de resultados de búsqueda internas que generan interminables URLs delgadas, ciertas versiones filtradas o ordenadas de páginas de categorías que crean casi duplicados, pasos del carrito y del pago, y áreas de administración. Aun así, el bloqueo no siempre es la mejor solución para los duplicados. A veces, un problema de contenido duplicado se resuelve mejor con etiquetas canónicas para que el motor de búsqueda siga entendiendo la relación entre las páginas.
Siempre apunta a tu mapa del sitio
Una línea genuinamente útil para incluir es la ubicación de tu sitemap XML. Ofrece a los rastreadores un mapa ordenado de las URL que te interesan, lo que acelera el descubrimiento, especialmente para sitios nuevos o más grandes. Si estás configurando un proyecto completamente nuevo, este pequeño paso debe incluirse en tu rutina de lanzamiento y se combina naturalmente con la lista de verificación más amplia para el SEO para sitios web nuevos.
Cómo verificarlo y probarlo de forma segura
Antes de cambiar cualquier cosa, mira lo que ya tienes. Escribe tu dominio seguido de /robots.txt en un navegador y léelo. Si no tienes uno, eso suele estar bien; un archivo ausente simplemente significa que los rastreadores asumen que todo está permitido. Si tienes uno, lee cada línea y pregúntate, en lenguaje sencillo, "¿Qué impide esto que un rastreador lea, y realmente quiero eso?"
Cuando realices cambios, trátalos con cuidado. Los principales motores de búsqueda ofrecen herramientas de prueba que te permiten verificar si una URL específica está permitida o bloqueada según tus reglas. Úsalas. Es mucho mejor confirmar que una regla se comporta como se espera que publicarla y descubrir las consecuencias en tus informes de tráfico quince días después. Después de los cambios, vigila los informes de cobertura en busca de cualquier aumento repentino en las páginas bloqueadas, y observa la salud y el rendimiento general de tu sitio para que nada pase desapercibido.
Coordina con tu estrategia más amplia
Robots.txt no vive aislado. Funciona junto con tu mapa del sitio, tus enlaces internos y tus instrucciones de indexación. Un fuerte enlazado interno ayuda a los rastreadores a encontrar tus páginas importantes de manera eficiente, lo que reduce la necesidad de un bloqueo masivo en primer lugar. Cuando todas estas piezas están de acuerdo entre sí, los rastreadores dedican su atención a lo que realmente importa y tu mejor contenido obtiene la visibilidad que se merece. Si todavía te estás familiarizando con los fundamentos, vale la pena revisar cómo funciona el SEO en su conjunto.
Un enfoque tranquilo para un archivo pequeño pero potente
Si hay una mentalidad que llevarse, es esta: con robots.txt, la moderación suele ser mejor que el entusiasmo. El archivo es más útil cuando es conciso, deliberado y fácil de entender para un humano de un vistazo. Bloquea solo lo que realmente merece ser bloqueado, nunca confíes en él para ocultar secretos, recuerda que controla el rastreo en lugar de los resultados, y siempre apunta a tu mapa del sitio. Luego, prueba antes de confiar.
Manejado de esta manera, ese humilde archivo de texto se convierte en un aliado silencioso, guiando a los motores de búsqueda hacia tu mejor trabajo y lejos del desorden. Manejado descuidadamente, se convierte en una de las formas más fáciles de desaparecer de la búsqueda sin darte cuenta de por qué. La buena noticia es que prestarle un poco de atención ahora significa que rara vez tendrás que volver a pensar en ello. Si tu sitio se ha vuelto complejo o lo has movido recientemente, es aconsejable incluir una revisión de robots.txt en una verificación técnica de salud más amplia o en una migración de sitio web planificada, y pedir ayuda si algo parece complicado.
Preguntas frecuentes
¿Todo sitio web necesita un archivo robots.txt?+
¿Bloquear una página en robots.txt la eliminará de Google?+
¿Puedo usar robots.txt para ocultar información privada?+
Bloqueé algo por error. ¿Qué tan rápido funciona la solución?+
Referencias
- Google Search Central. "Introducción a robots.txt." developers.google.com.
- Google Search Central. "Cómo interpreta Google la especificación robots.txt". developers.google.com.
- Bing Webmaster Tools. "Control de rastreo y robots.txt". bing.com.