Robots.txt: configuración correcta para SEO

El archivo robots.txt es uno de esos elementos técnicos que los directores de marketing suelen ignorar hasta que algo sale mal. Un error de configuración puede hacer que Google deje de rastrear páginas clave de tu web, o peor, que indexe secciones que nunca deberían aparecer en los resultados de búsqueda. En este artículo explicamos la robots txt configuración SEO correcta, con ejemplos reales, errores frecuentes y las decisiones que debes tomar como responsable de negocio.

---

Qué es el archivo robots.txt y por qué importa en SEO

El archivo robots.txt es un fichero de texto plano que se aloja en la raíz de tu dominio (por ejemplo, https://tudominio.com/robots.txt) y que le indica a los rastreadores de los motores de búsqueda qué partes de tu web pueden visitar y cuáles no.

No es un elemento de seguridad. Es un protocolo de cortesía que los bots bien configurados respetan, pero que cualquier rastreador malicioso puede ignorar. Su función en SEO es doble: gestionar el presupuesto de rastreo y proteger el índice de contenido irrelevante o duplicado.

Según datos de Semrush, el 35% de los sitios web con problemas de posicionamiento tienen errores en su configuración de robots.txt que bloquean recursos críticos como archivos CSS, JavaScript o páginas de categorías. Un porcentaje significativo de estos errores pasa desapercibido durante meses.

---

Cómo funciona el protocolo de exclusión de robots

Cuando Googlebot llega a tu dominio, lo primero que hace es consultar el archivo robots.txt. Si no existe, asume que tiene acceso completo. Si existe, lee las instrucciones y las aplica antes de rastrear cualquier otra URL.

El fichero se basa en bloques de reglas con esta estructura básica:

` User-agent: [nombre del bot] Disallow: [ruta que no puede rastrear] Allow: [ruta que sí puede rastrear] Sitemap: [URL del sitemap] `

Directivas principales que debes conocer

User-agent: Identifica al bot al que van dirigidas las instrucciones. El asterisco (*) aplica a todos los bots. Puedes segmentar por nombre de bot: Googlebot, Bingbot, facebot, etc.

Disallow: Prohíbe el rastreo de una ruta. Si el campo está vacío (Disallow:), permite el acceso completo a ese bot.

Allow: Permite explícitamente el acceso a una subruta dentro de una sección bloqueada con Disallow. Útil cuando bloqueas un directorio pero quieres que ciertas páginas dentro de él sean rastreables.

Sitemap: Señala la ubicación del sitemap XML. Buena práctica incluirlo siempre, aunque también lo declares en Google Search Console.

Crawl-delay: Indica al bot cuántos segundos esperar entre peticiones. Google no respeta esta directiva, pero sí otros bots como Bingbot o rastreadores de terceros.

---

Los 6 errores de robots txt configuración SEO más frecuentes

1. Bloquear recursos críticos de JavaScript y CSS

Antes de 2014, Google recomendaba bloquear JavaScript y CSS para ahorrar presupuesto de rastreo. Hoy es exactamente lo contrario: si Googlebot no puede acceder a estos archivos, no puede renderizar tu página y pierde el contexto visual y funcional. El resultado es una indexación deficiente.

Revisa que no tengas algo como esto en tu robots.txt:

` Disallow: /wp-includes/ Disallow: /wp-content/themes/ `

Estos directorios en WordPress contienen archivos esenciales para el renderizado.

2. Bloquear la web entera por accidente

Es más común de lo que parece. Ocurre durante migraciones, lanzamientos de webs en staging o errores de copia de un entorno de desarrollo a producción. El bloqueo universal tiene esta pinta:

` User-agent: * Disallow: / `

Esta configuración le dice a todos los bots que no rastreen nada. Google Search Console envía una alerta, pero si nadie la supervisa, la web puede desaparecer del índice en pocas semanas.

3. Confundir robots.txt con privacidad real

Algunos equipos bloquean en robots.txt páginas con información sensible creyendo que así las ocultan del público. Error. Las URLs bloqueadas en robots.txt no se indexan, pero son visibles públicamente porque el propio archivo es accesible por cualquiera. Para ocultar contenido de forma efectiva se deben usar contraseñas, noindex en la etiqueta meta o headers HTTP.

4. Bloquear páginas que generan valor SEO

Hay webs que bloquean en robots.txt sus páginas de etiquetas, categorías o filtros de producto sin valorar si generan tráfico orgánico. Antes de bloquear cualquier sección, analiza en Google Search Console si recibe impresiones o clics.

5. No incluir la directiva Sitemap

Omitir el sitemap en robots.txt es un error de oportunidad. Aunque Google lo encuentre por otras vías, declararlo aquí acelera el descubrimiento de nuevas URLs, especialmente en sitios con mucho contenido nuevo.

6. Usar robots.txt como sustituto del noindex

Bloquear una URL en robots.txt no elimina esa página del índice si ya estaba indexada. Para desindexar una página que ya aparece en Google, necesitas la etiqueta accesible al rastreador. Si la bloqueas en robots.txt, Googlebot no puede leer el noindex y la página puede seguir apareciendo en los resultados.

---

Configuración correcta de robots.txt según el tipo de proyecto

Para un sitio web corporativo o blog

La configuración más limpia para una web corporativa es la que bloquea solo lo que no aporta valor SEO ni es necesario que Google rastree:

` User-agent: * Disallow: /wp-admin/ Disallow: /wp-login.php Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /gracias/ Allow: /wp-admin/admin-ajax.php

Sitemap: https://tudominio.com/sitemap_index.xml `

En este ejemplo se bloquea el área de administración, las páginas de proceso de compra y las páginas de agradecimiento post-conversión, que no tienen valor SEO pero consumen presupuesto de rastreo.

Para un ecommerce con miles de productos

Los ecommerces tienen el reto del presupuesto de rastreo. Google asigna a cada dominio un número limitado de páginas que rastrea por sesión. Si tu tienda tiene 50.000 productos más filtros de precio, color y talla, puedes estar generando millones de URLs que diluyen ese presupuesto.

Una configuración SEO orientada a ecommerce bloquea las URLs con parámetros sin valor:

` User-agent: * Disallow: /*?color= Disallow: /*?orden= Disallow: /*?page= Disallow: /usuario/ Disallow: /pedido/ Disallow: /busqueda/?q= Allow: /categoria/ Allow: /producto/

Sitemap: https://tienda.com/sitemap.xml `

Atención: el uso de comodines (* en la ruta) para bloquear parámetros es una técnica válida en Google pero no en todos los motores de búsqueda. Verifica el comportamiento en Search Console con la herramienta de inspección de URLs.

Para un sitio con entorno staging o área de pruebas

Si tienes un subdominio de staging, bloquea todos los bots allí sin excepciones. Un sitio de pruebas indexado genera contenido duplicado que puede perjudicar al dominio principal:

` User-agent: * Disallow: / `

En este caso concreto es la configuración correcta. El problema solo surge cuando se aplica al dominio de producción.

---

Cómo auditar tu robots.txt en 5 minutos

Paso 1: Accede al archivo y léelo

Abre en el navegador https://tudominio.com/robots.txt. Si devuelve un error 404, Google asume acceso total. Si carga, léelo íntegramente.

Paso 2: Usa la herramienta de prueba en Google Search Console

Google Search Console tiene desde 2022 un informe de rastreo donde puedes ver las URLs bloqueadas por robots.txt. También incluye una herramienta de prueba de la URL del robots.txt donde puedes simular qué puede y qué no puede rastrear Googlebot.

Paso 3: Cruza con el informe de cobertura

En Search Console, el informe de cobertura clasifica las URLs en indexadas, excluidas, con errores y advertencias. Si ves un volumen alto de URLs en la categoría "Excluidas por robots.txt", revisa si estás bloqueando algo valioso.

Paso 4: Comprueba los recursos bloqueados

Usa la herramienta de inspección de URLs en Search Console para analizar páginas clave. Si aparece el aviso "Los recursos de la página están bloqueados", tus archivos CSS o JavaScript están siendo filtrados por robots.txt.

Paso 5: Valida la sintaxis

Un error de sintaxis puede invalidar bloques enteros de reglas. La herramienta de Google para validar robots.txt (disponible en el sitio para desarrolladores de Google) detecta errores de formato antes de que los cometa en producción.

---

Robots.txt y el presupuesto de rastreo: una relación clave para grandes webs

El presupuesto de rastreo (crawl budget) es el número de URLs que Googlebot está dispuesto a rastrear en tu dominio en un periodo de tiempo determinado. Para sitios pequeños o medianos (menos de 10.000 URLs), raramente es un problema. Para ecommerces grandes, medios de comunicación o marketplaces con millones de páginas, es un factor crítico.

Estudios de la industria estiman que Googlebot puede rastrear entre el 30% y el 70% menos de páginas de un dominio cuando hay miles de URLs de baja calidad o duplicadas consumiendo ese presupuesto. Una robots txt configuración SEO optimizada puede recuperar ese presupuesto y dirigirlo hacia las páginas que realmente importan.

Las señales que indican un problema de crawl budget son:

Páginas nuevas que tardan semanas en aparecer en el índice
Páginas de producto o categoría que no aparecen indexadas a pesar de existir hace meses
Informes de cobertura en Search Console con una proporción alta de URLs descubiertas pero no indexadas

---

Relación entre robots.txt, sitemap y arquitectura web

El robots.txt no funciona de forma aislada. Forma parte de un ecosistema técnico junto con el sitemap XML, la arquitectura de enlaces internos y las directivas de indexación a nivel de página.

La regla de oro es que el sitemap y el robots.txt no deben contradecirse: no incluyas en el sitemap URLs que estás bloqueando en robots.txt. Esto genera confusión para los bots y señales contradictorias que pueden perjudicar la indexación.

Una arquitectura SEO sólida se apoya en tres capas:

Robots.txt: controla el acceso al rastreo (quién puede entrar y dónde)
Sitemap XML: orienta la indexación (qué páginas son prioritarias)
Etiquetas meta robots y canonical: gestionan la indexación a nivel de URL individual

Cuando estas tres capas trabajan de forma coherente, el resultado es un índice limpio, eficiente y bien posicionado.

---

Conclusión: la configuración de robots.txt no es trivial

El archivo robots.txt puede parecer un detalle técnico menor, pero su impacto sobre el rastreo y la indexación de tu web es directo y medible. Un error puede costar semanas de visibilidad perdida. Una configuración correcta, en cambio, asegura que Google invierta su presupuesto de rastreo exactamente donde tú quieres: en las páginas que generan negocio.

Los puntos clave que debes recordar como responsable de marketing o negocio:

Revisa tu robots.txt al menos una vez al trimestre y siempre tras una migración
No bloquees recursos CSS o JavaScript
No uses robots.txt para ocultar contenido sensible
Asegúrate de que no haya contradicciones entre el robots.txt y tu sitemap
Supervisa en Search Console las URLs excluidas por robots.txt

Si tienes dudas sobre la configuración actual de tu web o sospechas que puedes estar perdiendo visibilidad por errores técnicos, el mejor paso es una auditoría SEO técnica profesional.

---

¿Tu web tiene la configuración de robots.txt correcta? En Comunicua auditamos la configuración técnica de tu dominio y detectamos los errores que están frenando tu posicionamiento. Contacta con nosotros en comunicua.com/contacto y analizamos tu caso sin compromiso.