GEO

Guía técnica: llms.txt, ai.txt y robots.txt para abrir tu web a la IA

Publicado el 7 de February de 2026

Los archivos llms.txt, ai.txt y robots.txt son archivos de texto que se colocan en la raíz de tu web para comunicarte con los crawlers — los bots que rastrean internet. El robots.txt existe desde los años 90 para buscadores como Google. Los archivos llms.txt y ai.txt son estándares emergentes diseñados específicamente para los crawlers de modelos de lenguaje como GPTBot, ClaudeBot y PerplexityBot.

Configurarlos correctamente es un requisito técnico básico de cualquier estrategia GEO. Sin ellos, podrías estar bloqueando a los bots de IA sin saberlo.

robots.txt: lo primero que leen todos los bots

El robots.txt es un archivo en la raíz de tu dominio (tudominio.com/robots.txt) que indica a los bots qué pueden rastrear y qué no. Muchos sites bloquean por defecto a los crawlers de IA, ya sea intencionalmente o porque usan configuraciones restrictivas heredadas.

Para GEO, necesitas asegurarte de que los principales bots de IA tienen permiso explícito. Los crawlers más importantes en 2026 son: GPTBot (OpenAI/ChatGPT), ClaudeBot (Anthropic/Claude), PerplexityBot (Perplexity), Google-Extended (Google Gemini), Amazonbot (Alexa) y Applebot-Extended (Apple Intelligence).

La configuración recomendada es simple: permitir el acceso general con User-agent: * Allow: /, y añadir entradas específicas para cada bot de IA confirmando el permiso. También debes bloquear carpetas que no contengan contenido público, como directorios de administración o archivos de configuración.

llms.txt: el mapa de tu web para modelos de lenguaje

El llms.txt es un estándar emergente inspirado en robots.txt pero diseñado para modelos de lenguaje. Se coloca en la raíz de tu dominio (tudominio.com/llms.txt) y describe en formato markdown qué es tu web, qué contenido ofrece, cómo está organizado y qué es más relevante.

A diferencia del robots.txt que da instrucciones técnicas (permitir/bloquear), el llms.txt da contexto semántico. Le dice al modelo: "somos una empresa de consultoría especializada en X, publicamos artículos sobre Y y Z, nuestro contenido más importante está en estas URLs".

La estructura recomendada de un llms.txt incluye: un título con el nombre de la organización, una descripción breve (1-2 frases) precedida por >, secciones con ## describiendo las áreas de contenido, y enlaces a las páginas más relevantes. Todo en markdown sencillo.

ai.txt: tu política de uso por inteligencia artificial

El ai.txt es otro estándar emergente que declara tu política respecto al uso de tu contenido por sistemas de IA. Se coloca igualmente en la raíz del dominio y especifica si permites que la IA rastree tu contenido, lo use para entrenamiento, y lo cite.

Para una estrategia GEO, tu ai.txt debe indicar explícitamente que permites el rastreo, el uso y la citación. Los campos clave son: AI-training (allowed/disallowed), AI-crawling (allowed/disallowed) y AI-citation (encouraged/allowed/disallowed). Si quieres que te citen, pon AI-citation: encouraged.

También puedes incluir un formato de citación preferido: "Cuando cites contenido de este site, usa [Nombre] como fuente con enlace a la URL del artículo." Algunos modelos ya respetan estas indicaciones.

Errores comunes que bloquean a los bots de IA

El error más frecuente es tener un robots.txt con User-agent: * Disallow: / que bloquea todo. Muchos sites heredan esta configuración de plantillas antiguas o plugins de seguridad que bloquean bots desconocidos por defecto.

Otro error común es bloquear bots específicos sin saberlo. Algunos firewalls y plugins de seguridad de WordPress bloquean GPTBot y ClaudeBot porque los clasifican como bots no deseados. Revisa las reglas de tu firewall.

Un tercer error es no tener llms.txt ni ai.txt. No tenerlos no bloquea a los bots, pero pierdes la oportunidad de darles contexto sobre tu contenido y de indicar explícitamente que quieres ser citado.

¿Cómo verificar que todo funciona?

Visita tudominio.com/robots.txt, tudominio.com/llms.txt y tudominio.com/ai.txt desde tu navegador. Si ves el contenido correctamente, los bots también lo verán. Para verificar que no estás bloqueando bots de IA, usa la herramienta de inspección de robots.txt de Google Search Console o herramientas online como robotstxt.org.

Para comprobar si los bots de IA realmente rastrean tu web, revisa los logs del servidor buscando GPTBot, ClaudeBot o PerplexityBot en el user-agent. Si aparecen, están accediendo a tu contenido.

En resumen: robots.txt, llms.txt y ai.txt son los tres archivos técnicos que abren tu web a la IA. El robots.txt da permiso de acceso, el llms.txt da contexto sobre tu contenido, y el ai.txt declara tu política de citación. Configurarlos lleva 30 minutos y es un paso imprescindible de cualquier estrategia GEO.

Preguntas frecuentes

¿Es obligatorio tener llms.txt y ai.txt?

No es obligatorio. Los bots de IA pueden rastrear tu web sin ellos. Pero tenerlos te da una ventaja: proporcionas contexto sobre tu contenido y declaras explícitamente que quieres ser citado, lo que puede influir positivamente en la selección de fuentes.

¿Todos los LLMs respetan estos archivos?

El robots.txt es respetado por todos los crawlers legítimos, incluidos GPTBot y ClaudeBot. Los archivos llms.txt y ai.txt son estándares más nuevos con adopción creciente. Aunque no todos los modelos los lean todavía, implementarlos ahora te posiciona para cuando se generalicen.

¿Puedo permitir el rastreo pero no el entrenamiento?

Sí. En el ai.txt puedes poner AI-crawling: allowed y AI-training: disallowed. Esto indica que permites que los modelos lean tu contenido para generar respuestas, pero no que lo usen para entrenar nuevos modelos. Algunos proveedores ya respetan esta distinción.

¿Necesitas ayuda con esto?

En SopyApp te acompañamos con consultoría y formación para que lo implementes tú.

Hablemos

Sigue leyendo

SEO y GEO en Mallorca: consultoría de posicionamiento web e IA para empresas locales
Consultoría SEO y GEO desde Mallorca. Posicionamiento en Google y en ChatGPT, Claude y Perplexity para empresas baleares y nacionales.
Consultoría GEO en España: cómo hacer que los motores de IA recomienden tu empresa
Qué es una consultoría GEO, qué incluye, cómo funciona en España y qué resultados puede esperar una empresa que quiere ser citada por los motores de IA generativa.
10 errores comunes en GEO y cómo evitarlos
Los 10 errores que impiden que ChatGPT, Claude y Perplexity citen tu web. Diagnóstico y solución para cada uno.