¿Es legal hacer scraping de contrataciondelestado.es si su robots.txt dice Disallow: /?

El robots.txt no es una barrera técnica, sino una petición de buena fe que el propio Ministerio de Hacienda hace a cualquier robot: no acceder a ninguna parte del sitio. Ignorarlo para hacer rastreo masivo y sistemático es jurídicamente delicado, especialmente si los datos se reutilizan con fines comerciales (Ley 37/2007 de reutilización de la información del sector público). Por eso la PLACSP ofrece una vía alternativa pensada exactamente para esto: los datasets de datos abiertos en formato ATOM/CODICE, publicados explícitamente para reutilización automática y actualizados a diario.

¿Qué es CODICE y por qué importa?

CODICE (Componentes y Documentos Interoperables para la Contratación Electrónica) es el esquema XML español para contratación pública, basado en UBL (Universal Business Language). Es el formato en el que la PLACSP publica sus datasets de datos abiertos: ficheros ZIP con feeds Atom en XML, con hasta 500 entradas por fichero. Importa porque es la forma oficial y soportada de obtener el listado completo de licitaciones de forma automática, sin necesidad de scraping.

¿Necesito proxies con IP rotativa para monitorizar licitaciones públicas españolas?

En la práctica, no. contrataciondelestado.es no usa Cloudflare ni sistemas de fingerprinting agresivo como los que justifican el uso de proxies rotativos en otros sitios. Los fallos que se observan al automatizar el portal son casi siempre inestabilidad propia de la plataforma — formularios lentos, sesiones que caducan — y se resuelven con reintentos y un contexto de navegador limpio, no con cambiar de IP.

¿Los datos abiertos de la PLACSP incluyen las licitaciones de las comunidades autónomas?

Parcialmente. Existe un dataset específico de "licitaciones agregadas" que recoge las licitaciones publicadas por comunidades autónomas integradas con la PLACSP mediante sindicación. Pero no todas las CCAA están integradas igual: algunas, como el País Vasco con su plataforma KontratazioA, mantienen sistemas propios con sus propias APIs REST. Un sistema de monitorización completo necesita combinar varias fuentes.

¿Cómo obtiene Nomos los datos de las licitaciones que analiza?

Nomos combina búsquedas automatizadas sobre el portal público — con un navegador headless configurado para simular una sesión normal de usuario, sin necesidad de proxies — con la extracción y el análisis del pliego de cada licitación mediante IA. El resultado es una puntuación de relevancia de 0 a 10 por especialidad y, si procede, el borrador de la memoria técnica generado automáticamente.

¿Puede la IA scrapear licitaciones? Fuentes de datos reales

¿Se puede usar la IA para sacar información de la página de contratación del Estado? Sí, pero no como la mayoría imagina. Esta guía repasa las fuentes de datos reales — oficiales y no oficiales — y aclara de una vez la cuestión de los proxies y las IPs rotativas.

Qué significa "scrapear licitaciones" en la práctica

Cuando alguien pregunta si "se puede usar la IA para sacar información de la página de contrataciones del Estado", normalmente imagina un robot que entra cada mañana en contrataciondelestado.es, lee las licitaciones nuevas y avisa por email. La idea de fondo es correcta — eso es justo lo que hace un sistema de monitorización automática —, pero el "cómo" tiene matices que casi ninguna guía explica.

Esta guía repasa, con datos verificables y sin relleno: qué fuentes de datos existen realmente para licitaciones públicas, por qué el portal estatal pide explícitamente a los robots que no entren, qué alternativas oficiales hay (y casi nadie usa), y si de verdad hacen falta proxies con IPs rotativas para todo esto.

La fuente principal: la Plataforma de Contratación del Sector Público (PLACSP)

contrataciondelestado.es es la cara visible de la Plataforma de Contratación del Sector Público (PLACSP), el sistema central donde la inmensa mayoría de organismos públicos españoles — ministerios, ayuntamientos, universidades, hospitales, organismos autónomos — publican sus licitaciones, desde el anuncio inicial hasta la formalización del contrato.

Es, con diferencia, la fuente más completa para licitaciones españolas. El problema es que está construida como un portal para personas: formularios pesados, resultados paginados y bastante JavaScript — no como una fuente de datos pensada para máquinas.

El dato que casi nadie comprueba: el robots.txt

Antes de plantearte si "la IA puede scrapear" un sitio, hay una comprobación de diez segundos que prácticamente nadie hace: abrir /robots.txt del dominio.

El de contrataciondelestado.es contiene, sin matices, dos directivas: el comodín que se aplica a todos los robots (User-agent: *) y la instrucción Disallow: /, que cubre absolutamente todo el sitio.

Traducido: el propio Ministerio de Hacienda pide explícitamente a cualquier robot, de cualquier tipo, que no acceda a ninguna parte del sitio. No es un bloqueo parcial a una sección concreta — es un "no" general y sin excepciones.

¿Qué implica esto en la práctica?

No es un muro técnico. robots.txt es una petición de buena fe, no una barrera como un captcha o Cloudflare. Un navegador automatizado puede ignorarlo y el portal seguirá respondiendo con normalidad.
Sí es una señal legal y ética relevante. Hacer scraping sistemático y a gran escala de un sitio cuyo robots.txt dice "no" a todo es jurídicamente más delicado que hacerlo en un sitio sin restricciones — sobre todo si el contenido extraído se reutiliza con fines comerciales, algo que la Ley 37/2007 sobre reutilización de la información del sector público regula de forma específica.
Por eso existe una vía pensada exactamente para esto — y es la que casi nadie conoce.

La alternativa oficial que casi nadie usa: los datos abiertos de la PLACSP

La propia PLACSP publica, desde el 1 de enero de 2012, un conjunto de datasets de "datos abiertos" pensados explícitamente para ser descargados y procesados de forma automática. A diferencia del portal web, aquí no hay robots.txt que lo prohíba: es justo lo contrario, una invitación a reutilizar la información, amparada por la propia Ley 37/2007.

Los datos se distribuyen en formato ATOM/CODICE: ficheros ZIP que contienen feeds Atom en XML, con hasta 500 entradas por fichero y encadenados por paginación. CODICE (Componentes y Documentos Interoperables para la Contratación Electrónica) es el esquema XML español para contratación pública, basado en UBL (Universal Business Language) — el mismo estándar internacional usado en facturación electrónica y otros procesos B2G.

Existen cuatro grandes conjuntos de datos:

Licitaciones publicadas en los perfiles del contratante (excluyendo contratos menores).
Licitaciones agregadas — la sindicación de licitaciones publicadas también por comunidades autónomas que se integran con la plataforma estatal.
Contratos menores publicados en los perfiles del contratante.
Perfiles de los órganos de contratación que usan la plataforma.

Para no tener que parsear XML a mano, el Ministerio de Hacienda publica OpenPLACSP, una herramienta gratuita (licencia EUPL 1.2, disponible para Windows y Linux) que convierte estos ficheros en hojas de cálculo con los campos principales de cada licitación.

En resumen: si lo que necesitas es "qué licitaciones nuevas hay y de qué tratan", la respuesta correcta casi nunca es "scrapear el portal" — es descargar estos ficheros, que se actualizan a diario y están pensados precisamente para esto.

Licitaciones europeas: la API de TED

Si tu empresa licita (o quiere empezar a licitar) a contratos por encima de los umbrales europeos, la fuente relevante deja de ser solo española: es TED (Tenders Electronic Daily), el "diario oficial" de la contratación pública de la UE.

TED tiene una API pública con acceso anónimo para búsqueda y consulta de anuncios ya publicados — no hace falta API key para esto. Desde el 14 de noviembre de 2022, todos los anuncios usan el estándar eForms (Reglamento (UE) 2019/1780), un formato de datos estructurado y mucho más consistente que el anterior. Además, TED ofrece un endpoint SPARQL para datos abiertos y descarga masiva de XML.

Para una empresa española mediana, TED suele ser la fuente "olvidada": se publican entre 500 y 700 anuncios nuevos cada día laborable a nivel europeo, muchos de ellos de organismos españoles que también tienen que anunciarse a nivel UE por superar el umbral.

Portales autonómicos: la fragmentación que nadie te cuenta

Aquí está el matiz que más sorprende a quien empieza: no existe "una sola fuente" de licitaciones españolas.

Algunas comunidades autónomas integran sus licitaciones con la PLACSP a través de las "licitaciones agregadas" mencionadas arriba. Otras mantienen plataformas propias, total o parcialmente independientes, con sus propios formatos. Un ejemplo reciente: el Gobierno Vasco lanzó en 2024 una nueva API REST sobre su plataforma de contratación KontratazioA, separada de la PLACSP.

La consecuencia práctica: un sistema de monitorización serio no puede limitarse a "leer contrataciondelestado.es". Tiene que combinar varias fuentes — datos abiertos estatales, TED, y en algunos casos integraciones específicas por comunidad autónoma — y deduplicar, porque la misma licitación puede aparecer en más de un sitio.

Entonces, ¿la IA puede "leer" el portal directamente o no?

La respuesta honesta es: depende de para qué.

Para descubrimiento masivo — "qué licitaciones nuevas hay hoy en toda España" — la respuesta correcta son los datos abiertos de la PLACSP más TED y las integraciones autonómicas relevantes. Es más rápido, más fiable, está pensado para esto y no entra en conflicto con el robots.txt.

Para acceder al pliego concreto de una licitación que ya has identificado — abrir su ficha, descargar el PDF del Pliego de Prescripciones Técnicas, comprobar el plazo de presentación actualizado — un navegador automatizado (Playwright, Selenium) que carga la página pública, sin login, y hace exactamente lo que haría una persona con un enlace, es una operación puntual y de bajo volumen. Sigue sin estar "permitida" por el robots.txt, pero el riesgo y el impacto son de otra naturaleza: no es rastreo masivo del sitio, es seguir un enlace concreto para obtener un documento público.

La combinación que de verdad funciona en producción es: datos abiertos + TED + portales autonómicos para saber "qué existe", y acceso puntual al portal para "dame el pliego completo de esta licitación concreta y analízalo".

La verdad sobre los proxies y las IPs rotativas

Esta es la parte donde más mitos circulan. Mucha gente da por hecho que "scraping = necesitas proxies rotativos para que no te bloqueen". Para muchos sitios, es verdad: estudios del sector sitúan en torno al 78% el porcentaje de los 10.000 sitios web más visitados que detectan scraping básico en menos de 100 peticiones, mediante fingerprinting del navegador y de TLS, retos JavaScript y análisis de comportamiento — el paquete típico de Cloudflare, Akamai o similares.

contrataciondelestado.es no está detrás de ese tipo de protección. Es una plataforma de la Administración construida sobre tecnología clásica de portal corporativo (WebSphere Portal/Liferay), sin Cloudflare ni captchas delante.

En la práctica — esto es experiencia real construyendo el monitor de licitaciones de Nomos, que accede al portal en producción de forma recurrente —: un navegador headless con un user-agent de escritorio normal, locale es-ES, zona horaria Europe/Madrid y cabeceras Accept-Language razonables no recibe bloqueos por IP. Ni con una IP fija, ni en ejecuciones repetidas.

El problema real no es "nos bloquean por scrapear" — es que el portal es lento e inestable: formularios que tardan en renderizarse del todo, búsquedas que devuelven 0 resultados por un fallo temporal del propio servidor, sesiones que hay que reabrir. La solución a eso no son proxies rotativos: son reintentos con un contexto de navegador limpio (cookies y sesión nuevas) y una espera de unos segundos entre intentos.

¿Cuándo sí pueden ser necesarias las IPs rotativas? Cuando decides scrapear agregadores comerciales de terceros que sí tienen protección anti-bot activa. Pero en ese caso, casi siempre esos mismos agregadores ofrecen una API de pago — que es la opción que de verdad tiene sentido, por fiabilidad y por evitar el problema de raíz en lugar de pelearte con él.

Cómo obtiene Nomos los datos de las licitaciones

En la práctica, el monitor de licitaciones de Nomos combina varias piezas:

Búsquedas configurables por tipo de contrato y territorio sobre el portal público, con un navegador Chromium headless (Playwright) que simula una sesión normal: user-agent realista, locale es-ES, cabeceras de idioma coherentes.
Reintentos con contexto limpio si una búsqueda concreta devuelve cero resultados — porque, como se explicaba arriba, eso suele ser un fallo temporal del portal, no un bloqueo.
Descarga y extracción de texto de los PDFs del pliego (Pliego de Prescripciones Técnicas y Pliego de Cláusulas Administrativas), incluyendo OCR cuando el PDF es un escaneado.
Análisis con un modelo de lenguaje que lee el pliego completo y genera una puntuación de relevancia de 0 a 10 por especialidad de la empresa — no solo por el título del contrato.
A partir de ahí, generación del borrador de la memoria técnica con Nomos.

Si quieres ver esto funcionando con tus propios criterios de búsqueda, puedes configurar el monitor de licitaciones con tus especialidades y territorios.

Conclusión

"Scrapear licitaciones con IA" es la pregunta equivocada. La pregunta correcta es: ¿de dónde vienen los datos, y para qué necesitas cada fuente?

Para descubrimiento masivo: datos abiertos de la PLACSP (ATOM/CODICE, actualizados a diario) + TED + integraciones autonómicas donde aplique.
Para el detalle de una licitación concreta: acceso puntual al pliego público, sin necesidad de rastrear el sitio entero.
Para todo esto: no hacen falta proxies con IP rotativa. contrataciondelestado.es no tiene el tipo de protección anti-bot que los justificaría — el reto real es la fiabilidad del portal, no su seguridad.

Lo que de verdad marca la diferencia no es de dónde vienen los datos, sino qué se hace con ellos después: la diferencia entre recibir una lista de 50 títulos de contratos al día y recibir 5 contratos puntuados por relevancia con el borrador de la memoria técnica ya generado.