Medio Millón de Kilómetros Cuadrados Monitorizados Desde el Espacio

Cuando le contamos a gente del sector que monitorizamos más de medio millón de kilómetros cuadrados de olivares con satélites, la reacción suele ser la misma: “¿Y eso para qué sirve exactamente?”

Es una pregunta justa. Los satélites suenan a ciencia ficción y presupuesto de agencia espacial. La respuesta es más práctica: para saber si la campaña va bien o mal antes de que sea obvio desde el suelo. Para detectar estrés hídrico una semana antes de que los árboles lo muestren visualmente. Para estimar la cosecha en julio cuando la recolección no llega hasta noviembre.

Este artículo cuenta cómo construimos ese sistema. No es una historia de éxito técnico lineal con una arquitectura perfecta desde el día uno. Es la historia de los problemas que no anticipamos, las decisiones que resultaron ser las más importantes, y lo que aprendimos procesando millones de píxeles de olivos mediterráneos.

El dato que ya existe y que nadie usa

La Agencia Espacial Europea opera programas de observación terrestre extraordinarios. Satélites que fotografían toda la superficie del planeta cada pocos días. Resolución de diez metros por píxel. Múltiples bandas espectrales. Los datos son públicos. El acceso es gratuito.

En teoría, cualquiera puede usarlos. En la práctica, casi nadie en el sector olivarero lo hace.

No es por falta de valor. Los datos están ahí, actualizándose constantemente, cubriendo cada olivar del Mediterráneo. El problema es la distancia entre tener acceso a los datos y convertirlos en información útil.

Tienes que saber qué bandas espectrales necesitas para cada tipo de análisis. Cómo calcular correctamente los índices de vegetación específicos para cultivos mediterráneos. Cómo filtrar automáticamente los píxeles contaminados por nubes, sombras y errores del sensor. Cómo interpretar los números resultantes en el contexto agronómico concreto del olivo.

Y tienes que hacerlo no una vez, sino sistemáticamente, semana tras semana, para treinta y siete regiones distintas.

Nosotros queríamos automatizar completamente ese proceso. Procesar las regiones olivareras más importantes del Mediterráneo cada semana sin intervención manual. Desde Jaén hasta el Líbano. Desde Puglia hasta el Sahel tunecino. Convertir reflectancia satelital cruda en información que un gerente de cooperativa pueda usar para tomar decisiones esa misma semana.

Resultó ser considerablemente más complejo de lo que anticipamos. Y más interesante.

La decisión que más veces nos salvó

Los primeros datos que extrajimos tenían anomalías. No eran errores de programación. Eran anomalías reales: nubes mal clasificadas, sombras de montañas confundidas con nubes, píxeles defectuosos del sensor.

La pregunta técnica fundamental era aparentemente simple: ¿guardas los datos exactamente como vienen del satélite, o los corriges automáticamente antes de almacenarlos?

Corregir directamente era tentador. Menos código. Menos almacenamiento. Una sola versión de la verdad. Todo más limpio arquitecturalmente.

Pero había un problema que tardamos semanas en dimensionar completamente.

Los datos satelitales son caros de obtener — no en euros, porque la API es gratuita hasta límites generosos, sino en tiempo y cuota de procesamiento. Cada región individual tarda varios segundos en extraerse. Treinta y siete regiones son varios minutos por semana. Un año completo de datos históricos son aproximadamente dos horas y media de extracción continua.

Si tres meses después descubres que tu algoritmo de corrección tenía un error sutil, o quieres probar un método diferente, o simplemente cometiste un error de juicio sobre qué considerabas anómalo — sin los datos originales tienes que volver a extraer todo. Dos horas y media adicionales. Consumiendo cuota de API mensual que puede agotarse.

Implementamos arquitectura dual: datos originales tal como vienen del satélite, completamente inmutables, nunca sobrescritos. Y versión procesada, corregida, lista para servir.

Duplica el almacenamiento. Complica las queries. Añade overhead conceptual.

Esa decisión nos salvó al menos doce veces durante el desarrollo cuando descubrimos que algo en nuestro pipeline necesitaba ajustarse. Simplemente re-procesamos los datos originales en minutos en lugar de esperar horas a que la API nos volviera a enviar información que ya teníamos guardada.

Los datos originales son sagrados. Nunca los sobrescribas.

A las 3:17 de la mañana

El backfill histórico lo programamos para ejecutarse durante la madrugada. Configuramos el script para extraer semana por semana desde 2020, guardando progreso después de cada commit. Lanzamos la ejecución un viernes por la noche. Revisamos los primeros logs. Todo funcionaba correctamente.

Nos fuimos a dormir.

A las 3:17 del sábado saltó una alerta. El sistema había parado con un error que nunca habíamos visto: cuota mensual de procesamiento agotada.

La API opera con un sistema de unidades mensuales. Cada request consume unidades según el tamaño del área, la resolución, el número de bandas y la duración de la ventana temporal. Teníamos una cuota académica razonablemente generosa que según todos nuestros cálculos debería cubrir la extracción completa.

Habíamos subestimado.

A mitad del segundo mes de extracción, con aproximadamente el 60% de los datos históricos ya guardados, la cuota se agotó. Y no se renueva hasta el primero del mes siguiente.

Teníamos usuarios piloto que necesitaban datos históricos completos para validar el sistema antes de comprometerse. Esperar dos semanas no era una opción.

La solución no era elegante, pero fue tremendamente efectiva: sistema de fallback automático con una segunda cuenta de acceso. Si la cuenta principal se queda sin cuota, el sistema conmuta instantáneamente a la secundaria y continúa desde donde se había detenido. Sin intervención humana.

Desde entonces operamos permanentemente con redundancia, con alertas automáticas cuando cualquier cuenta baja del 20% de cuota restante. No es la arquitectura que diseñarías cuidadosamente desde cero. Es la arquitectura que construyes cuando la realidad operacional te enseña que tus estimaciones sobre consumo de recursos eran demasiado optimistas.

Funciona perfectamente. Llevamos más de un año sin quedarnos sin cuota en momentos críticos.

El problema que el índice estándar no ve

El índice de vegetación más famoso en remote sensing aparece en aproximadamente el 80% de los papers académicos sobre agricultura de precisión. Tiene cuarenta años de investigación respaldándolo. Está validado en miles de estudios. Nosotros lo implementamos primero, como haría cualquiera.

Funcionaba. Los valores eran razonables dentro de los rangos esperados. Pero cuando empezamos a comparar sistemáticamente con observaciones directas de campo de algunas cooperativas colaboradoras, algo no cuadraba.

Parcelas que visualmente se veían saludables mostraban valores sorprendentemente bajos. Zonas con estrés visible a veces aparecían como moderadamente saludables. El problema no era nuestro código: el problema era el cultivo.

En olivares tradicionales mediterráneos, los árboles están separados típicamente entre ocho y doce metros. El suelo es una fracción significativa — a veces mayoritaria — de cada píxel de diez metros que captura el satélite. Los índices estándar miden indiscriminadamente todo lo que hay dentro del píxel: vegetación y suelo juntos. En un campo de trigo, donde la vegetación cubre el 90% de la superficie, eso funciona bien. En un olivar de secano, estás midiendo más tierra que árboles.

Cambiamos a índices diseñados específicamente para cultivos dispersos, con corrección matemática por brillo del suelo. Los parámetros están validados en múltiples estudios sobre respuesta espectral de olivares mediterráneos publicados durante las últimas dos décadas.

La diferencia fue notable e inmediata. Los valores coincidían mucho mejor con las observaciones de campo. Los patrones estacionales tenían sentido agronómico: floración, cuajado, desarrollo del fruto, maduración. Las zonas problemáticas se identificaban claramente.

Los índices estándar siguen en el sistema — tienen cuarenta años de literatura que permite comparar con estudios académicos, lo cual tiene valor. Pero para tomar decisiones agronómicas reales sobre olivares mediterráneos específicamente, los índices ajustados por suelo son los que importan.

Los cinco problemas que el satélite no anticipa

Después de procesar varias regiones durante algunos meses, empezamos a ver patrones extraños que se repetían con suficiente frecuencia como para requerir atención.

Valores negativos en tierra vegetada. Teóricamente pueden ocurrir en superficies de agua o nubes brillantes. En olivares, el mínimo físico razonable está en un rango definido. Encontrábamos regularmente valores extremadamente negativos en píxeles que supuestamente habían pasado todos los filtros de calidad. Son errores de clasificación de nubes o píxeles defectuosos del sensor. El dilema técnico: ¿los marcas como inválidos y dejas un hueco, o intentas corregirlos?

Spikes clásicos. Valor normal una semana, caída abrupta la siguiente, recuperación inmediata la tercera. Los olivos simplemente no funcionan así fisiológicamente. Un árbol no se estresa severamente y se recupera completamente en catorce días. Tiene que ser nube residual mal clasificada. Pero ¿cuándo es aceptable corregir automáticamente?

Valores anormalmente bajos fuera de temporada. Un olivo saludable en pleno junio mediterráneo, con máxima actividad fotosintética, no debería mostrar valores bajos salvo que estuviera muerto o muy enfermo. Si ese valor aparece, es casi seguro un error de medición. Ese mismo valor en diciembre podría ser perfectamente normal para un árbol en reposo vegetativo invernal. El número no significa nada sin el contexto temporal.

Cambios extremos entre semanas consecutivas. La literatura científica sobre fisiología del olivo es abundante y consistente: cambios superiores a ciertos porcentajes en una semana son físicamente improbables sin algún evento catastrófico documentado. Si vemos un cambio enorme sin ningún reporte de evento climático extremo en esa región, algo está mal en los datos satelitales, no en los árboles.

Datos faltantes sin explicación. A veces la API devuelve ausencia de datos para una región-semana específica sin error, sin mensaje, simplemente vacío. Puede ser cobertura de nubes del 100% durante toda la semana. Puede ser un error temporal del satélite. Sucede.

Para cada uno de estos cinco patrones desarrollamos protocolos explícitos basados meticulosamente en técnicas publicadas y validadas por instituciones de referencia europeas y americanas en remote sensing agrícola. No inventamos métodos desde cero. Cuando alguien pregunta por qué tomamos cierta decisión técnica, poder citar papers científicos revisados por pares es infinitamente más sólido que “nos pareció lo más razonable”.

Las regiones que nos enseñaron más

No todas las regiones se comportan igual en los datos satelitales.

Calabria fue particularmente desafiante por su topografía extremadamente montañosa. Los valles estrechos y las pendientes pronunciadas crean sombras dramáticas según la posición del sol. Las sombras de las propias montañas confundían sistemáticamente el algoritmo de detección de nubes: muchos píxeles válidos se marcaban erróneamente como problemáticos y se excluían. La solución fue ajustar los umbrales del filtro específicamente para regiones con topografía compleja, sin eliminar el filtro completamente.

Creta presentaba un desafío diferente: los olivares están frecuentemente mezclados con viñedos y almendros en distancias cortas, a veces dentro del mismo píxel. Los índices que calculamos son técnicamente correctos — miden reflectancia espectral real — pero no distinguen automáticamente entre cultivos. Sin información adicional de clasificación de uso del suelo, reportamos honestamente “vegetación agrícola” sin especificar composición exacta. Es trabajo técnico futuro.

Líbano tuvo mala suerte meteorológica en el período inicial. Enero y febrero de 2021 tuvieron cobertura de nubes casi continua sobre las regiones olivareras del norte y sur del país. Algunas semanas específicas devolvieron literalmente cero píxeles válidos después de filtrar nubes y sombras.

No existe ningún algoritmo que pueda inventar datos satelitales que físicamente no existen porque el satélite no pudo ver el suelo. Esas semanas están marcadas explícitamente como ausencia de datos con metadata completa explicando exactamente por qué. La honestidad técnica sobre limitaciones reales importa mucho más que pretender tener datos perfectos.

Los tres índices que la gente realmente usa

Calculamos ocho índices espectrales distintos. No todos tienen el mismo valor práctico. Tres destacan claramente porque resuelven problemas agronómicos concretos.

El índice de salud vegetativa ajustado por suelo es nuestro principal indicador de vigor. Para olivares donde los árboles están separados y el suelo ocupa una fracción sustancial de cada píxel, correlaciona mucho más fuertemente con el estado real del árbol que los índices estándar. Es el que usamos como base para todas las alertas de salud vegetativa.

El índice de estrés hídrico detecta problemas entre cuatro y siete días antes de que aparezcan síntomas visuales. La relación entre ciertas bandas espectrales captura el contenido de agua en los tejidos foliares. Cuando el agua foliar disminuye, esos ratios cambian — y eso sucede antes de que el árbol muestre marchitez o enrollamiento de hojas. Para cooperativas con sistemas de riego, esa ventana de cuatro a siete días es tiempo suficiente para actuar.

El índice de área foliar predice producción de cosecha con cuatro o cinco meses de anticipación. Mide el área de hoja total por unidad de superficie de suelo, que determina directamente la capacidad fotosintética del árbol y por tanto el potencial productivo. La correlación con kilogramos por hectárea finales está documentada entre el 70% y el 85% dependiendo de la región y el año climático.

Esa última capacidad es la que más impacto operativo tiene. Una cooperativa puede hacer proyecciones de volumen en julio, cuando la recolección no llegará hasta noviembre. Eso cambia completamente cómo planifican la logística, cómo estructuran las negociaciones con compradores, y cuánto capital necesitan movilizar para la campaña.

Lo que el sistema procesa mientras duermes

Hoy el sistema extrae automáticamente datos de las treinta y siete regiones mediterráneas tres veces al día. Son 540.362 kilómetros cuadrados bajo monitorización satelital continua. Desde Andalucía hasta el Líbano, pasando por Puglia, Peloponeso, Alentejo, la cuenca del Egeo en Turquía, el Sahel tunecino.

El pipeline tiene tres fases completamente independientes. La primera extrae y guarda datos originales inmutables. La segunda procesa esos datos originales con correcciones científicas y los escribe en la versión que sirven los usuarios. La tercera identifica quirúrgicamente qué semanas y regiones tienen datos incompletos y solo re-extrae exactamente eso — no todo de nuevo, solo los huecos.

Esa separación de responsabilidades resultó ser crítica para el mantenimiento a largo plazo. Puedes ajustar los algoritmos de corrección y re-procesar todo sin tocar una sola llamada a la API. Puedes rellenar huecos sin desperdiciar cuota re-extrayendo lo que ya tienes.

Cada mes siguen apareciendo casos edge que los algoritmos no habían encontrado. Regiones donde condiciones topográficas específicas generan efectos no anticipados. Eventos climáticos extremos que rompen asunciones estadísticas sobre rangos válidos. Cada uno de esos casos requiere análisis para determinar si es anomalía a corregir o evento físico real a reportar.

El sistema mejora constantemente. Una semana de datos a la vez.

¿Trabajas con datos satelitales o remote sensing agrícola? Nos interesa especialmente hablar con equipos que hayan enfrentado problemas similares de corrección de series temporales o validación agronómica de índices espectrales. Escríbenos.

Si te interesa ver qué dicen los satélites sobre tu región olivarera, Olearia Intelligence integra estos datos con inteligencia completa de mercado, precios, clima y producción. Solicita acceso a la beta privada.

Medio Millón de Kilómetros Cuadrados Monitorizados Desde el Espacio

El dato que ya existe y que nadie usa

La decisión que más veces nos salvó

A las 3:17 de la mañana

El problema que el índice estándar no ve

Los cinco problemas que el satélite no anticipa

Las regiones que nos enseñaron más

Los tres índices que la gente realmente usa

Lo que el sistema procesa mientras duermes

Artículos Relacionados

Por Qué el Aceite de Oliva Necesita Métricas de Banco de Inversión

OBI: Lo Que Aprendimos Intentando Predecir el Precio del Aceite

RAG vs Fine-Tuning: Lo que Hemos Aprendido Eligiendo Entre Ambos

¿Te ha gustado este artículo?