Saltar al contenido principal
Tecnología
16 min de lectura

Estimaciones de Precios en el Mercado Europeo del Aceite: Lo Que Aprendimos Construyendo las Nuestras

El mercado oleícola europeo tiene un problema conocido: los datos oficiales llegan tarde. Esto es lo que descubrimos cuando decidimos abordarlo de forma sistemática.

Estimaciones de Precios en el Mercado Europeo del Aceite: Lo Que Aprendimos Construyendo las Nuestras
AIXA Team

AIXA Team

Equipo de expertos en IA

El mercado europeo del aceite de oliva tiene una peculiaridad que todo el mundo conoce pero de la que pocos hablan abiertamente: los datos oficiales de precios llegan tarde. La Comisión Europea publica semanalmente los precios de referencia de España, Italia, Grecia y Portugal, pero esos datos reflejan lo que pasó hace una o dos semanas, no lo que está pasando ahora. Para quien tiene que tomar decisiones de compra o venta, ese desfase no es un detalle menor. Es un problema operativo real que el sector lleva décadas resolviendo como puede, generalmente con estimaciones de diversas fuentes que intentan anticipar lo que los datos oficiales confirmarán después.

El problema es que esas estimaciones no siempre aciertan. Cualquiera que haya trabajado con datos del sector lo sabe: a veces cuadran razonablemente bien, otras veces no tanto. Durante años esto fue aceptable porque los errores solían ser pequeños y el mercado se movía de forma relativamente predecible. Pero la crisis de 2023-2024 cambió las reglas del juego. Los precios empezaron a moverse de formas que nadie había visto en décadas, con volatilidades que duplicaban o triplicaban las históricas, y las estimaciones tradicionales empezaron a fallar con más frecuencia y con errores más grandes.

Nosotros teníamos acceso a algo que pocos tienen: más de 25 años de datos históricos de precios oficiales de los cuatro países principales, actualizados cada semana. También teníamos datos diarios del mercado español, que se publican sin el retraso de los europeos. Y teníamos las herramientas para analizarlo todo de forma sistemática. La pregunta era obvia: ¿podíamos construir un sistema de estimación más fiable que lo que había disponible? La respuesta, como suele pasar con estas cosas, resultó ser mucho más complicada de lo que esperábamos.

El punto de partida: entender qué teníamos entre manos

Antes de construir nada, dedicamos tiempo a entender la estructura de los datos que teníamos. Parece obvio, pero es un paso que a menudo se salta cuando hay prisa por producir resultados. Queríamos saber exactamente con qué estábamos trabajando: cuántas observaciones, de qué períodos, qué países tenían más datos, cuáles menos, dónde había huecos.

Los números eran interesantes. España tenía la serie más completa, con más de 1.300 semanas de datos desde el año 2000. Italia andaba cerca, con unas 1.200 semanas. Grecia tenía algo menos, unas 1.280 semanas pero con algunos huecos. Y Portugal era el más problemático, con solo unas 800 semanas de datos y bastantes inconsistencias. Esta diferencia en la disponibilidad de datos ya nos decía algo importante: no íbamos a poder tratar a todos los países igual. Un modelo que funcionara bien para España, con su serie larga y completa, probablemente no funcionaría igual de bien para Portugal.

También miramos los tipos de aceite. La base de datos incluía precios para tres categorías: virgen extra, virgen y lampante. La disponibilidad variaba mucho según el país y el tipo. Italia tenía buena cobertura de los tres tipos. Grecia y Portugal tenían datos más escasos para virgen y lampante. Esto significaba que, además de adaptar los modelos por país, probablemente tendríamos que adaptarlos también por tipo de aceite. La complejidad del problema iba creciendo.

La primera hipótesis: los ratios históricos

Nuestra primera idea fue la más intuitiva. Si históricamente el precio en Italia ha sido, digamos, un 50% más alto que en España, entonces cuando sabemos el precio actual de España podemos estimar el de Italia multiplicando por 1.5. Simple, elegante, fácil de implementar.

Dedicamos bastante tiempo a calcular estos ratios históricos entre países. Los resultados fueron reveladores, pero no de la forma que esperábamos. El ratio entre Grecia y España era bastante estable, rondando el 1.0 con una desviación pequeña. El de Portugal respecto a España era un poco más variable pero todavía manejable, alrededor de 1.03. Pero el ratio de Italia respecto a España era un desastre: oscilaba entre 1.03 y 2.68 dependiendo del año, con una desviación estándar enorme.

Cuando miramos la evolución año a año, el problema se hizo aún más evidente. Entre 2000 y 2010, el ratio Italia/España se movía entre 1.05 y 1.33, relativamente estable. Pero a partir de 2011 empezó a subir, llegando a 1.54. En 2018-2019 saltó a casi 2.0. En 2022-2023 bajó a 1.10-1.23. Y en 2025 volvió a dispararse a 2.28. No había ninguna constante que pudiéramos usar. El ratio cambiaba según las condiciones del mercado, las cosechas relativas de cada país, la demanda internacional… Usar un ratio fijo habría sido como apuntar a un blanco que se mueve constantemente.

Esta primera hipótesis quedó descartada, al menos como método principal. Pero el ejercicio no fue inútil: nos enseñó que los mercados no se comportan de forma proporcional y constante, y que cualquier modelo tendría que ser capaz de adaptarse a condiciones cambiantes.

La segunda hipótesis: seguir la tendencia de España

Si los ratios fijos no funcionaban, quizás las tendencias sí. La idea era simple: si España sube un 5% esta semana, los demás países probablemente también subirán, quizás no exactamente un 5%, pero algo en esa dirección. Esto tenía sentido económico: España es el mayor productor mundial, sus movimientos de precio reflejan las condiciones fundamentales del mercado, y los compradores internacionales usan España como referencia.

Calculamos las correlaciones entre los cambios semanales de precio de los diferentes países. Los resultados eran más prometedores. La correlación entre España y Grecia era de 0.45 en el conjunto de 25 años, y había subido a 0.56 en los últimos tres años. Grecia seguía a España de forma bastante predecible. La correlación entre España e Italia era más baja, alrededor de 0.30, pero todavía significativa. Portugal era el más independiente, con correlaciones que a veces eran cercanas a cero.

Esto nos dio una pista importante: quizás podíamos usar el cambio de precio de España como predictor para los demás países, pero con diferentes intensidades. Si España subía un 5%, podíamos estimar que Grecia subiría algo cercano a ese 5%, pero Italia quizás solo un 2-3%, y Portugal era casi impredecible.

Construimos varios modelos basados en esta idea. Un modelo “Spain 30%” que aplicaba el 30% del cambio español. Un modelo “Spain 50%” que aplicaba la mitad. Un modelo “Spain 70%” más agresivo. Y los probamos contra 25 años de datos históricos para ver cuál funcionaba mejor en cada país.

El backtesting: donde la realidad golpea las teorías

El backtesting fue la parte más larga y más reveladora del proceso. La idea es simple: simulas que estás en el pasado, haces una predicción con los datos que tendrías disponibles en ese momento, y luego comparas con lo que realmente pasó. Repites esto miles de veces, a lo largo de años de datos históricos, y calculas métricas de error.

Los primeros resultados fueron desalentadores. Ninguno de nuestros modelos sofisticados superaba consistentemente al método más simple de todos: usar el último precio conocido sin ningún ajuste. Parece contraintuitivo, pero tenía sentido cuando lo pensamos. Los precios del aceite de oliva no cambian tanto de una semana a otra. La mayoría de las veces, el mejor predictor del precio de esta semana es el precio de la semana pasada. Cualquier intento de “mejorar” esa estimación con ajustes o tendencias a menudo introducía más error del que corregía.

Pero había matices importantes. Para Grecia, el modelo “Spain 50%” sí superaba al método simple, con una mejora de aproximadamente el 10% en el error medio. Esto confirmaba que la correlación España-Grecia era lo suficientemente fuerte como para aportar información útil. Para Italia, en cambio, los modelos basados en España no funcionaban bien. Italia necesitaba otra aproximación.

Probamos entonces modelos de “momentum”: la idea de que si el precio ha estado subiendo las últimas semanas, probablemente siga subiendo. Para Italia, un modelo que combinaba el último precio con la tendencia de las dos semanas anteriores funcionaba mejor que seguir a España. Para Portugal, nada funcionaba especialmente bien; el mercado era demasiado volátil y los datos demasiado escasos.

La tentación del machine learning

En este punto hicimos lo que probablemente haría cualquier equipo con acceso a herramientas de análisis avanzado: probar machine learning. Teníamos muchas más fuentes de datos disponibles que no habíamos usado todavía. Precios de commodities relacionadas como la soja, el girasol y el aceite de palma. Tipos de cambio del euro. Índices de vegetación satelitales de 28 regiones olivareras de todo el Mediterráneo. Datos climáticos históricos y en tiempo real. Indicadores técnicos de mercado. Todo esto podía alimentar modelos más sofisticados que quizás capturarían patrones que las heurísticas simples no veían.

Construimos modelos con Random Forest, XGBoost y LightGBM. Probamos diferentes conjuntos de variables, diferentes ventanas temporales, diferentes formas de dividir los datos de entrenamiento y test. Pasamos semanas afinando hiperparámetros y buscando la combinación óptima.

Los resultados fueron un jarro de agua fría. En el 68% de las pruebas que hicimos, las heurísticas simples superaban a los modelos de machine learning. No por mucho, pero superaban. Los modelos complejos tendían a sobreajustarse a los datos históricos: funcionaban muy bien prediciendo el pasado, pero fallaban cuando se enfrentaban a datos nuevos que no habían visto durante el entrenamiento.

Hubo un momento particularmente ilustrativo. Uno de nuestros modelos de XGBoost parecía funcionar extraordinariamente bien, con errores mucho menores que cualquier otra cosa que hubiéramos probado. Cuando investigamos por qué, descubrimos que el modelo había aprendido a usar una variable que era básicamente una versión retrasada del precio que intentábamos predecir. No estaba prediciendo nada; estaba haciendo trampa con una fuga de datos que no habíamos detectado. Fue una lección sobre lo fácil que es engañarse a uno mismo con modelos complejos.

Lo más interesante vino cuando analizamos qué variables consideraban más importantes los modelos de machine learning. Para Grecia, la variable más importante era el cambio porcentual del precio de España. Exactamente lo que hacía nuestro modelo “Spain 50%”, pero con mucha más complejidad computacional y sin ninguna mejora real. El machine learning había redescubierto la heurística simple, confirmando que estábamos en el camino correcto.

El descubrimiento que no buscábamos: el tipo de aceite importa

Hasta este punto, todo nuestro trabajo se había centrado en el virgen extra, el AOVE. Era el producto estrella, el más seguido, el que más datos tenía. Parecía lógico empezar por ahí. Pero teníamos también datos de aceite virgen y lampante, y decidimos extender el análisis para ver si las mismas heurísticas funcionaban.

Lo que encontramos nos sorprendió. El lampante, especialmente en el mercado italiano, era significativamente más predecible que el virgen extra. El error medio de nuestras estimaciones para lampante Italia era de menos de 4 euros por cada cien kilos, mientras que para AOVE Italia era de más de 6 euros. Casi un 40% menos de error.

Cuando lo pensamos, tenía sentido. El lampante es un producto industrial. No se vende al consumidor final; va a las refinerías para convertirse en aceite de oliva refinado. Sus compradores son profesionales que necesitan materia prima de forma constante y predecible. No hay especulación, no hay modas, no hay noticias que muevan el precio de un día para otro. El mercado es más racional, más estable, más predecible.

El AOVE, en cambio, está expuesto a todo tipo de factores externos. Un estudio que dice que el aceite de oliva es bueno para el corazón puede mover la demanda. Una noticia sobre una mala cosecha genera expectativas y especulación. Los consumidores finales son más sensibles a tendencias y modas. El mercado es más emocional.

También descubrimos que las correlaciones entre tipos de aceite variaban según el país. En España, los tres tipos se movían juntos con correlaciones altísimas, superiores al 0.77. Lo que pasaba con el AOVE español afectaba también al virgen y al lampante español. Pero en Italia y Grecia, cada tipo de aceite tenía dinámicas más independientes. Esto significaba que no podíamos usar el mismo modelo para todos los tipos; necesitábamos modelos específicos.

Construyendo el sistema final

Después de meses de análisis, iteraciones y callejones sin salida, llegamos a un sistema que era mucho más simple de lo que habíamos imaginado al principio, pero que funcionaba mejor que cualquiera de nuestras aproximaciones más sofisticadas.

Para Italia, el mejor modelo resultó ser un “ensemble” que combinaba tres cosas: el último precio conocido, un ajuste basado en la tendencia de España, y un componente de momentum basado en las dos semanas anteriores. Ninguno de estos elementos por separado funcionaba tan bien como los tres juntos, promediados. Para el lampante italiano, curiosamente, funcionaba mejor seguir solo la tendencia de España, sin el componente de momentum.

Para Grecia, el modelo “Spain 50%” era claramente el mejor. Aplicar la mitad del cambio español al precio griego reducía el error en aproximadamente un 10% respecto a usar simplemente el último precio conocido. La correlación España-Grecia era lo suficientemente fuerte y estable como para aportar información real.

Para Portugal, nada funcionaba especialmente bien. El mercado era demasiado volátil y los datos demasiado escasos. Acabamos usando el modelo “Spain 50%” más por consistencia que por convicción, sabiendo que los márgenes de error serían amplios.

Para los tipos de aceite secundarios, desarrollamos modelos que aprovechaban las correlaciones internas de cada país. El virgen italiano y griego se estimaba mejor usando el cambio del AOVE local que usando el cambio de España. Tenía sentido: son productos del mismo mercado, de la misma cosecha, vendidos a compradores similares.

La decisión de los rangos

Una de las decisiones más importantes que tomamos fue dejar de intentar dar un número exacto. Las estimaciones tradicionales suelen presentarse como valores concretos: “el precio de Italia esta semana es 712 euros”. El problema es que ese número transmite una falsa sensación de precisión. Sugiere que sabemos exactamente cuál es el precio, cuando en realidad solo tenemos una estimación con cierto grado de incertidumbre.

Decidimos presentar nuestras estimaciones como rangos: “el precio probablemente está entre 703 y 721 euros”. Parece menos impresionante, menos concreto, pero es mucho más honesto y, argumentamos, más útil. Un usuario que sabe que el precio real podría estar en cualquier punto de ese rango puede tomar decisiones mejor informadas que uno que cree saber el precio exacto cuando en realidad no lo sabe.

Calibrar esos rangos fue un trabajo considerable. Usamos los más de 25 años de datos históricos para calcular cuánto se desviaban típicamente nuestras estimaciones del precio real. Establecimos rangos que cubrieran el 80% de las observaciones históricas: cuando decimos que el precio está entre X e Y con un 80% de confianza, es porque en el pasado, el 80% de las veces el precio real cayó dentro de rangos similares.

Los márgenes varían según el país, el tipo de aceite y el momento del año. Italia AOVE tiene márgenes de unos 9 euros. Grecia, unos 14 euros. Portugal, casi 30 euros. El lampante italiano, sorprendentemente ajustado, solo 6 euros. Y en octubre-diciembre, cuando empieza la cosecha y todo es más incierto, aplicamos un factor multiplicador del 1.5 a todos los márgenes.

Lo que no funciona y no escondemos

Nos parece importante ser explícitos sobre las limitaciones del sistema. Hemos visto demasiadas herramientas que prometen precisiones imposibles y luego fallan en silencio, dejando a los usuarios sin saber que sus decisiones se basaron en datos erróneos.

No podemos anticipar eventos imprevistos. Una helada tardía que destruya parte de la cosecha, un conflicto geopolítico que afecte al comercio internacional, un cambio regulatorio inesperado… Estos “cisnes negros” están fuera de las capacidades de cualquier sistema de estimación basado en datos históricos. Cuando ocurren, nuestras estimaciones serán tan erróneas como las de cualquier otro.

La precisión se degrada con el tiempo. Nuestras estimaciones funcionan razonablemente bien cuando los datos oficiales llevan una semana de retraso. Con dos semanas, la incertidumbre aumenta considerablemente. Más allá de eso, los rangos se vuelven tan amplios que pierden utilidad práctica. Mostramos explícitamente cuántos días han pasado desde el último dato oficial, y marcamos las estimaciones como “datos obsoletos” cuando el retraso es excesivo.

Portugal sigue siendo problemático. Tenemos menos datos históricos, el mercado es más volátil, y las correlaciones con otros países son más débiles. Nuestros márgenes para Portugal son deliberadamente amplios, reflejando esta mayor incertidumbre. Preferimos ser honestos sobre lo que no sabemos que aparentar una precisión que no existe.

Y hay momentos donde todo falla. La crisis de 2023-2024 fue un recordatorio brutal. Cuando la volatilidad se dispara a niveles no vistos en décadas, cuando los precios se mueven un 10-15% en una semana, las estimaciones basadas en patrones históricos simplemente no pueden seguir el ritmo. Detectamos estos períodos de alta volatilidad y ampliamos los márgenes automáticamente, pero aun así, en los momentos más extremos, los errores fueron mayores de lo que nos hubiera gustado.

Lo que seguimos aprendiendo

El sistema que tenemos hoy no es el mismo que teníamos cuando empezamos, ni será el mismo dentro de un año. Cada semana que pasa nos da más datos para validar y recalibrar los modelos. Cada período de volatilidad nos enseña algo nuevo sobre cómo se comportan los mercados bajo presión. Cada error que cometemos es una oportunidad para entender mejor dónde fallan nuestras hipótesis.

Hemos aprendido a resistir la tentación de complicar las cosas. Cuando un modelo simple funciona razonablemente bien, la tentación es siempre añadir más variables, más complejidad, más sofisticación técnica. Pero una y otra vez, los datos nos han demostrado que más complejidad no significa mejor rendimiento. A veces significa exactamente lo contrario: más oportunidades de sobreajuste, más ruido, más formas de equivocarse.

También hemos aprendido a valorar la transparencia sobre la precisión aparente. Es fácil construir un sistema que dé números muy concretos y parezca muy seguro de sí mismo. Es más difícil construir uno que comunique honestamente su incertidumbre. Pero creemos que la segunda aproximación es más útil para quien tiene que tomar decisiones reales con dinero real.

El mercado del aceite de oliva seguirá siendo complejo, volátil e impredecible. Las condiciones climáticas cambiarán. Los patrones de consumo evolucionarán. Nuevas crisis surgirán que nadie había anticipado. Lo mejor que podemos hacer es medir esa incertidumbre de forma rigurosa, comunicarla con transparencia, y seguir aprendiendo de cada error.


¿Trabajas con datos del mercado oleícola y te enfrentas a problemas similares? En AIXA AI desarrollamos herramientas de inteligencia de mercado para el sector agroalimentario. Escríbenos si quieres explorar cómo podemos ayudarte.

Etiquetas

#Machine Learning #Estimación de Precios #Mercado Europeo #Data Science

¿Te ha gustado este artículo?

Recibe más contenido como este directamente en tu correo. Guías prácticas y las últimas innovaciones en IA empresarial.

Sin spam

Datos protegidos