Ajuste de modelos de aprendizaje automático

Se ajustaron modelos de regresión utilizando el algoritmo Random Forest para la predicción de los siguientes índices de servicios ecosistémicos: Índice de Provisión de Servicios Ecosistémicos (Ecosystem Services Provision Index, ESPI), índice de productividad del suelo (IP), almacenamiento de carbono orgánico en el suelo (sCOS) y almacenamiento de carbono orgánico en biomasa (COV). Para el ajuste de los modelos predictivos se utilizaron un conjunto de variables explicativas o predictoras que fueron seleccionadas del SIG generado previamente.

Para la validación y cuantificación del error de predicción se realizó una validación cruzada del tipo k-fold con k = 10. En este procedimiento las observaciones se dividieron aleatoriamente en 10 grupos de igual tamaño. Uno de los grupos se emplea como subconjunto de validación, mientras que el resto de los grupos (k-1) se emplean para entrenar el modelo. El proceso es repetido durante k iteraciones para finalmente calcular el error promedio del modelo.

En la siguiente tabla se presentan las medidas de ajuste de los modelos predictivos para cada indice de servicio ecositemico.

Medidas de ajuste para modelos predictivos del Índice de Provisión de Servicios Ecosistémicos (ESPI), índice de productividad del suelo (IP), almacenamiento de carbono orgánico en el suelo (sCOS) y almacenamiento de carbono orgánico en biomasa (COV)
Índice \(R^2\) RMSE (%)
ESPI 0,86 8,30
IP 0,85 16,86
sCOS 0,96 3,13
COV 0,87 37,67
\(R^2\): coeficiente de derminación, MAE: error medio absoluto
RMSE: raiz cuadrada del error de predicción promedio
RMSE: raiz cuadrada del error de predicción promedio relativo a la media de la varaible respuesta

Para cada índice de Servicio Ecosistémico, se presentan los gráficos donde se ranquea la importancia de las variables explicativas utilizadas en el modelo de predicción. Estos gráficos permiten identificar la influencia que tiene cada predictor sobre una medida de error global de predicción que es el error cuadrático medio de predicción (MSE) del modelo.

\[MSE= \frac{1}{n}\sum_{t=1}^{n}(obs_i-pred_i)^2\]

Donde \(n\) corresponde al número de segmentos en la cuenca, \(obs_i\) corresponde al valor estimado del índice para el segmento \(i\) y \(pred_i\) al valor predicho sobre el modelo. De tal manera que esta medida es un promedio de los errores de predicción del modelo

El porcentaje en que se incrementa el MSE debido a la ausencia de la variable explicativa se interpreta como la influencia que tiene la misma sobre el modelo.

También se muestran los gráficos de dependencia parcial que permiten visualizar el efecto marginal, es decir de cada variable explicativa sobre variable sobre la respuesta. Supongamos que desea comprender la importancia de la variable \(j\), el método construye el modelo promediando las restantes variables predictoras excepto \(j\) y mide el cambio en la respuesta. Este cambio en la respuesta puede ayudar a identificar cómo una predictora afecta la respuesta y en que magnitud.

Índice de Productividad

IP

Ranking de importancia de variables explicativas del IP

Ranking de importancia de variables explicativas del IP

Entre las variables más importantes para explicar la variación del IP se destacan el contenido de MO del suelo, el porcentaje de la superficie del segmento bajo rotación ganadera, el contenido de Arena, el contenido de CIC y zinc en suelo, entre otras.

En el gráfico de relaciones parciales se observa que a medida que aumenta la superficie con rotacion ganadera el IP disminuye. Una relación iversa se presenta con la variable superficie bajo actividades anuales de doble ciclo. Con la MO se observa una correlación positiva, aunque los valores de IP se estabilizan cuando el contenido de MO es cercano al 3%.

Relaciones parciales entre IP y variables explicativas

Relaciones parciales entre IP y variables explicativas

Almacenamiento de CO en el suelo

sCOS

Ranking de importancia de variables explicativas del sCOS

Ranking de importancia de variables explicativas del sCOS

Para el caso del sCOS la variable más importante para explicar su variación fue el contenido de arena del suelo seguido por variables topográficas como la elevación y pendiente. El valor de sCOS se mantiene relativamente constante cuando el contenido de arena es inferior al 30% y luego disminuye cuando el porcentaje de arena se incrementa.

Relaciones parciales entre sCOS y variables explicativas

Relaciones parciales entre sCOS y variables explicativas

Almacenamiento de CO en biomasa aérea

COV

Ranking de importancia de variables explicativas del COV

Ranking de importancia de variables explicativas del COV

La variable más importante para explicar el COV fue el NDVI seguido por características topográficas (pendiente y elevación). También se puede observar que el COV se incrementa cuando el NDVI es superior a 0,4.

Relaciones parciales entre COV y variables explicativas

Relaciones parciales entre COV y variables explicativas

Provisión de Servicios Ecosistémicos

ESPI

Ranking de importancia de variables explicativas del ESPI

Ranking de importancia de variables explicativas del ESPI

Entre las variables más importantes para explicar la variación del ESPI se destacan el porcentaje de la superficie del segmento bajo rotación ganadera, la superficie con actividades estivales o anuales de doble ciclo, la pendiente, el contenido de P, la dinámica de la productividad del suelo (LPD), la superficie bajo rotación agrícola y la Elevación. Se observa que a medida que aumenta la superficie con rotación ganadera el ESPI aumenta. Una relación iversa se presenta con la superficie con actividades estivales. Para el caso de la superficie con actividades anuales de doble ciclo este impacto es de menor magnitud.

Relaciones parciales entre ESPI y variables explicativas

Relaciones parciales entre ESPI y variables explicativas