Presentación y opciones Caja de diálogo de la aplicación
Sintaxis

Presentación y opciones

Esta aplicación permite generar un modelo explicativo y predictivo de una variable espacial dicotómica Y en función de n variables espaciales independientes Xn cuantitativas.

La variable dependiente Y siempre será dicotómica y, por tanto, los valores numéricos que tomará serán 1 o 0 (presencia/ausencia, sí/no, éxito/fracaso...). El propósito del análisis es predecir la probabilidad de que la variable Y tome valor 1 en función de los valores de las variables explicativas, P(Y=1|X ), y evaluar la relación o efecto de éstas sobre la variable dependiente.

El análisis está fundamentado en el modelo de regresión logística binaria multivariante que asume que la probabilidad de que la variable Y tome valor 1 sigue la distribución logística y, por tanto, su valor puede ser estimado según la siguiente fórmula, denominada función logística:

dónde:


son las variables independientes,

es la constante del modelo o término independente,

son los coeficientes de las variables independentes.

Esta función es continua y toma valores en el rango [0,1].

El vector de coeficientes se estima mediante el método de máxima verosimilitud, es decir, los coeficientes son ajustados de forma que se maximiza la función de verosimilitud.

Dado que una variable dependiente dicotómica sigue una distribución binomial, la función de verosimilitud para una muestra aleatoria de N observaciones se expresa por:

dónde:


es el valor observado (1 o 0) de la variable dependiente por la muestra i
es el valor predicho de la variable dependiente por la muestra i, .

Los coeficientes que maximicen L(B) también maximizarán su transformación logarítmica. Para maximizar el logaritmo de la función de verosimilitud es necesario encontrar la solución del siguiente sistema de ecuaciones no lineales:

dónde:
es el valor observado de la variable independiente para la muestra i.

En la aplicación se ha implementado el algoritmo iterativo de Newton-Raphson para resolverlo.

Así pues, para determinar los coeficientes de la regresión es necesario proporcionar un conjunto de muestras en las que es conocida tanto la variable dependiente (1 o 0) en localizaciones concretas (puntuales) como el conjunto de las posibles variables independientes. Estas muestras se proporcionarán en un archivo de puntos estructurado PNT o en una tabla en formato DBF o bien en una tabla en cualquier otro formato accesibles mediante un driver ODBC (Open DataBase Connectivity). Las variables independientes tendrán que ser proporcionadas como rásters en formato IMG del mismo ámbito geográfico y lado de píxel. El resultado predictivo será también un ráster en formato IMG.

El procedimiento de regresión es, de hecho, un proceso iterativo de ajuste de todas las regresiones posibles: desde la regresión con todas las variables independientes inicialmente introducidas hasta las regresiones con una única variable independiente. Analizando los parámetros estadísticos de cada regresión y en función del criterio escogido (menor coeficiente AIC, menor estadístico Deviance o mejor coeficiente R2 de Naglekerke, se obtiene la que se considera es la mejor regresión de todas.

Para más información del modelo de regresión logística, del método de máxima verosimilitud y del algoritmo iterativo Newton-Raphson se puede consultar la siguiente referencia:

Czepiel, S.A. (2002) Maximum Likelihood Estimation of Logistic Regression Models: Theory and Implementation https://czep.net/stat/mlelr.pdf.


Caja de diálogo de la aplicación


Caja de diálogo de RegLog


Sintaxis

Sintaxis:

Parámetros:

Modificadores: