Modelos de regresión logística o logit

Modelos logit
con variables explicativas cuantitativas observadas sin error

 


 I.            Formulación del modelo


·         Modelo de regresión logística simple
Consideraremos el caso de una única variable explicativa cuantitativa X para una variable aleatoria binaria Y. Utilizaremos un modelo lineal para el logaritmo de la ventaja de respuesta Y=1 en cada valor observado de x de la variable explicativa:

Ln[p(x)/(1-p(x))] = alfa + beta*x

Que equivalentemente se puede expresar de la siguiente forma en términos de probabilidad de respuesta 1 en x:

p(x)= e(alfa+beta*x)/(1+ e(alfa+beta*x))

curva de respuesta que es estrictamente creciente si beta>0 y estrictamente decreciente para beta <0.

Interpretación de sus parámetros
a.       Para beta=0,
          i.      tenemos p(x)= e(alfa)/(1+ e(alfa)), es decir, la variable Y es independiente de X.
          ii.      alfa es el valor común del logaritmo de las ventajas de respuesta Y=1 frente a la respuesta Y=0
b.      alfa se puede interpretar como el valor del logaritmo de la ventaja de respuesta 1 para un individuo con X=0
c.       por cada unidad de incremento en X, el logit de respuesta 1 aumenta aditivamente beta unidades. La ventaja de la respuesta 1 en cada x observado es: p(x)/(1-p(x)) = e(alfa+beta*x) = e(alfa)*(e(beta)^x), así la ventaja de la respuesta 1 aumenta multiplicativamente e(beta) por cada unidad de incremento en X.
d.      Cociente de ventajas de respuesta 1 para dos valores diferentes x1 y x2 de X: theta(x1,x2)= [ p(x1)/(1+p(x1)) ]/[ p(x2)/(1+p(x2)) ] = e(beta*(x1-x2)), que pertenece a (0, infinito) y:
          i.       theta(x1,x2)= 1 sii p(x1)=p(x2).
        ii.      theta(x1,x2)> 1 sii p(x1)>p(x2), la ventaja de respuesta 1 es e(beta*(x1-x2)) veces mayor para X=x1 que para X=x2.
        iii.      theta(x1,x2)< 1 sii p(x1)la ventaja de respuesta 1 es 1/e(beta*(x1-x2)) veces mayor para X=x2 que para X=x1.

Y para dos valores de X que se diferencian en una unidad: theta(x+1,x)= theta(deltaX=1) = e(beta)


·         Modelo de regresión logística múltiple
Si consideramos el caso de R variables explicativas cuantitaticas no aleatorias (X1, X2, …, XR), para cada combinación de valores observados X1=x1, X2=x2, …, XR=xR de las variables explicativas, la variable respuesta Y tiene distribución de Bernoulli, con p(x1,…,xR) = P[Y=1|X1=x1,…,XR=xR]=E[Y|X1=x1,…,XR=xR]. Entonces la fórmula del modelo es la siguiente:
Y(x1,…,xR)=p(x1,…,xR)+épsilon(x1,…,xR) 
donde épsilon(x1,…,xR) son errores aleatorios que se consideran centrados e independientes. Así, tenemos:
p(x1,…,xR)= e(alfa+sum(beta_r*x_r))/(1+exp(alfa+sum(beta_r*x_r)))

Si llamamos alfa=beta_0, X=(X0,X1,…,XR)` y x=(x0,x1,…,xR)`, beta=(beta0,beta1,…,betaR)’  con  X0=1, tenemos:
p(x)= e(sum(beta_r*x_r))/(1+e(sem(beta_r*x_r))) = e(beta’*x)/(1+e(beta’*x))
o equivalentemente ln[p(x)/(1-p(x))] = sum(beta_r*x_r)

Interpretación de sus parámetros

a.       Para beta_r=0, para todo r=1,…,R,
          i.      tenemos p(x)=e(beta_0)/(1+e(beta_0)), Y es independiente de las variables explicativas.
         ii.      beta_0 es el valor común del logaritmo de las ventajas de respuesta =1 frente a Y=0.
b.      Cociente de ventajas de respuesta Y=1 para dos combinaciones diferentes de valores de las variables explicativas x1=(1,x11,…,x1R)’ y x2=(1,x21,…,x2R)’ es: theta(x1,x2) = [p(x1)/(1-p(x1))]/[p(x2)/(1-p(x2))] = e(sum(beta_R(x1r-x2r)))

Y para dos valores de X que se diferencian en una unidad: theta(x+1,x)=theta(deltaX1=1,…,deltaXR=1)=e(sum(beta_r))=prod(e(beta_R)),aal aumentar una unidad de una variable y controlar las demás, la ventaja de respuesta 1 queda multiplicada por la exponencial del coeficiente de la variable incrementada.
          i.      Exponencial de un parámetro>1, entonces la probabilidad de respuesta =1 aumenta cuando aumenta la variable correspondiente y se controlan las demás
           ii.      Exponencial de un parámetro<1, se cumple la relación inversa.
   

·         Modelos con interacción
La posibilidad de interacción entre las variables explicativas de un modelo de regresión logística múltiples implica que lso cocientes de ventajas que miden la asociación entre la variable de respuesta y cada variable explicativa ya no son independientes del valor fijo del resto de variables explicativas controladas. Esto significa que los modelos anteriormente analizados son modelo sin interacción porque el grado de asociación entre la variable de respuesta y cada una de las variables explicativas es el miso en todas las combinaciones de niveles de las otras variables independientes.

Existen interacciones de distintos órdenes:
         i.            Orden uno (entre dos variables explicativas): la asociación entre la variable de respuesta y una variable, depende de los valores de una tercera que interacciona con ésta última. 
         ii.            Orden dos: involucran a tres variables

La interacción entre dos variables cuantitativas se incluye en el modelo de regresión logística múltiple como producto de ambas variables.
Ln[p(x)/(1-p(x))] = sum(beta_r*x_r) + sum(sum(beta_rs*x_r*x_s))

 Interpretación de sus parámetros
a.       El término de interacción entre dos variables cuantitativas Xr y Xs es de la forma beta_rs*Xr*Xs.
b.      El Cociente de ventajas de respuesta =1 cuando se incrementa en una unidad una variable y se controlan fijas las demás, depende del valor de las variables controladas: theta(deltaXl=1|x1,…,xl-1,xl+1,…,xR) = e(beta_l+sum(beta_lr*x_r)), para todo l=1,…,R.

 Nomenclatura:
  • Variable de confusión: está asociada con el factor de riesgo de modo que la asociación marginal entre la variable de respuesta y el factor de riesgo cambia significativamente al incluirla en el análisis estadístico. Tienen que ser considerados en el modelo aunque pueden no interaccionar con el factor de riesgo.
  • Variable modificadora: modifica el efecto cuando la asociación entre la variable de respuesta y el factor de riesgo cambia en función de sus valores. Es una variable que interacciona con el factor de riesgo.

II.            Ajuste
Disponemos de N observaciones (tamaño muestral) de N variables de Bernoulli independientes (v.a. respuesta Y), a cada una de las cuales corresponde una determinada combinación de niveles (x0,x1,…xR) de las R variables explicativas X1,…,XR.

Notación:
  • xq=(xq0,xq1,…,xqR)’  (q=1,…,Q) la q-ésima ciombinación de valores de las R variables explicativas en la muestra.
  • nq es el número de observaciones muestrales (con X=xq), con sum(nq)=N.
  • yq es el número de respuestas Y=1, e Yq es el número de respuestas Y=1 en cada xq.
  • Q es la muestra de v.a. independientes Yq con distribuciones B(nq,pq), donde pq=P[Y=1|X=xq] y E[Yq]=nq*pq.
Tenemos dos casos:
         i.  Q=N: cada individuo muestral tiene una combinación diferente de niveles de las R variables explicativas (1 observacxión de la v.a. respuesta Y en cada combinación).
       ii.    Q1 observación de la v.a. respuesta Y en cada combinación).

Entonces la fórmula del modelo es:
pq= sum(beta_r*xqr)) / (1+e(sum(beta_r*xqr)))
o de modo equivalente: Lq=ln[pq/(1-pq)] = sum(beta_R*xqr)
(en forma matricial: L=X*beta)


III.            Estimación por máxima verosimilitud
Los estimadores de máxima verosimilitud (MV) son los valores de los parámetros que dan máxima probabilidad (verosimilitud) a los datos observados. Para hallarlos hay que maximizar la función de verosimilitud de los datos respecto de los parámetros del modelo logit:
         i.            Estimación MV iterativa con Newton-Raphson
        ii.            Estimación por mínimos cuadrados ponderados
       iii.            Propiedades de los estimadores MV

 IV.            Inferencia en regresión logística: para extrapolar los resultados muestrales a la población
        a.       Contrastes de bondad de ajuste
            b.      Contrastes sobre los parámetros del modelo
            c.       Intervalos de confianza
  
V.            Validación
            a.       Residuos
            b.      Medidas de influencia
            c.       Métodos gráficos

VI.            Selección del modelo más apropiado

Comentarios