Revista Electrónica de Metodología Aplicada
2004, Vol. 9 nº 2, pp 1 - 14.



2.- Método.

Consideremos el modelo de regresión lineal, donde y es un vector de observaciones en una variable dependiente o criterio, X es una matriz de observaciones de variables independientes (VI), B es el vector de coeficientes de regresión y es un vector de términos de error, que se distribuyen normalmente, con esperanza de cero, varianza común ( ) y covarianza nula; . La estimación mínimo cuadrática del vector de coeficientes se obtiene mediante y el vector de residuales se corresponderá con e = y - Xb.

En este contexto se define el coeficiente de determinación R2 , como , función de la matriz X de VI, y de los vectores b y e. Se interpreta como la proporción de varianza explicada por el modelo respecto a la varianza total. Como índice de bondad de ajuste exige un valor alto como criterio o argumento para mantener el modelo evaluado como plausible.

La aplicación del procedimiento bootstrap particularizado para el caso de la regresión (Wu, 1986; Stine, 1989) se esquematiza en el gráfico siguiente:


GRAFICO 1. Esquema del procedimiento para la obtención del estimador bootstrap y su error estándar.

En el primer paso, se estima el ajuste mínimo cuadrático para la muestra original, y se crea la muestra bootstrap añadiendo al ajuste anterior los residuales remuestreados. En el segundo paso, se obtienen las estimaciones mínimo cuadráticas y sus correspondientes residuales a partir de la muestra bootstrap.. Con estos valores se calculan los valores bootstrap de R2. Se repiten los pasos 1 y 2 , en nuestro caso un número de veces igual a 2000.

Se utilizan dos procedimientos para la estimación de los intervalos de confianza; el método percentil (Efron, 1979) y el método corregido para el sesgo y acelerado (Bca) (Efron 1987). El primero asigna como extremos inferior y superior del intervalo de confianza (1-), los percentiles /2 y 1-/2 de la distribución bootstrap del estimador. El segundo compensa las limitaciones del método percentil ante la ausencia de simetría en la distribución del estimador, y en aquellas situaciones en que la forma de la distribución cambia dependiendo de los valores del parámetro. Los límites del intervalo de confianza según el método BCa se obtienen al igual que en el método percentil a partir de los cuantiles de la distribución bootstrap, pero dependerán además de una constante de aceleración a y de la corrección para el sesgo.1

Las propiedades asintóticas de los intervalos bootstrap han sido bien establecidas (Hall, 1988, 1992; DiCiccio y Efron, 1996 ); En este aspecto el método BCa es superior al método percentil (precisión de segundo orden) (Hall, 1988) cuando el tamaño de la muestra es elevado; Sin embargo en muestras pequeñas la evaluación de la superioridad relativa de unos métodos sobre otros es más compleja, dependiendo del estadístico evaluado y de las características de la población muestreada, de ahí el interés en comparar el comportamiento de los dos procedimientos en las diferentes condiciones que planteamos en nuestra simulación.

2.1 Simulación Montecarlo.

Para estudiar el comportamiento de las estimaciones bootstrap, sus errores estándares y los dos diferentes intervalos de confianza, diseñamos un estudio Montecarlo en el que las muestras aleatorias se generan bajo condiciones poblacionales conocidas y controladas y a partir de distribuciones normales multivariadas.

Se manipularon tres factores con tres niveles cada uno. El tamaño muestral, n (50, 100 y 200), el valor del coeficiente de determinación poblacional, (0.90, 0.60, 0.30) y el número de variables independientes (3, 5, 8). Tenemos así un total de 27 condiciones y un número de réplicas por condición igual a 1000. Los promedios de los resultados en esas mil iteraciones (las estimaciones bootstrap, errores estándar e intervalos de confianza bootstrap) constituirán las estimaciones empíricas2.

Para realizar las simulaciones se creó un programa en lenguaje R (Ihaka y Gentleman, 1996), versión 1.6.2 utilizando la biblioteca boot que recoge los métodos presentados en el texto de Davison y Hinckley (1997) así como la función de generación de números aleatorios normales implementada en R.


1Para una descripción detallada del intervalo Bca Se puede consultar Davison y Hinckley (1997)

2Advirtamos en este punto del alto coste computacional de las simulaciones que involucran a su vez remuestreo. En nuestro caso cada una de las 27 condiciones implica un total de 1000 simulaciones y cada una de ellas implica 2000 remuestras, lo que supone un total de 54 millones de regresiones. A título orientativo señalemos que en un Pentium III a 800 Mhz, la media por condición fue de aproximadamente 6 horas. 


ATRAS     ADELANTE
INICIO