martes, 26 de junio de 2012

Tecnicas de análisis (I): la regresión simple.



Hola a todos. Se que hace mucho tiempo que no escribo, pero dado que he estado de examenes (y sigo de examenes) se me ha hecho difícil pasarme por estos lares para escribir de nuevo. Por ello, ahora que tengo un rato libre he decidido escribir una entrada sobre unos de los temas que mas me gustan: la econometría. Esta disciplina de la rama de las matemáticas es de muy frecuente uso entre los economistas, ya que las propiedades y conclusiones de los modelos que en ella se usan son de gran utilidad e interés. Hoy hablaremos de la técnica de regresión simple que se basa en la siguiente ecuación: 

Recta de regresión simple. Modelo Simple.

¿Qué es cada parámetro de la recta de regresión? "y" es la variable dependiente que es resultado de la combinación lineal (en parámetros beta) que expresa, por decirlo así, el resultado que sale de sustituir x por un valor determinado. "x" es la variable independiente que proviene de unos datos, unas observaciones, que para los ejemplos vamos a usar los de sección cruzada (son observaciones en un mometo determinado del tiempo que se pueden considerar independientes e idénticamente distribuidas). Los betas son los parámetos del modelo: en primer lugar esta el "Beta-subcero" (abstengámonos de hacer chistes con lo de subcero [risas]) que es el término constante del modelo y en segundo lugar esta el "Beta-subuno" que es el parámetro de pendiente del modelo. Decimos que este último beta es el reflejo de la variación en y de una variación (haremos uso de variaciones marginales iguales a uno) en x. Debemos añadir que los betas son términos desconocidos que varían segun cambia la muestra y que gracias a las observaciones podemos (lo veremos mas adelante) dar valores a los betas. Y por último esta el término "u", término de error, o perturbación aleatoria, que recoje todos los factores que afectan a y que no vienen expresados en x o en otra variable independiente (el modelo puede tener tantas x como queramos, pero entonces hablamos de model de regresión múltiple). Este término de error nos permite recoger en él todo lo que fecta a y que para los economistas y estadísticos no es observable. Claro que a efectos prácticos cuando demos valores a la x y mediente los betas obtengamos valores estimados para y el término de error no va a pintar nada en nuestro análisis por lo que diremos que E(u)=0, es decir que en nuestro modelo lo único que afectará a y será x. Esto es un supuesto que simplifica mucho el análisis de regresión. Veamos un ejemplo:

Modelo poblacional simple de estimación.
En este ejemplo tenemos que la variable dependiente (exam) son los resultados obtenidos enun determinado examen en una escala sobre 10 puntos, y la variable intependiente (hstudy) son las horas de estudio que un alumno de la muestra ha utilizado. Tenemos pues que beta-subuno nos indica que variacion hay sobre la nota estimada de un alumno a partir de un aumento de una hora de estudio más manteniendo los otros factores fijos. Nótese que es un análisis de variación en el margen (sobre una unidad de variación). Por último, el término "u" recoge todos los factores que afectan a las notas de un exmane pero que no vienen reflejados por las horas de estudio como el cansacio del alumno, su capacidad de concentración, su grado de razonamiento, o la dificultad del examen.

Hagamos un matiz sobre el término de error que ya hemos mencionado antes. Nuestro modelo propuesto, el que sea, va a depender de la capacidad que tienen los parámetros beta del modelo de explicar las variaciones de y. Claro que en nuestro caso, en el modelo simple, dependerá de cuan de bien mide beta-subuno la variación en x sobre y. Bajo el supuesto que hemos explicado antes, si E(u)=0 también se cumple que E(u|x)=0. Por tanto, el modelo poblacional simple que hemos explicado es una función lineal de x, tal que si calculamos el valor esperado condicionado a x, tenemos:


Y si aplicamos el supuesto por el que E(y|x) = 0, tenemos:


Por lo que confirmamos dos cosas que ya hemos mencionado: primero que beta-subuno mide la variación de y dado un aumento de una unidad en x. Y segundo, que beta-subcero es la media de las y cuando x es cero.

Vamos a pasar ahora ha hablar de los parámetros beta del modelo. Dado que aquí nuestro interés es obtener resultados y conclusiones a partir de estamaciones vamos a suprimir las demostraciones que permiten obtener las fórmulas de los estamadores, que son:

Para beta-subcero estimado:


Y para beta-subuno estimado:
Distinguimos con un gorro (^) cuando realizamos trabajo sobre las observaciones directamente, donde las i indican la observación, por ejemplo: i=1 es la observación uno que tiene unos datos para x y para y determinados. Las x-barra y las y-barra son las medias aritméticas observacionales de x y de y.

Veamos ahora una aplicación práctica de estos betas. Siguiendo el ejemplo anterior confeccionaremos unos datos ficticios y haremos una estimación. He aquí los datos:




Estamos utilizando el paquete estadístico Gretl para realizar esta estimación. Como podemos ver, cada observación (1, 2, 3,... hasta 10) tiene una nota (exam) asociada a una cantidad de horas de estudio (hstudy). Si con estos datos realizamos la estimación es decir, cogemos los datos y lo sustituimos en las formulas de los betas, y componemos la función de regresión simple, tenemos:


De esta información que nos genera Gretl nos interesan los "Coeficientes". Podemos componer nuestra recta de regresión así:

 

Lo que esta recta nos dice puede entenderse si analizamos sus componentes por partes.  En primer lugas, la contante (beta-subcero = 1,85236) nos dice que si un alumno no ha estudiado (hstudy = 0) su nota estimada en el examen es de 1,85 puntos. Puede darse el caso en el que suponer que la variable independiente sea cero no tiene mucho sentido, pero en este caso sí. Por otro lado el término de pendiente del modelo (beta-subuno = +0,4521) nos dice que si un alumno estudia una hora más su nota estimada en el examen aumenta en un promedio de 0,4521 puntos. Algo que también es de nuestro interés es el R-cuadrado. En este caso es 0,8768, lo que nos indica que el 87,68% de la variabilidad de las notas en un examen viene dada por la variabilidad de las horas de estudio. Es un R-cuadrado muy grande, lo cual no es muy habitual en ciencias sociales, pero tampoco hay que darle mucha importancia a este dato, puesto que hay otros que si que son mas importantes. Si este indicador no es igual a 1 (o a 100) es porque hay cosas que afectan a las notas que no vienen recogidas por las horas de estudio, y que como antes explicamos estan metidas en el término de error (u) pero que por no se observables nose pueden estimar.

Por tanto, las rectas de regresión son una técnica que nos permite hacer estimaciones con datos. Claro que la recta de regresión simple se convierte en poco operativa si tenemos en cuanta la complejidad de un análisis de interés como pueda ser la estimación de una tasa de crecimiento del PIB. Para ello se usan otras como la recta de regresión múltiple, pero es algo de lo que hablaremos mas adelante.

Aitor Serrano Ferrandiz.
Universidad de Alicante. Junio de 2012.

No hay comentarios:

Publicar un comentario