Texto universitario

_____________________________

 

Capítulo 4 


4. ¿Hecho o correlación?


Para establecer si existe una correlación, simplemente debe hacer una comparación de algún tipo. Esto significa que para evaluar la correlación entre dos variables, necesitamos tener variación en ambas variables. Con esto en mente, aún resulta comprender si existe correlación en algo complejo. 


Casi todas las relaciones cuando agregamos números específicos parecen declaraciones, que podríamos llamarlas estadísticas. Pero no todos los hechos o estadísticas describen correlaciones. La cuestión clave es que estas declaraciones no describen si dos características del mundo tienen o ocurren juntas o no, es decir, no se comparan entre diferentes valores de ambas características del mundo. Para evaluar la correlación, necesitamos variación en ambas variables. Un análisis así mostraría que declaraciones transmiten suficiente información, por sí solas, para evaluar una correlación. Pensar claramente qué tipo de información es necesaria para establecer una correlación, es lugar para los hechos, es algo complicado dado que la mente debe situarse en una racionalidad estructural en lo real.


4.1 ¿Para qué sirve una correlación?


Hemos notado que la correlación es quizá la herramienta más importante de los analistas cuantitativos. ¿Pero por qué? En términos generales, es porque las correlaciones nos dicen lo que debemos predecir sobre alguna característica del mundo dado lo que sabemos sobre otras características del mundo. Hay por lo menos tres usos para este tipo de conocimiento: 1) descripción, 2) pronóstico, 3) inferencia causal. Cada vez que hacemos uso de una correlación, queremos pensar claramente sobre cuál de estas tres tareas estamos intentando y qué tiene que ser cierto sobre el mundo para que una correlación sea útil para esa tarea en nuestro entorno particular. 


Descripción 


Describir las relaciones entre las características del mundo, es el uso más directo de las correlaciones. ¿Por qué podríamos querer describir la relación entre las características del mundo? Supongamos que estuviéramos interesados en saber si las personas más jóvenes están sobre representadas en las urnas en un lugar determinado de elección, en relación con su tamaño en la población. Una descripción de la relación entre la edad y el voto podría ser útil. Esa relación puede informar cómo piensa sobre el resultado de esa elección. Además, el conocimiento de esta correlación podría motivar a investigar más a fondo las causas y consecuencias del fenómeno en cuestión. Por supuesto, esta relación descriptiva no implica necesariamente que estas personas más jóvenes continuaran votando de esa manera. Por lo tanto, no necesariamente se puede usar este conocimiento para pronosticar la participación futura de los votantes. Y tampoco significa que esos más jóvenes serán más propensos a votar a medida que envejecen. Así que probablemente no podemos identificar esta relación casualmente.


Previsión 


Otra motivación para observar las correlaciones es el pronóstico o la predicción, dos términos que usaremos indistintamente. El pronóstico implica el uso de información de alguna muestra de población para hacer predicciones sobre una población diferente. Por ejemplo, un pronóstico preciso de las tasas de participación electoral podría mejorar la eficiencia de una campaña. Esto plantea dos preocupaciones importantes en las que debe pensar claramente para utilizar la correlación para pronosticar de manera responsable. La primera es si la relación que se encontró en su muestra es indicativa de un fenómeno más amplio o si es el resultado de una variación causal en sus datos. Responder a esta pregunta requiere inferencia estadística, un tema central. En segundo lugar, incluso si está convencido de que ha encontrado una relación real en su muestra, querrá pensar si su muestra es representativa de la población sobre la que está tratando de hacer predicciones. Esto nos exige que exploraremos la representatividad con mayor detalle al discutir las ideas de muestra y validez.


Relacionalmente, cuando usamos una estadística, como la pendiente de una línea de mejor ajuste, para hacer predicción, debemos pensar si la relación es realmente lineal. De lo contrario, un resumen lineal de la relación podría ser engañoso. Vale la pena señalar que, en implicaciones prácticas, sería inusual tratar de hacer pronósticos simplemente utilizando la correlación entre dos variables. Uno podría, en cambio, tratar de predecir la participación electoral utilizando su relación con una serie de variables como el género, la raza, los ingresos, la educación y la participación electoral del rubro anterior inmediato. Es necesario discutir las correlaciones multivariantes y condicionales. El uso de datos para pronósticos y predicciones es un área de rápido crecimiento para los analistas de política, negocios, gobiernos, inteligencia artificial y otros campos. 


Los datos no pueden hacer milagros, también vale la pena pensar las consecuencias posibles implicadas en la ética del uso de predictores para guiar el comportamiento. 


4.2 Inferencia causal 


Otra razón por la que podríamos estar interesados en las correlaciones es para aprender sobre las relaciones causales. Muchas de las preguntas más interesantes que enfrentarán los analistas cuantitativos son inherentemente causales. Es decir, se trata de cómo cambiar alguna característica del mundo causaría un cambio en alguna otra característica del mundo. El uso de las correlaciones para hacer inferencias sobre las relaciones causales es común. Pero está lleno de oportunidades este tema para aprender a pensar de manera clara.


El uso de la correlación para la inferencia causal tiene todos los problemas potenciales que acabamos de discutir al pensar en usar la correlación para la predicción y hay nuevos problemas. La clave es que la correlación no tiene por qué implicar causalidad. Es decir, una correlación entre dos características del mundo no significa que una de ellas cause la otra. Supongamos que desea saber el efecto de la capacitación matemática en la escuela secundaria en el éxito posterior en la universidad. Esta es una pregunta importante si usted es un estudiante de secundaria, un padre o consejero de un estudiante de secundaria, o un legislador que establece estándares educativos. ¿Es más probable que los estudiantes de secundaria asistan y completen la universidad si toman matemáticas avanzadas en la escuela secundaria?


Como resultado, la correlación entre tomar matemáticas avanzadas y completar la universidad es positiva y bastante fuerte; por ejemplo, las personas que toman cálculo en la escuela secundaria tienen muchas más probabilidades de graduarse de la universidad que las personas que no lo hacen. Y la correlación es aún más fuerte para álgebra, trigonometría y precálculo. Pero eso no significa que tomar cálculo haga que los estudiantes completen la universidad.


Por supuesto, una posible fuente de esta correlación es que el cálculo prepara a los estudiantes para la universidad y hace que tengan más probabilidades de graduarse. Pero esa no es la única fuente posible de esta correlación. Por ejemplo, tal vez, en promedio, los niños que toman cálculo están más motivados académicamente que los niños que no lo hacen. Y tal vez los niños motivados tienen más probabilidades de completar la universidad, independientemente de si toman o no cálculo en la escuela secundaria. Si ese es el caso, veríamos una correlación positiva entre tomar cálculo y completar la universidad, incluso si el cálculo en sí no tiene ningún efecto en la finalización de la universidad. Más bien, si un estudiante tomó cálculo sería simplemente una medida indirecta de la motivación, que se correlaciona con completar la universidad.


¿Qué está en juego aquí? Bueno, si la historia causal es correcta, entonces requerir que un estudiante tome cálculo que de otra manera no lo ayudará a ese estudiante a completar la universidad al ofrecer una mejor preparación. Pero si la historia de motivación es correcta, entonces requerir que el estudiante tome cálculo, lo ayudará a completar la universidad. En esa historia, el cálculo es solo un indicador de motivación. Requerir que un estudiante tome cálculo no hace que ese estudiante esté más motivado mágicamente. Incluso podría resultar que exigir que el estudiante tome cálculo podría imponer costos reales, en términos de autoestima, motivación o tiempo dedicado a otras actividades, sin ningún beneficio compensatorio.


El error exacto que acabamos de describir se comete en muchos artículos revisados por pares. Los investigadores comparan el rendimiento universitario de las personas que tomaron y no tomaron una variedad de cursos intensivos de matemáticas en la escuela secundaria. Usaron los resultados de este estudio para informar a los estudiantes y a sus padres y tutores sobre el importante papel que desempeñan los cursos de matemáticas en la escuela secundaria con respecto a la finalización de la universidad. Es decir, confundieron la correlación con la causalidad. Sobre la base de estas correlaciones, recomendaron que los estudiantes que de otra manera no planeaban hacerlo deberían inscribirse en cursos intensivos de matemáticas para aumentar sus posibilidades de graduarse de la universidad.


4.3 Medición de correlaciones 


Hay varias estadísticas comunes que se pueden utilizar para describir la correlación entre variables. Aquí discutimos tres de ellas: la covarianza, el coeficiente de correlación y la pendiente de línea de regresión. Pero antes de pasar por estas tres formas diferentes de medir las correlaciones, necesitamos hablar de medias, varianzas y desviaciones estándar, estadísticas que nos ayudan a resumir y comprender las variables. 


Una variable tiene una distribución, una descripción de la frecuencia con la que toma diferentes valores. A menudo queremos ser capaces de resumir la distribución de una variable con algunas estadísticas clave. Aquí hablamos de tres de ellas.

Ayudará tener un poco de notación. El símbolo Imagen (la letra griega mayúscula sigma) Denota suma. Por ejemplo, la suma de todos los valores de la variable crímenes desde el día uno hasta el día 31. Para encontrarlo, toma los valores del crimen para el día 1, el día 2, el día 3, y así sucesivamente hasta el día 31 y lo suma (adición). Es decir sumas crimen y crimen a través de la evolución de la variable. Puede encontrar estos valores específicos para la variable de delito en cada día consultando los datos de la tabla generada.



Imagen

Ahora podemos calcular la media de la distribución de cada variable. Aveces esto se llama simplemente la media de la variable, dejando implícita la referencia de la distribución. La media se denota por Imagen ( la letra griega mu). La media es solo el promedio. La encontramos sumando los valores de las observaciones (para los que ahora tenemos una notación conveniente) y dividiendo por el número de observaciones. 


Imagen

Imagen


Una segunda estadística de interés es la varianza, que denotamos por Imagen(la letras minúscula sigma, al cuadrado). Veremos por qué se cuadra en un momento. La varianza es una forma de medir qué tan lejos de la media tienden a estar los valores individuales de la variable. Incluso podría decir que la varianza es una forma de medir qué tan lejos de la media tienden a estar los valores individuales de la variable. Incluso podría decirse que la varianza mide qué tan variable es la variable. También puede pensar en ella, aproximadamente, como una medida de cuán extendida está la distribución de la variable. 



Así es como calculamos la varianza. Supongamos que tenemos alguna variable X (como crimen o temperatura). Para cada observación, calcule la desviación del valor de X de esa observación de la media de X. Entonces, para la observación i, la desviación es el valor de X para la observación i (Imagen) menos el valor de la media para X través de todas las observaciones (Imagen) es decir, 


Imagen


Tenga en cuenta que estas desviaciones pueden ser positivas o negativas, ya que las observaciones pueden ser mayores o menores que la media. Pero con el propósito de medir cuán variable son las observaciones, no importa si una desviación dada es positiva o negativa. Solo queremos saber qué tan lejos está cada observación de la media en cualquier dirección. Así que necesitamos transformar las desviaciones en números positivos que solo midan la distancia desde la media en lugar del signo y la distancia. Para ello, podríamos fijarnos en el valor absoluto de las desviaciones. Pero por razones que discutiremos más adelante, generalmente hacemos que las desviaciones sean positivas al cuadrado en su lugar. La varianza es el valor promedio de estas desviaciones al cuadrado. Entonces, si hay N observaciones en nuestros datos, la varianza es 


Imagen

Para los variables en nuestro datos son


Imagen

Imagen


Al centrarse en el promedio de las desviaciones al cuadrado en lugar de en el promedio del valor absoluto de las desviaciones, la varianza está poniendo más peso en las observaciones que están más lejos de la media. Si la persona más rica de la sociedad se hace más rica, esto aumenta la variación en la riqueza más que si una persona moderadamente rica se enriquece en la misma cantidad.


La varianza es una buena medida de cuán variable es una variable. Pero como hemos cuadrado todo, hay un sentido en el que se mide en la misma escala que la variable misma. A veces queremos una medida de variabilidad que esté en esa misma escala. Cuando ese es el caso, usamos la desviación estándar, que es solo la raíz cuadrada de la varianza. Denotamos la desviación estándar por  (la letra griega minúscula sigma): 


Imagen


La desviación estándar es una medida de cuán dispersa está la distribución de una variable, corresponde aproximadamente a qué tan lejos esperamos que estén las observaciones de la media, en promedio. Aunque, como hemos señalado, en comparación con el valor absoluto promedio de las desviaciones, pone un peso adicional en las observaciones que están más lejos de la media. Para las dos variables en nuestros datos, las desviaciones estándar son:


Imagen


Ahora que entendemos qué son una media, una varianza y una desviación estándar, podemos discutir tres formas importantes en que medimos las correlaciones: la covarianza, el coeficiente de correlación y la pendiente de la línea de regresión.


Covarianza 


Supongamos que tenemos dos variables, como el crimen y la temperatura, y queremos medir la correlación entre ellas. Una forma de hacerlo sería calcular su covarianza (denotada cov). Para mantener nuestra notación simple, llamemos a esas dos variables X y Y, supongamos que tenemos una población de tamaño N.


Así es como se calcula la covarianza. Para cada observación, calcule las desviaciones, es decir, qué tan lejos está el valor de Y de la media de Y. Ahora, para cada observación, multiplica las dos desviaciones juntas, así que tienes para cada observación i. Llame a esto el producto de las desviaciones. Finalmente para encontrar la covarianza de X e Y, calcule el valor promedio de este producto:


Imagen


Veamos que la covarianza es una medida de la correlación. Si consideramos una versión particularmente fuerte de la correlación positiva, supongamos que cuando X es mayor que el promedio (Imagen), Y también mayor que el promedio (Imagen), y siempre que X es menor que el promedio (Imagen), Y es también más pequeño que el promedio (Imagen). En este caso, el producto de las desviaciones será positivo para cada observación: ambas desviaciones serán positivas o ambas desviaciones serán negativas. 


Ahora considere, una versión particularmente fuerte de la correlación negativa: supongamos que cuando X es mayor que el promedio, Y es menor que el promedio, y siempre que X es menor que el promedio, Y es mayor que el promedio. En este caso, el producto de las desviaciones será negativo para cada observación: una desviación es siempre negativa y la otra siempre positiva. Por lo tanto, la covarianza será negativa, reflejando la correlación negativa. Por supuesto, ninguno de estos casos extremos tiene que sostenerse. Pero si una X mayor que el promedio generalmente va con una Y mayor que el promedio, entonces la covarianza será positiva, lo que refleja una correlación positiva. Si una X mayor al promedio generalmente va con una Y menor que el promedio, entonces la covarianza será negativa, lo que refleja una correlación negativa. Y si los valores de X e Y no están relacionados entre sí, la covarianza será cero, lo que refleja el hecho de que las variables no están correlacionadas.


Correlación coeficiente


Si bien el significado del signo de la covarianza es claro, su magnitud puede ser un poco difícil de interpretar, ya que el producto de las desviaciones depende de cuán variables sean las variables. Podemos obtener una estadística más fácilmente interpretable que aún mide la correlación al tener en cuenta la varianza de las variables. El coeficiente de correlación (denotado corr) es simplemente la covarianza dividida por el producto de las desviaciones estándar:


Imagen


Cuando dividimos la covarianza por el producto de las desviación estándar, estamos normalizando las cosas. Es decir, la covarianza podría, en principio, tomar cualquier valor. Pero el coeficiente de correlación siempre toma un valor entre -1 y 1. Un valor de 0 todavía indica que no hay correlación. Un valor de 1 indica una correlación positiva y una dependencia lineal perfecta, es decir, si se ha realizado un diagrama de dispersión de las dos variables, podría dibujar una línea recta con pendiente ascendente a través de todos los puntos. Un valor de -1 indica una correlación negativa y una dependencia lineal perfecta. Un valor entre 0 y 1 indica una correlación positiva entre -1 y, 0 indica una correlación negativa pero no una relación lineal perfecta. 


El coeficiente de correlación a veces se denota con las letra r. Y también a veces elevamos al cuadrado el coeficiente de correlación para calcular una estadística llamada r-cuadrado. Esta estadística siempre se encuentra entre 0 y 1. 

Una característica potencialmente atractiva de Imagenestadística es que puede interpretarse como una proporción. A menudo se interpreta como la proporción de la variación en Y explicada por X o, equivalentemente, la proporción de X explicada por Y. La palabra explicada puede ser engañosa aquí. No significa la variación en Y o viceversa. Tampoco tiene en cuenta la posibilidad de que esta correlación observada haya surgido por casualidad en lugar de reflejar un fenómeno genuino en el mundo.  


Pendiente de la línea de regresión 

Una preocupación potencial con el coeficiente de correlación y la Imagen estadística es que le dice nada sobre la importancia sustantiva o el tamaño de la relación entre X y Y. Supongamos que nuestras dos variables de interés son el crimen y la temperatura en Morelia. Un coeficiente de correlación de 0.8 nos dice que existe una relación fuerte y positiva entre las dos variables, pero no dice cuál es esa relación. Podría ser que cada grado de temperatura se corresponda con 100 crímenes adicionales. Ambos son posibles con un coeficiente de correlación 0.8. Pero significan cosas muy diferentes. 


Por esta razón, no pasamos mucho tiempo pensando en estas formas de medir la correlación. Por lo general, nos centramos en la pendiente de una línea de mejor ajuste. Además, tendemos a centrarnos en una forma particular de definir qué línea se ajusta mejor. Recuerde, una línea de mejor ajuste minimiza qué tan lejos están los puntos de datos de la línea en promedio. Por lo general, medimos qué tan lejos está un punto de la línea con el cuadrado de la distancia desde los datos apuntan a la línea (por lo que cada valor es positivo, al igual que con las desviaciones de cuadratura). Nos centramos en la línea de mejor ajuste que minimiza la suma de estas distancias al cuadrado (o la suma de errores al cuadrado). Esta línea particular de mejor ajuste se llama linea de regresión de mínimos cuadrados ordinarios (OLS) y, por lo general, cuando alguien solo dice línea de regresión, se refiere a la línea de regresión OLS. Resulta que la pendiente de la línea de regresión se puede calcular a partir de la covarianza y la varianza. La pendiente de la línea de regresión también a veces llamada coeficiente de regresión, cuando Y está en el eje vertical y X está en el eje horizontal es:


Imagen