Teoría para el análisis básico de datos
•La covarianza de una variable bidimensional es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.
•La covarianza se representa por sxy o σxy.
•La covarianza indica el sentido de la correlación entre las variables.
•Si σxy > 0 la correlación es directa.
•Si σxy < 0 la correlación es inversa.
•La covarianza presenta como inconveniente, el hecho de que su valor depende de la unidad de medición de las variables.
•Es decir, la covarianza variará si expresamos las variables en múltiplos o submúltiplos de la misma.
Correlación
•La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional.
•Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que esto suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.
Tipos de correlación
•La correlación directa se da cuando a medida que aumenta una de las variables la otra también aumenta.
La recta correspondiente a la nube de puntos de la distribución es una recta creciente.
Correlación inversa
•La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.
•La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.
Correlación nula
•La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.
•En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.
Grado de correlación
•La correlación será fuerte cuanto más cerca estén los puntos de la recta.
•Correlación débil
La correlación será débil cuanto más separados estén los puntos de la recta.
Coeficiente de correlación
•El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables.
•El coeficiente de correlación lineal se expresa mediante la letra r
Propiedades del coeficiente de correlación
•1. El coeficiente de correlación no varía al hacerlo la escala de medición.
•2. El signo del coeficiente de correlación es el mismo que el de la covarianza.
•Si la covarianza es positiva, la correlación es directa.
•Si la covarianza es negativa, la correlación es inversa.
•Si la covarianza es nula, no existe correlación.
•3. El coeficiente de correlación lineal es un número real comprendido entre −1 y 1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.
Recta de regresión
La recta de regresión de Y sobre X se utiliza para estimar los valores de la variable Y a partir de los que toma la variable X.
La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X.
•La recta de regresión de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y.
•La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y.
•Si la correlación es nula, r = 0, las rectas de regresión son perpendiculares entre sí, y sus ecuaciones son:
•Y = media de x
•X = media de y