900 likes | 2.3k Views
DISTRIBUCIONES BIDIMENSIONALES. Estadística. www.cursoshomologados.com. ¿ Qué es una distribución bidimensional?. Es un conjunto de pares de valores (x i ,y i ) donde cada uno de los valores representa una magnitud.
E N D
DISTRIBUCIONES BIDIMENSIONALES Estadística www.cursoshomologados.com
¿Qué es una distribución bidimensional? • Es un conjunto de pares de valores (xi ,yi) donde cada uno de los valores representa una magnitud. En la siguiente tabla se observa las características de peso y altura de 14 soldados.
¿Cuál es el objetivo? • Conocer si las magnitudes están relacionadas y si lo están de que manera. • Poder prever de manera aproximada el valor de una magnitud conociendo la otra
¿ Cómo se nos presenta? • 1. En tablas simples
2. En tablas de doble entrada En el ejemplo se ve una tabla donde Y es el numero de hijos y X el numero de hermanos de un individuo
Para saber la distribución de las variables x e y por separado no hay más que sumar filas y columnas • Así se obtienen las DISTRIBUCIONES MARGINALES
Parámetros de las distribuciones marginales • Ahora que conocemos como calcular las marginales , hay que obtener sus parámetros estadísticos, la media , la desviación típica y la covarianza
La media • La media se calcula XM = Sumamos todos los datos y los dividimos por el numero total de datos, al punto (XM,YM) se le llama centro de gravedad ∑xi/N
La desviación típica • Se calcula Sx2=√ ∑xi2/N - xm2
La covarianza Sxy = ∑xiyi /N – XmYm
¿Qué relación hay entre las variables? • En un estudio de dos variables nos puede interesar saber que relación existe entre las dos variables, por ejemplo, horas de estudio y número de suspensos ó infracción y renta per cápita de un país etc.. Esto se conseguirá mediante el COEFICIENTE DE CORRELACION DE PEARSON: r= Sxy/ Sx*Sy
El coeficiente de correlación r está entre -1 y 1. • Si su valor absoluto es cercano a 1 , se dice que existe una CORRELACIÓN FUERTE entre las variables. Si es próximo a 0 se dice que la correlación es débil • Si r es positivo quiere decir que cuando una magnitud también lo hace. Si es negativo, mientras una crece la otra disminuye y viceversa Karl Pearson
Ejemplo ¿Qué relación existe entre las notas conseguidas en física (variable x) y las horas que ven la televisión los alumnos de 4ºESO (variable y)? Sx = 1.23 Sy = 3 Sxy= - 3.19
Calculamos el coeficiente de correlación r= - 3.19/1.23*3=- 0.864 Como el valor absoluto de r es próximo a r se dice que las variables tienen una correlación fuerte. Además r es negativo por tanto tienen correlación negativa. Es decir a más horas de televisión menos nota en la asignatura de física
¿Podemos predecir resultados? Como hemos visto antes los datos pueden venir dados en una nube de puntos. El objetivo es encontrar una recta que aproximo de la mejor manera los puntos de la distribución
Sabemos que para calcular una recta basta con saber un punto y la pendiente de la misma. • El punto que es más próximo a todos los datos de la distribución es (Xm,Ym), por tanto ya tenemos un punto de la recta buscada. • Ahora bien, las pendientes dependerán de si queremos predecir un dato de la variable x e y.
Rectas de regresión • Recta de regresión de Y sobre X Y= Ym + Sxy/Sx2 * (X-Xm) • Recta de regresión de X sobre Y X= Xm + Sxy/Sy2 * (Y-Ym)
Es decir, si conozco solamente una magnitud y deseo saber la otra de manera aproximada no tengo más que construir su recta de regresión, sustituir su valor en la recta de regresión y obtener así el valor aproximado. Hay que tener en cuenta que cuanto mayor sea el coeficiente de correlación mas fiable será nuestra predicción
Ejemplo En la siguiente tabla se muestra el índice de mortalidad y el porcentaje de personas mayores de 64 años de algunos países europeos
Ahora calculamos la media y desviación típica de las marginales, y la covarianza:
0,63829958 • Y el coeficiente de correlación es r = Es decir, un coeficiente de correlación medio, con lo que podemos concluir que la correlación entre índice de mayores de 65 años y mortalidad no es muy alta
Y las rectas de regresión que son: Y= 1.34/1.46(x- 9.59)+13.22 X= 1.71/1.46(y-13.22)+9.59
Si deseáramos conocer el porcentaje de mayores suponiendo que hay un país con un índice de mortalidad del 6%, hay que sustituir en la recta de regresión de y el valor 6, obteniendo 9.95% de mayores. Aunque no presenta mucha fiabilidad por no tener un buen coeficiente de correlación de Pearson
Cuidado al seleccionar variable • La estadística bidimensional es un arma eficaz si se utiliza correctamente, un coeficiente r alto no quiere decir que necesariamente las variables tengan relación ya que puede ser debido al azar. El matemático debe seleccionar unas variables lógicas. Por ejemplo si seleccionamos dos variables como, consumo de pollo en EEUU y grado de delincuencia en Chile, podemos obtener por azar un coeficiente alto pero la razón nos dice que nada tienen que ver