240 likes | 665 Views
ESTADÍSTICA DESCRIPTIVA EN GEOGRAFÍA. REPASO BLOQUE I: TEMAS 1-4. ¿Qué hemos visto?. Tipos de variables Niveles de medición de las variables Tabulación y representación gráfica de las variables Estadísticos/ Parámetros: Medidas de centralización: Media, mediana y moda
E N D
ESTADÍSTICA DESCRIPTIVA EN GEOGRAFÍA REPASO BLOQUE I: TEMAS 1-4
¿Qué hemos visto? • Tipos de variables • Niveles de medición de las variables • Tabulación y representación gráfica de las variables • Estadísticos/ Parámetros: • Medidas de centralización: Media, mediana y moda • Diferenciar sus propiedades. • Posición (cuantiles, percentiles,...) • Medidas de dispersión • con unidades: rango, rango intercuartílico, varianza, desv. Típica… • sin unidades: coeficiente de variación intercuartílica, coeficiente variación Pearson
TIPOS DE VARIABLES CUALITATIVAS Se refieren a los aspectos no medibles o cualidades de los individuos (estado civil, lugar de nacimiento...). Las variables cualitativas toman valores que no pueden ser ordenados ni operados conforme a las reglas aritméticas; a estos valores se les suele denominar modalidades CUANTITATIVAS Miden alguna cualidad o atributo "cuantificable" de los individuos. (Valor numérico) DISCRETAS CONTINUAS Las variables discretas, al ser numerables, pueden tomar una serie de valores determinados, pero no los valores intermedios (Ej, número de años de escolarización, número de hijos por familia…). Las variables continuas, aquellas medibles que pueden tomar infinitos valores dentro de un campo de variación (peso, altura, temperatura…)
NIVELES DE MEDICIÓNDE LAS VARIABLES Ej: lugar de nacimiento Ej: nivel de instrucción Ej: Temperatura, presión Ej: renta per cápita, peso
TABULACIÓN Y REPRESENTACIÓN GRÁFICA DE LAS VARIABLES La correcta realización de un gráfico necesita que se incluya en el mismo: - la fuente origen de los datos que permita consultas directas a la información, - las unidades de medida de los datos (porcentajes, números absolutos...), - el año o periodo de referencia de la información - el ámbito de referencia de la información (región, país...). - y un título en el que se indique claramente la variable a que corresponde la información
TIPOS DE GRÁFICOS CICLOGRAMA DIAGRAMA RECTANGULAR DIAGRAMA DE BARRAS HISTOGRAMA
Parámetros y estadísticos • Parámetro: Es un valor calculado sobre una población • La altura media de los individuos de un país • La idea es resumir toda la información que hay en la población en unos pocos números (parámetros). • Estadístico: Ídem (cambiar población por muestra) • La altura media de los que estamos en este aula. • Somos una muestra (¿representativa?) de la población.
Un brevísimo resumen sobre estadísticos • Centralización • Indican valores con respecto a los que los datos parecen agruparse. • Media, mediana y moda • Posición • Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. • Cuartiles, quintiles, deciles y percentiles. • Dispersión • Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. • Desviación típica, coeficiente de variación, rango, varianza, …
MEDIA • Se define como la suma de todos los valores numéricos (que adopta la variable estudiada) divididos por el número total de valores observados • Media de 2,2,3,7 es (2+2+3+7)/4=3,5 • -Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. • -Muy sensible a valores extremos. En estos casos es más conveniente calcular la mediana • -En distribuciones a partir de intervalos de clase no se puede estimar si existen intervalos abiertos • a)Media aritrmética: • Datos sin agrupar Datos agrupados • X= ∑x X= ∑fx • N N • b)Media Ponderada: • Xw= ∑ wx • ∑ w
Mediana: de un conjunto de valores ordenados en magnitud es el valor central o la media de los dos valores centrales.Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos . • Mediana de nº observaciones impar: N/2 + 0,5: • Ejemplo: 1,2,4,5,6,6,8 • nº observaciones, 7; (7/2)+0,5=4 ; hay que buscar el valor que ocupa la posición 4ª: 1,2,4,5,6,6,8 ;luego la mediana es 5 • Mediana de nº observaciones par es el valor medio de los valores que ocupan las posiciones N/2 y N/2 +1 • Ejemplo: 1,2,4,5,6,6,8,9 • Nº observaciones par, 8; hay que buscar los valores que ocupan las posiciones 8/2 y (8/2)+1, es decir, las posiciones 4 y 5; los valores que ocupan las posiciones 4 y 5 son el 5 y el 6; la ,mediana es la media de esos dos valores • 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 Altura mediana
MEDIANA • - No es sensible a valores extremos. • Es conveniente cuando los datos son asimétricos. • EJEMPLO • -Mediana de 3,5,6,8,9,11es 7 • -Mediana de 3,5,6,8,9,29es 7
La moda: se define como el valor que tiene una mayor frecuencia en un conjunto de datos (es decir, aquel que más se repite). Para datos agrupados en intervalos Mo= Li + c. D1 D1+D2 D1: fi-fi-1 D2: fi- fi+1 Intervalo modal
Estadísticos de posición • Cuartiles: Dividen a la muestra en 4 grupos homogéneos. • Primer cuartil = Percentil 25 = Cuantil 0,25 • Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana • Tercer cuartil = Percentil 75 = cuantil 0,75 • Quintiles: 4 valores que dividen a una muestra en 5 grupos homogéneos • Quintil 2= Decil 2= Percentil 20 • Deciles: 9 valores que dividen a una muestra en 10 grupos homogéneos • Decil 5= mediana= cuartil segundo= percentil 50 • Percentil de orden k = cuantil de orden k/100 • Percentil 50= mediana= cuartil segundo= decil quinto, • El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%
Medidas de dispersión Las medidas de dispersión indican el grado de representatividad de las medidas de tendencia central. Miden el grado de dispersión/ concentración de los datos en torno a las medidas de tendencia central Existen dos tipos de medidas de dispersión: ABSOLUTAS Y RELATIVAS
Dispersión absoluta: mediana • Amplitud o Rango: Diferencia entre observaciones extremas. • 1, 2,3,4,4,8. El rango es 8-1=7 • Es muy sensible a los valores extremos. • Rango entre percentiles (‘interquartile range’): • Es la distancia entre percentil 90 y percentil 10. • Rango entre percentiles = P90 – P10 • Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. • No es tan sensible a valores extremos • Rango intercuartílico: • Es la distancia entre primer y tercer cuartil. • Rango intercuartílico = Q3 - Q1 • Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores. • Es el menos sensible a valores extremos.
Dispersión absoluta: media • Desviación media: • Mide el promedio de las desviaciones (absolutas) de las observaciones con respecto a la media. • Es la menos sensible a valores extremos (alejados de la media). • Viene expresada en las mismas unidades de la variable. • Varianza S2 : • Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. • Es sensible a valores extremos (alejados de la media). • Sus unidades son el cuadrado de las de la variable. De interpretación difícil para un principiante. • Desviación típicaEs la raíz cuadrada de la varianza • Tiene las misma dimensionalidad (unidades) que la variable. Es sensible a valores extremos (alejados de la media).
Dispersión relativa: mediana • Es la razón entre el rango intercuartílico y la mediana. • Mide el rango intercuartílico en forma de“qué tamaño tiene con respecto a la mediana” • Es frecuente mostrarla en porcentajes • Si la mediana es 80 y el rango intercuartílico es de 5 entonces Vq=5/80*100=6,25% • Es una cantidad adimensional (independiente de las unidades de medida). Interesante para comparar la variabilidad de diferentes variables. • Si el peso tiene Vq=6,25% y la edad tiene Vq=10%, los individuos presentan más dispersión en edad que en peso.
Dispersión relativa: media Coeficiente de variación de PEARSON Es la razón entre la desviación típica y la media. • Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media” • También se la denomina variabilidad relativa. • Es frecuente mostrarla en porcentajes • Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa) • Es una cantidad adimensional (independiente de las unidades de medida). Interesante para comparar la variabilidad de diferentes variables. • Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan más dispersión en peso que en altura. • No debe usarse cuando para variables cuyo nivel de medición es por intervalos, es decir,la variable cuenta con un valor 0 fijado arbitrariamente. • Por ejemplo 0ºC ≠ 0ºF • Si la variable presenta valores negativos, al calcular el coeficiente de variación de pearson los habrá que considerar como positivos
VARIABLES NORMALIZADAS O UNIDADES TIPIFICADAS VARIABLES NORMALIZADAS O UNIDADES TIPIFICADAS Normal.............. |z| < 1 Anormal............ 1 < |z| < 2 Muy anormal...... |z| >=2 Variables normalizadas: número de unidades de desviación típica que un individuo queda por encima o por debajo de la media del grupo. Son unidades independientes de las unidades originales de medida con lo cual facilitan enormemente la comparación. Útil para comparar un individuo respecto a los datos poblacionales a los que pertenece. Las unidades Z se calculan: Z= x - S