740 likes | 1.01k Views
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia. Clase 2: MÉTODOS DE INVESTIGACIÓN BASADOS EN EL ANÁLISIS DE VARIABLES. ESTADÍSTICA DESCRIPTIVA. Medición de variables.
E N D
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia Clase 2: MÉTODOS DE INVESTIGACIÓN BASADOS EN EL ANÁLISIS DE VARIABLES. ESTADÍSTICA DESCRIPTIVA
Medición de variables • Variable: cualidad o característica de un objeto (o evento) que contenga, al menos, dos atributos en los que pueda clasificarse un objeto o evento • Medición de una variable: asignar valores o categorías a las distintas características que conforman el objeto de estudio • Requisitos básicos: • Exhaustividad: debe comprender el mayor número de atributos posible. Toda observación debe ser clasificada • Exclusividad: los distintos atributos de la variable deben ser mutuamente excluyentes. Una observación solo puede clasificarse en términos de un solo atributo • Precisión: realizar el mayor número de distinciones posibles. Las categorías pueden agruparse más tarde, el camino inverso no es posible...
Tipología según el nivel de medición • Variables Nominales: • Ejemplos: sexo, nacionalidad, estado ocupacional, grupo sanguíneo, partido político, estado civil, religión, plan social al que pertenece, localidad donde reside, etc. • No se puede establecer ningún tipo de relación • Análisis estadístico limitado
Tipología según el nivel de medición • Variables Ordinales: • Ejemplos: estrato social, orden de mérito, nivel educativo, opinión acerca de un hecho/situación/gobierno • Los atributos, además de poseer las características mencionadas, tienen la propiedad de poder establecer un orden • No puede conocerse la magnitud de la diferencia entre un atributo y otro • Son variables no métricas o cualitativas • Análisis estadístico limitado
Tipología según el nivel de medición • Variables Cuantitativas o métricas: • Variables de intervalo: • Además de establecer un orden, la diferencia entre dos atributos puede cuantificarse • La distancia que separa a personas de 15 y 16 años, es la misma que la existente entre personas de 72 y 73 años • Permite realizar la mayoría de las operaciones aritméticas • Ejemplos: temperatura en ºC • No tiene cero absoluto. El cero no implica la ausencia de atributo
Tipología según el nivel de medición • Variables Cuantitativas o métricas: • Variables de razón: • Además de las características de las variables de intervalo, se suma la posibilidad de contar con un cero absoluto • El cero absoluto indica ausencia de la característica • Permite cálculo de proporciones • Permite realizar cualquier operación aritmética • Ejemplos: ingreso, altura, peso, número de habitantes, todas las variables que consideren tiempo y distancia
Tipología según el nivel de medición • Variables Cuantitativas o métricas: • Variables discretas: • Entre dos valores dados, no existen valores intermedios • Ejemplos: número de hijos, número de elementos vendidos, número de beneficiarios de un plan • Variables continuas: • Entre dos valores dados, existen valores intermedios • Ejemplos: edad, peso, altura, ingreso
La organización de los datos • Distribución de frecuencias • Distribución porcentual • Distribución acumulada • Proporciones • Razones • Representaciones gráficas
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA • Cúantos jóvenes de 15 a 29 años del total del país están en hogares en situación de pobreza? • Indicador: hogares por debajo de la línea de Pobreza • Fuente: EPH • Variable : lphogD85 (hogar bajo la línea de pobreza) • Valores : 1 SI (hogar pobre) 2 NO (hogar no pobre)
Tabla de distribución de frecuencias • Resume en una tabla la información de la muestra N número de casos suma de las respectivas frecuencias de cada dato (N=ΣXi). frecuencia total
Tabla de distribución de frecuencias Variable Valores / Categorías frecuencias absolutas :(fi.)representan el número de veces que aparece cada valor de la variable
Tabla de distribución de frecuencias frecuencias relativas: (fr) Representan la relación entre la frecuencia absoluta y el tamaño de la muestra. (porcentajes y proporciones)
Tabla de distribución de frecuencias frecuencia relativa acumulada: relación entre la frecuencia absoluta acumulada dividido por el tamaño de la muestra (N).
Otras medidas resumen Razones: es el cociente entre la frecuencia absoluta de un valor y la frecuencia absoluta del otro fi Valor 2 16133702 fi Valor 1 7389959 Proporciones: es el cociente entre la frecuencia absoluta del valor y el N fi Valor (1) 7389959 N 23523661 La proporción de jóvenes póbres es de 0,31 2,18 Hay 1 jóven pobre por cada 2 jóvenes no pobres
GRÁFICOS ESTADÍSTICOS Diagrama de barras:Se utilizan rectángulos separados, que tienen como base a cada uno de los datos y como altura la frecuencia absoluta o relativa de ese dato. fi fr
GRÁFICOS ESTADÍSTICOS Gráfica de Torta:Se forma al dividir un círculo en sectores de manera que: a) cada sector equivale al porcentaje correspondiente al dato o grupo que representa; y b) la unión de los sectores forma el círculo y la suma de sus porcentajes es 100.
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA INFORMACIÓN RESUMEN DE VARIABLES ALEATORIAS Formas más compactas para caracterizar las distribuciones • TENDENCIA CENTRAL • HETEROGENEIDAD O DESVÍO • FORMA DE LA DISTRIBUCIÓN
Medidas de tendencia central • Refiere a los valores de las variables que suelen estar en el centro de la distribución. • Posición donde se centra una distribución en una escala de valores • Moda • Mediana • Media
Medidas de tendencia central Variable nominal Moda Valor que presenta la mayor concentración de frecuencia TEMPORARY . SELECT IF (h12>25 AND h12<45) . FREQUENCIES VARIABLES=cdea /STATISTICS=MODE /BARCHART FREQ /ORDER ANALYSIS .
Medidas de tendencia central Mediana • Es el punto o valor numérico que deja por debajo (y por encima) a la mitad de las puntuaciones de la de la distribución • La mediana se calcula en primer lugar ordenando los datos y luego: • - Si el número de datos es impar, la mediana es el dato central • - Si el número de datos es par, la mediana se considera como el promedio de los dos datos centrales
Medidas de tendencia central Mediana
Medidas de tendencia central Mediana VARIABLE CUANTITATIVA
Medidas de tendencia central Media La MEDIA ARITMÉTICA O PROMEDIO es una medida estadística de tendencia central. De una cantidad finita de números, es igual a la suma de todos ellos dividida entre el número de sumandos. También la media aritmética puede ser denominada como centro de gravedad de una distribución, el cual no es necesariamente la mitad.
Propiedades de la media • La media es sensible al valor exacto de todos los datos en la distribución • La suma de las desviaciones con respecto a la media es cero • La media es muy sensible a los datos extremos NOTA: Dado que cualquier valor extremo distorsiona la media aritmética, no es una buena medida de tendencia central en esas circunstancias. Por ello en presencia de valores extremos, es mas apropiado usar la mediana como medida de tendencia central. La mediana no se afecta con la presencia de valores extremos.
Medidas de posición no centrales Percentiles/cuartiles/deciles/n tiles
Medidas de posición no centrales Percentiles/cuartiles/deciles/n tiles Percentil 1 1° Cuartil 3° Cuartil Percentil 99 1° decil Decil 10 Percentil 50 2° Cuartil 5° decil
Medidas de Dispersión • Las distribuciones del ingreso de dos provincias con el mismo ingreso medio por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación de ingresos entre familias. • Estamos interesados en la dispersión o variabilidad de los ingresos, además de estarlo en sus centros. Distribución con baja dispersión Distribución con alta dispersión
Medidas de Dispersión • Los datos también se deben caracterizar en términos de su dispersión o variabilidad. • Las medidas de variabilidad cuantifican la extensión de la dispersión • La variabilidad tiene que ver con qué tan alejados están los datos de la media.
Medidas de dispersión / desviación respecto a la media • Miden el grado de cercanía o lejanía de las puntuaciones respecto a la media • Permiten describir el grado de homogeneidad / heterogeneidad de la distribución de una variable • Máximo y Mínimo • Rango • Amplitud Intercuartílica • Varianza • Desvío típico • Coeficiente de variabilidad
Medidas de dispersión / desviación respecto a la media Mínimo Máximo rango o recorrido y amplitud intercuartílica Mínimo rango o recorrido Distancia entre el máximo valor y el mínimo valor que puede asumir la variable Amplitud intercuartílica Distancia entre el valor del primer cuartil y el valor del tercero Máximo Máximo - Mínimo 2240 - 20 = 2220 3°cuartil - 1°cuartil 800 - 300 = 500
Medidas de dispersión / desviación respecto a la media Varianza y desvío típico La desviación estándar (o desviación típica) y la varianza sonmedidas de dispersión para variables de razón y de intervalo. Son medidas que informan acerca del promedio de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades de medida que la variable de origen. Ambas medidas están estrechamente relacionadas ya que se define una a partir de la otra. (Xi – u)2 N: 54
Medidas de dispersión / desviación respecto a la media Varianza y desvío típico Expresión de la varianza: Expresión de la desviación estándar: (Xi – u)2 (Xi – u)2 X (Xi – u)2 (Xi – u)2 (Xi – u)2 N: 54
Medidas de dispersión / desviación respecto a la media En dos poblaciones con distinta media qué grupo presenta mayor heterogeneidad ???????
Medidas de dispersión / desviación respecto a la media Coeficiente de variabilidad • Es de particular utilidad comparar la variabilidad de 2 o mas conjuntos de datos con medias diferentes. • El coeficiente de variabilidad es una medida relativa que se expresa en porcentaje en vez de en términos de las unidades de los datos. • Es una forma de estandarizar el desvío • Indica la relación entre el desvío y la media
Medidas de dispersión / desviación respecto a la media Coeficiente de variabilidad El coeficiente de variación mide la dispersión con relación a la media y se calcula dividiendo la desviación estándar por la media, multiplicando este resultado por 100. Si se multiplica por 100 se obtiene el grado de variabilidad respecto de la media S X 4,3 / 21,9= 0,19 Existe una variabillidad de + - 19% respecto de la media
Medidas de dispersión / desviación respecto a la media CV= S/X 1,05 V= 723 / 688,9 1,08 M= 477,6 / 441,7
La Forma de la distribución • Una tercera característica de un conjunto de datos es la forma, es decir, la manera en que están distribuidas las observaciones. • La distribución de los datos puede ser o no simétrica. Si la distribución de los datos no es simétrica, se llama asimétrica o sesgada. • Para describir la forma se puede comparar la media y la mediana. • También puede observarse a través del coeficiente de asimetría Mide el grado de Simetría / Asimetría de la distribución
Media Mdn La Forma de la distribución . Si es + indicará muchos casos en los valores más bajos y pocos en los más altos positivamente asimétrica . Media > Mediana: Positivos o con sesgamiento a la derecha
Mdn Media La Forma de la distribución Si es - indicará muchos casos en los valores más altos y pocos en los más bajos negativamente asimétrica. Media < Mediana: Negativos o con sesgaminto a la izquierda.
Mdn = Media La Forma de la distribución En la distribución Normal es 0 Simétrica Media = Mediana: Simétricos o con sesgamiento cero.
La Forma de la distribución Otra manera de apreciar la forma de una distribución es observar el nivel de apilamiento o llanura de la curva leptocúrtica (menor dispersión) Platicúrtica (mayor dispersión) mesocúrtica . El coeficiente de kurtosismide el grado de apuntamiento de la curva
La Forma de la distribución El coeficiente de kurtosis Mide el grado de apuntamiento de la curva En la distribución Normal es 0 mesocúrtica Si es + indicará un grado de apilamiento mayor que en la normal leptocúrtica (menor dispersión) Si es – indicará que es más aplanada que la normal platicúrtica (mayor dispersión)
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA UN TIPO PARTICULAR DE DISTRIBUCIÓN PARA VARIABLES ALEATORIAS MÉTRICAS LA CURVA NORMAL SUS PROPIEDADES
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL Es un tipo particular de distribución de frecuencias. En los casos en que los valores que asume una variable depende de múltiples factores sin que ninguno de ellos sesgue la distribución, es de esperar que los valores se distribuyan homogéneamente alrededor de la media la mediana y la moda. Estas variables aleatorias presentan una distribución que es aproximadamente simétrica y cuya gráfica tiene forma de campana (mesocúrtica). Esta distribución es utilizada en aplicaciones estadísticas como modelo o parámetro de comparación dada la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse a esta distribución.
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL La distribución normal queda definida por dos parámetros: LA MEDIA Y EL DESVIACIÓN ESTÁNDAR
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL El área total bajo la curva es igual a 100 % o 1. El área bajo la curva comprendido entre los valores situados a una desviaciones estándar de la media es aproximadamente igual al 68%. El área bajo la curva comprendido entre los valores situados a dos desviaciones estándar de la media es aproximadamente igual al 95%. σ =1 σ= -1 σ =2 σ =-2 σ = -3 2,14 2,14 σ =3
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL Se puede determinar el área entre dos ordenadas cuales quiera a través del calculo de las unidades de desviación en que se encuentra una porción de la población y su correspondencia en la tabla de áreas bajo la curva normal σ= -1 σ =1 σ =2 σ =-2 σ = -3 Puntuaciones Z σ =3 Refiere al número de unidades de desviación típica que un individuo o caso queda por encima o por debajo de la media de su grupo Z = X – X S 2,14