1 / 54

Introducción a la estadística Algunas definiciones de estadística

Introducción a la estadística Algunas definiciones de estadística. Ciencia de tomar decisiones en presencia de la incertidumbre. Freund, J. E. – Eallis y Roberts

Download Presentation

Introducción a la estadística Algunas definiciones de estadística

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Introducción a la estadísticaAlgunas definiciones de estadística • Ciencia de tomar decisiones en presencia de la incertidumbre. Freund, J. E. – Eallis y Roberts • § Rama del conocimiento científico que se ocupa del análisis numérico e interpretación de los resultados que provienen de experimentos de naturaleza aleatoria. Capelletti, C. A. • § Disciplina que investiga la posibilidad de extraer de los datos inferencias válidas, elaborando los métodos mediante los cuales pueden obtenerse dichas inferencias. Cramer, H. • § Ciencia de tomar decisiones en base a observaciones. Sprowls, C. • § Operación de análisis matemático que permite estudiar con el máximo de precisión los fenómenos no conocidos completamente. Mothes, J. • § Disciplina que trata los problemas relativos a las características operatorias de las reglas de comportamiento inductivo, basadas en experimentos aleatorios. Neyman, J.

  2. Introducción a la estadística • Estadística descriptiva. • Estadística inferencial. • Relación entre variables, de acuerdo a los distintos niveles de medición. • Técnicas de análisis de asociación entre variables de distintos niveles de medición. • Lógica de los test de hipótesis.

  3. Sistema de Información Estadística • Un Sistema de Información Estadística • “Conjunto de reglas, principios, métodos y actividades ordenadamente relacionados entre sí, que permiten observar y evaluar mediante mediciones periódicas o permanentes y desde un punto de vista cuantitativo, recursos, actividades, resultados y acciones realizadas dentro de un sector, una entidad o de un conjunto de sectores o de entidades ”.

  4. Estadística • Describir nuestro conjunto de datos: Características, valores atípicos, dispersión, tendencias para datos temporales. • Descubrir patrones de comportamiento en los datos o ciertas relaciones entre las variables medidas. • Intentar extrapolar la información contenida en la muestra a un conjunto mayor de datos. • Inferir futuros comportamientos de la población estudiada (predicción)

  5. Estadística: clasificaciones • Estadística descriptiva • Estadística inferencial • Estadística exploratoria • Estadística multivariada • Estadística no paramétrica

  6. Niveles de medición • Nominal: El valor de la variable indica solo la clase de pertenencia • Ordinal: Las clases de pertenencia pueden ser ordenadas. • Intervalo: El valor de la variable tiene un sentido y en general podremos (en al mayoría de los casos) calcular promedios, medidas de dispersión y aplicar test. Pero no siempre podremos establecer razones ente dos valores de la variable. • Razón: Existe un cero absoluto, podemos efectuar cocientes de los valores de la variable.

  7. Resumen de información • Estadísticos de posición o locación: ¿Donde esta ubicado nuestro conjunto de datos? • Modo • Mediana • Media • Estadísticos de dispersión • Rango • Coeficiente de variación

  8. Distribución de frecuencias

  9. Variables cuantitativas: medidas de posición • Modo. • Mediana y percentiles • Media: promedio de la variable • El uso de estos estadisticos depende de los objetivos del analista o de las características de la población que se desea estudiar.

  10. Histograma

  11. Gráfico de dispersión

  12. Pirámides de población

  13. Variables simétricas

  14. Variables Asimétricas

  15. Medidas de asimetría • La medida más usual de asimetría: “skewness” • Cuando se tiene variables asimétricas con valores positivos (ingreso por ejemplo), es usual tomar logaritmo para simetrizarlas.

  16. Box-Plot

  17. Box-Plot:Horas trabajadas según sexo – Encuesta Permanente de Hogares

  18. Ingreso ocupacion principal EPH 1998 GBA

  19. Ingreso ocupación principal EPH 1998 GBA Sin cero

  20. Relación entre dos variables nominales Tablas de contingenciaCondicion de actividad por sexo – Fuente: EPH - INDEC

  21. Relación entre dos variables nominales: Tablas de contingencia • Hipótesis nula: no existe asociación estadistica entre las dos variables, la distribución de los efectivos es proporcional a los “marginales”: totales fila y columna. • Hipotesis alternativa: existe asociación estadística entre las variables

  22. Tablas de contingenciaTest de Chi – Cuadrado • Chi-cuadrado: Compara los efectivos teóricos (bajo el supuesto de independencia) con los observados. • Efectivos teóricos en la celda (i,j):

  23. Chi-cuadrado • Si los observados son iguales a los teóricos, el coeficiente vale cero. • El coeficiente aumenta al aumentar la discrepancia entre el observado y el teórico, respecto al valor teórico. • Pero este coeficiente depende de n: Aumenta con el número de observaciones.

  24. Chi-cuadrado normalizado - PHI • Se cumple que <=min(J-1, I-1)

  25. V de Cramer • Donde m = min(L-1, K-1) • Se cumple que 0<=V<=1

  26. Ejercicio practico 1:Calcular el chi-cuadrado en la siguiente tabla

  27. Ejercicio practico 2:Calcular el chi-cuadrado y el V de Cramer en la siguiente tabla

  28. Asociación entre variables ordinales y cuantitativas: Coeficientes de correlación • Estos coeficientes reflejan en general el hecho de que una de las variables aumenta de valor cuando la otra lo hace. • Los más utilizados: • Coeficiente de correlación de Pearson (Karl Pearson, 1857-1936) • Coeficiente de correlación de Spearman (Charles Spearman, (1863-1945)

  29. Coeficiente de correlación de Pearson entre dos variables X e Y ρ = Cov(X, Y)/DS(X)*DS(Y) • Variables continuas (de razón). • Mide la existencia de una relación lineal entre las variables. • -1 <= ρ <= 1 • ρ =0 : ausencia de relación lineal • ρ =1: relación lineal creciente • ρ =-1: relación lineal decreciente • Sensible a valores extremos o atípicos

  30. Coeficiente de correlación de Pearson: significado • El ρ de Pearson indica la existencia de una relación lineal entre X e Y. • Identifica relaciones positivas y negativas. El coeficiente 0 indica ausencia de relacion estadística • Puede haber una relación creciente, pero no lineal.

  31. Ejercicio practico 3:Coeficiente de correlación de Pearson • Hallar el ρ de Pearson para la siguiente serie de valores. Graficarla con Excel. XY 1 1 2 4 3 9 4 16

  32. Coeficiente de correlación de Spearman entre dos variables X e Y rs = ρ(rang(X), rang(Y)) • Variables ordinales. • Mide la existencia de una relación creciente o decreciente entre las variables. • -1 <= ρ <= 1 • ρ =0 : ausencia de relación creciente o decreciente • ρ =1: relación creciente • ρ =-1: relación decreciente • Robusto a valores extremos o atípicos

  33. Coeficiente de correlación de Spearman entre dos variables X e Y • En caso de rangos “empatados”, tomamos el promedio de los rangos.

  34. Ejercicio práctico 4: Asociación entre dos variable ordinales y cuantitativas • Dada el siguiente par de valores de dos variables, comprobar que el coeficiente de correlación de Spearman es el coeficiente de correlación de Pearson de los rangos .

  35. Recta de regresión • Supongamos tener n obervaciones bivariadas, o sea a cada elemento le medimos un par de variables (Xi, Yi) que supondremos continuas por ahora. • Peso y estatura. • Producto Bruto Per capita y Tasa de mortalidad infantil. • Tasa de desempleo y ingreso medio de los asalariados • Cigarrillos fumados por día y probabilidad de sufrir cáncer de pulmón.

  36. Recta de regresión: Ejemplo • En el siguiente gráfico se muestran los 8511 radios censales del Gran Buenos Aires. A cada radio se le midieron dos variables: % de hogares con celular y % de hogares con freezer, según datos del CENSO 2001. • Los datos se graficaron mediante un gráfico X-Y. • El eje de las X (horizontal) indica al % de hogares con freezer, el eje de las Y (vertical) el % de hogares con celular. • Vemos que hay una relación aproximadamente lineal entre ambas variables, por lo menos en la parte central del gráfico.

  37. Nube de puntos y recta de regresión

  38. Modelo de regresión • La relación puede ser lineal solo en una parte del recorrido de las variables. • Variable X: variable “independiente” o explicativa. • Variable Y: variable “dependiente” o explicada. • El modelo de regresión no implica “causalidad” (ej. Educación e Ingreso). • El modelo de regresión puede tener más de una variable: explicativa: modelo de regresión múltiple.

  39. Modelo de regresión: Forma general • El modelo subyacente en la regresión lineal (simple o múltiple) es que la variable dependientes una función lineal de las variables independientes: • Y= 1+b1·X1+b2·X2+…bk·Xk + e. • e es una variable aleatoria, pues no es razonable suponer una relación lineal exacta entre Y y X1,…, Xk • Pero en promedio podemos suponer que e será igual a cero. • e se denomina el término de errror. Es igual a la diferencia entre el valor observado y la recta de regresión.

  40. Ajuste del modelo de regresión • Por ajuste del modelo de regresión se interpreta cuan bien la “nube de puntos” está cerca de la recta de regresión. • El modelo de regresión tiene una medida de la “bondad de ajsute”: el R2. Este valor está entre 0 y 1. • 1 -> Ajuste perfecto • 0 -> No hay efecto de las variables independientes y la variable dependiente. • No todos los modelos en estadística poseen una medida objetiva del “ajuste” de los datos al modelo.

  41. Ajuste del modelo de regresión • Supongamos el modelo de regresión simple • Y = a + b * X + e • El “parámetro“ b indica cuánto aumenta Y por un aumento unitario de X. • Si X no tiene efecto sobre Y, b valdrá 0.... • a es la ordenada al origen.

  42. Ajuste del modelo de regresión • Los paquetes estadísticos o Excel nos proveen estadísticos para evaluar el ajuste del modelo (R2). • Y para evaluar si b es “significativamente distinto de cero” o no..... Si es “significativamente distinto de cero”, la variable independiente X tiene un efecto sobre Y.

  43. Ajuste del modelo de regresión • En general, si el tamaño de muestra es muy grande, los parámetros pueden ser “significativamente distintos de cero” a menudo. • Esto no significa que sean relevantes para el investigador.

  44. Recta de regresión: Cálculo de los parámetros • Para el ejemplo anterior son los 8511 radios censales, se plantea el modelo que explica a la variable CEL (% de celulares). • Cel = a + b*Freezer + e • Con el paquete Stata se calcularon los parámetros a y b. La salida es la siguiente:

  45. Modelo de regresión: Salida I regress Cel Freez Number of obs = 8511 F( 1, 8509) =23555.43 Prob > F = 0.0000 R-squared = 0.7346 Adj R-squared = 0.7346 ----------------------------------------------------------------------- Cel | Coef. Std. Err. t P>|t| [95% Conf. Interval] ------+---------------------------------------------------------------- Freez | .993698 .0064745 153.48 0.000 .9810063 1.00639 _cons | -33.26479 .3813768 -87.22 0.000 -34.01238 -32.5172 ----------------------------------------------------------------------- O sea la recta de regresión es Cel = -33.3 + 0.994*Frezzer

  46. Modelo de regresión: Salida II Number of obs = 426 F( 7, 418) = 125.51 Prob > F = 0.0000 R-squared = 0.6776 ----------------------------------------------------------- t_desoc | Coef. Std. Er. t P>|t| [95% Conf.Int] ---------+------------------------------------------------- t_activ | .308 .0803029 3.84 0.000 .15 .46 j_sipip | .693 .0564412 12.29 0.000 .58 .80 j_ucp | -.231 .0649551 -3.56 0.000 -.35 -.10 Cta_prop| .219 .2550068 0.86 0.390 -.28 .72 Publico | .551 .2433731 2.27 0.024 .07 1.03 Privado | .52 .2395047 2.18 0.030 .05 .99 Patron | -.048 .2832193 -0.17 0.865 -.60 .50 _cons | -33.9 24.51396 -1.39 0.167 -82.1 14.2 -----------------------------------------------------------

  47. Ajuste del modelo de regresión • Por ajuste del modelo se interpreta cuan bien los valores observados se ajustan a nuestro modelo. • En el modelo de regresión lineal hay un estadístico, el R2 que nos indica la bondad del ajuste. R2 está comprendido entre 0 y 1. 1 indica un ajuste perfecto: todas las observaciones están sobre una recta.

  48. Prueba de los coeficientes • Otra pregunta que el investigador se plantea es si algún coeficiente es igual a cero. O si es “significativamente distinto de cero”. Esta pregunta puede ser respondida mediante el estadístico t de Student. • Cuanto más grade es t, mayor la probabilidad de que el coeficiente correspondiente sea igual a cero.

  49. Análisis de los residuos • Luego está el análisis de los residuos observados: observaciones con residuos elevados en valor absoluto pueden indicar errores de medición, puntos extremos, o un modelo especificado incorrectamente. • En general los paquetes estadísticos traen opciones para graficar los residuos y detectar aquellos con valores grandes. • Finalmente, corresponde al investigador social interpretar si el modelo es plausible, que significan los parámetros, explicar el porquébuna observación tiene un residuo excesivamente grande, mantener o eliminar una variable.

More Related