1 / 53

Estadística Descriptiva para variables continuas

Estadística Descriptiva para variables continuas. Tópicos a tratar…. Repaso clase anterior Identificación de v ariables continuas Medidas de tendencia central y dispersión Presentaciones gráficas Estimación puntual e intervalos de confianza Manejo de valores fuera de rango.

Download Presentation

Estadística Descriptiva para variables continuas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Estadística Descriptiva para variables continuas

  2. Tópicos a tratar… • Repaso clase anterior • Identificación de variables continuas • Medidas de tendencia central y dispersión • Presentaciones gráficas • Estimación puntual e intervalos de confianza • Manejo de valores fuera de rango

  3. Que buscamos?Obtener un ‘sabor’ de los datos continuos… Estimar algunos parametros de la poblacion, en forma puntual y por intervalos ‘Aprender’ de los datos continuos a través de una visualización gráfica Examinar la calidad de los datos

  4. Clasificación general: Categórica Cuantitativa o numérica Nominal Ordinal Discreta Continua

  5. Ejemplos: • Nominales: Sexo, estado civil, presencia de morbilidad, resultado del tratamiento • Ordinales: Severidad de morbilidad, riesgo quirúrgico, resistencia a antibioticos • Discretas: Cociente intelectual, tiempo de tratamiento u hospitalización • Contínuas: concentración de alcohol en la sangre

  6. Comandos usados en STATA para identificar el tipo de variable: • codebook • tabulate

  7. ATENCION ! • STATA puede identificar un tipo de variable de manera erronea ! • Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.

  8. Recordemos las características de una variable continua con distribución normal… Figure 10.10 6

  9. Distribución de frecuencias Una lista exhaustiva y mutuamente excluyente de categorias (cualitativas o cuantitativas) con una tabulación (en valores absolutos o porcentajes) de cuántas observaciones en los datos se encuentran en cada categoría.

  10. De ‘variables continuas’ a ‘variables categóricas’ MIRKO, usa tabulate con generate aqui para representar esto Ojo que se les ha indicado que esto se usa mas para covariables que para sus outcomes

  11. Representación gráfica de una tabulación bivariada

  12. Comando “histogram”

  13. Estadísticas de resumen: El conjunto de agregados numéricos de una distribución de frecuencias las que resumen una característica específica de un conjunto de datos.

  14. Medidas de tendencia central: • Promedio o media aritmética. Mas sensible a valores extremos • Mediana o percentil 50: Valor que divide una distribución ordenada por la mitad • Moda: Valor mas frecuente. Es mas usada para variables categóricas

  15. Medidas de dispersión: • Rango • Intervalo intercuartil (diferencia entre los percentiles 25 y 75) • Desviación estándar: en que monto promedio se desvían los valores observados de la media • Varianza: media de las desviaciones (DE) elevada al cuadrado (?)

  16. Comandos usados en STATA para obtener estadísticas de resumen • codebook (variables numéricas) • tabulate

  17. Estimación puntual e intervalos de confianza • Los parámetros de una población tienen un valor fijo, (es un número exacto) • Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’ • Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población. • La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’

  18. Efectos del ‘muestreo’ en la estimación de un parámetro

  19. Es mejor estimar el intervalo de confianza de un parámetro antes que su estimación puntual… • El intervalo de confianza es una ‘variable aleatoria’ • El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado

  20. Intervalos de confianza de variables normales Std.Err. = Std.Dev / sqrt(N)

  21. Ci varlist, level( )

  22. Exploración gráfica • Una manera ‘visual’ y muy intuitiva de tener una imagen clara de los datos. • Método muy usado para presentar resultados. • Un solo gráfico puede contener una densidad muy alta de información • Sujeta a interpretaciones subjetivas y problemas de ilusión

  23. Desviaciones Estandar para Ninos y Adultos en Equipos de Basketball Figure 10.8 66

  24. Representación gráfica de una tabulación bivariada

  25. Comparando Desviaciones Estandard DataA Mean = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21 Data B Mean = 15.5 s =.9258 11 12 13 14 15 16 17 18 19 20 21 DataC Mean = 15.5 s =4.57 11 12 13 14 15 16 17 18 19 20 21

  26. Dos bases de datos hipotéticas… Es importante tener una imagen visual de la distribución de la variable Datos de baja variabilidad La media provee una buena representación de los valores en la base de datos. Al incrementar datos la distribución cambia.. Datos con alta variabilidad La media ya NO provee ahora una buena información de los datos como sucedía anterioremente

  27. Perfil de la distribución • Describe cómo los Datos están Distribuídos • Caracterización del perfil de la distribución: Simétrica o sesgada

  28. Perfil de la distribución • Describe cómo los Datos están Distribuídos • Caracterización del perfil de la distribución: Simétrica o sesgada Simétrica Media = Mediana = Moda

  29. Perfil de la distribución • Describe cómo los Datos están Distribuídos • Caracterización del perfil de la distribución: Simétrica o sesgada Sesgada izquierda Simétrica Mean Median Mode Mean = Median = Mode

  30. Perfil de la distribución • Describe cómo los Datos están Distribuídos • Caracterización del perfil de la distribución: Simétrica o sesgada Sesgada derecha Sesgada izquierda Simétrica Media Mediana Moda Media = Mediana = Moda Moda Mediana Media

  31. El comando ‘histogram’ en STATA

  32. Histogram inf_edad, bin(12) kdensity

  33. Box Plot (Gráfico de cajas) • Se muestra gráficamente los datos utilizando 5 números (estadísticas de resumen) X Q Mediana Q X Mínimo 1 3 Máximo 12 4 6 8 10

  34. Relación entre el perfil de la distribución y el Box Plot Sesgada izquierda Simétrica Sesgada derecha Q Mediana Q Q Mediana Q Q Mediana Q 1 3 1 3 3 1

  35. El comando ‘Graph’ en STATA

  36. graph box inf_edad

  37. Box plot

  38. Los gráficos ‘box-plot’ permiten realizar comparaciones

  39. Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA

  40. Scatter-plots y Ejemplos de Relaciones No-lineales

  41. Ejemplos en Stata!

  42. Ganancias 25% Ganancias 25% Ganancias 25% Representación gráfica y problemas éticos Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis. . That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front … Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.

  43. Representación gráfica y potenciales abusos Labor Costs Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders. Administrative Costs Administrative Costs No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down. Labor Costs

  44. Representación gráfica y potenciales abusos 100 Now, if you could only show this declining sales picture as going up, all my problems would be solved. 75 50 25 0 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92 100 Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up. 75 50 25 0 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92

  45. Manejo de datos fuera de rango (outliers) • Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos. • Razones para darse: • 1. Errores de medición • 2. Resultados atípicos • La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas. • PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’

More Related