1 / 76

Análisis de Datos

Análisis de Datos. Universidad Torcuato Di Tella 2002. Fuentes de Datos. Tipos de Datos. Definiciones. Una variable categórica indica a qué grupo o a qué categoría pertenece una observación. Todo lo que podemos hacer es calcular la proporci ón de datos que entra en cada categoría.

Download Presentation

Análisis de Datos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis de Datos Universidad Torcuato Di Tella 2002

  2. Fuentes de Datos

  3. Tipos de Datos

  4. Definiciones • Una variable categórica indica a qué grupo o a qué categoría pertenece una observación. Todo lo que podemos hacer es calcular la proporción de datos que entra en cada categoría. • Una variable cuantitativa toma valores numéricos sobre los cuales podemos realizar operaciones aritméticas. Las variables cuantitativas pueden ser discretas o contínuas.

  5. Ejemplos Datos cuantitativos Datos categóricos PersonaCasado/no casado 1 si 2 no 3 no . . . . Edad - ingreso 55 75000 42 68000 . . . . Profesor Rango 1 Visitante 2 Full Time 3 Asistente . . . . Aumento de peso +10 +5 . .

  6. 0 1 2 3 ... Variables discretas y continuas Una variable es discreta si toma solo un número contable de valores. Una variable es contínua si la misma toma un número incontable de valores. Variable discreta Variable continua 0 1/16 1/4 1/2 1 Por lo tanto, el número de valores es contable Por lo tanto, el número de valores es incontable

  7. Estadística Descriptiva • Abarca la agrupación, resúmen y presentación de los datos para permitir su interpretación y poder tomar decisiones basadas en dicha interpretación. • La estadística descriptiva utiliza • Técnicas gráficas • Medidas de descripción numéricas

  8. Variables Categóricas • Estas son algunas de las representaciones más utilizadas para variables categóricas. Pie chart Gráfico de barras

  9. Variables cuantitativas • Las variables cuantitativas contínuas toman un número considerable de valores. • Su representación gráfica resulta más clara si se agrupan los valores próximos de la variable. • El gráfico más común de la distribución de una variable cuantitativa contínua es un histograma.

  10. Histograma: distribución del salario horario en el Gran Buenos Aires (1995)

  11. Aspecto general de una distribución • Para describir el aspecto general de una distribución: • Debemos: • Proporcionar su centro y su dispersión. • Evaluar si la distribución tiene una forma simple que pueda describirse de forma sencilla.

  12. Medidas de Posición Central: • Usualmente, nuestra atención se centra en dos aspectos de las medidas de posición central: • Medición del punto central (promedio) • Medición de la dispersión en torno al promedio

  13. Suma de las observaciones Número de observaciones Media = Medidas de Posición Central: la media • Es la medida mas popular. • Es decir, tenemos una muestra de n observaciones: x1, x2,…,xn. Su media muestral es: • De forma compacta:

  14. Medidas de Posición Central: la media • Ejemplo: La media de la muestra de seis observaciones: 7, 3, 9, -2, 4, 6 esta dada por: 6 7 3 9 4 4.5

  15. Cuando muchas observaciones toman el mismo valor, estas se pueden resumir en una tabla de frecuencias. Supongamos que el número de Hijos en una muestra de 16 empleados fuera el siguiente: NUMERO DE HIJOS 0 1 2 3 NUMERO DE EMPLEADOS 3 4 7 2 16 empleados Medidas de Posición Central: la media • Ejemplo:

  16. La mediana • La mediana (M) es el “valor central” de un histograma. • Para hallar la mediana de una distribución debemos: 1.Ordenar las observaciones en orden ascendente. 2.Si el número de observaciones nes impar, M es la observación central de la lista ordenada. M se halla contando (n+1)/2 observaciones desde el comienzo de la lista. 3.Si el número de observaciones nes par, M es la media de las dos observaciones centrales de la lista ordenada.

  17. Los salarios de siete empleados fueron los siguientes (en 1000s) : 28, 60, 26, 32, 30, 26, 29. ¿Cuál es la mediana? Supongamos que se agrega al grupo el Salario de un empleado más ($31,000). ¿Cuál es la mediana? La mediana • Ejemplo: Nro. de observaciones es impar Nro. de observaciones es par Primero, ordenar los salarios. Luego, localizar el valor en el medio. Primero, ordenar los salarios. Luego, localizar el valor en el medio. Hay dos valores en el medio! 26,26,28,29,30,32,60 26,26,28,29, 30,31, 32,60 29.5, 26,26,28,29, 30,31,32,60

  18. El modo El modo es el valor que ocurre con mayor frecuencia en un grupo de observaciones. Cuando la muestra es grande, los datos se agrupan en intervalos y obtenemos el Intervalo modal El modo En un conjunto de observaciones puede haber más de un modo.

  19. El modo Ejemplo El gerente de una tienda de ropa posee la siguiente información sobre el talle de los pantalones que se vendieron ayer: 31, 34, 36, 33, 28, 34, 30, 34, 32, 40. El modo es 34 En muchos casos, el modo nos da información mas valiosa que la mediana: 33.2.

  20. Media y Mediana • La media es sensible a observaciones extremas y a outliers. • La mediana solo es sensible a cambios en su entorno que la cruzan. Por ello, se dice que la mediana es un estimador robusto de la tendencia central. • La media y la mediana de una distribución simétrica se encuentran muy cerca. Si la distribución es exactamente simétrica, la media y la mediana coinciden. • Si la distribución es asimétrica, la media queda desplazada hacia la cola más larga del histograma de la distribución.

  21. Distribuciones simétricas y asimétricas • Una distribución es simétrica si el lado derecho e izquierdo del histograma con respecto a la mediana son aproximadamente iguales. • Un distribución es asimétrica hacia la derecha si el lado derecho del histograma se extiende sobre un mayor número de valores (intervalos) que el lado izquierdo. • Una distribución es asimétrica hacia la izquierda si el lado izquierdo del histograma se extiende sobre un mayor número de valores (intervalos) que el lado derecho.

  22. Asimetría hacia la izquierda Asimetría hacia la derecha Asimetria

  23. Aspecto general de una distribución • La figura muestra la distribución de ventas de libros por individuo en la feria del libro. Esta distribución es asimétrica hacia la derecha. Es decir hay muchas ventas de 3 o 4 libros y pocas ventas de 10 libros.

  24. Aspecto general de una distribución • La figura muestra la distribución de ventas de libros por individuo en la feria del libro. Esta distribución es asimétrica hacia la derecha. Es decir hay muchas ventas de 3 o 4 libros y pocas ventas de 10 libros.

  25. Distribuciones representadas con números • ¿Qué edad tenían los presidentes de US al inicio de su mandato? La edad media es de aproximadamente 55 años. • Una breve descripción de la distribución: • Su forma es aproximadamente simétrica. • El centro de la distribución es aproximadamente 55 años. • Dispersión: Rango de variación, de 42 a 69 años. • La forma, el centro y la dispersión proporcionan una buena descripción del aspecto general de cualquier distribución de una variable cuantitativa.

  26. Media, Mediana y Modo • Si una distribución es simétrica, la media, mediana y modo coinciden • Si una distribución no es simétrica, las tres medidas difieren. Asimetría hacia la izquierda (asimetría negativa) Asimetría hacia la derecha (asimetría positiva) Media Media Modo Modo Mediana Mediana

  27. Medidas de dispersión • Caracterizar una distribución solamente a través de una medida central no es apropiado. • Las distribuciones del ingreso de dos provincias con el mismo ingreso medio por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación de ingresos entre familias. • Estamos interesados en la dispersión o variabilidad de los ingresos, además de estarlo en sus centros.

  28. Medidas de dispersión Ejemplo de dos conjuntos de datos con igual media Datos con baja dispersión Datos con alta dispersión

  29. Medidas de dispersión • Rango Una manera de medir la dispersión es calcular el recorrido de la distribución empírica, es decir, la diferencia entre las observaciones máxima y mínima. Su mayor ventaja es que se puede calcular facilmente, sin embargo, no brinda información sobre la dispersión existente entre ambos valores extremos.

  30. Medidas de dispersión • El rango depende sólo de las observaciones máxima y mínima, que podrían ser observaciones atípicas. • Podríamos mejorar nuestra descripción de la dispersión fijándonos, por ejemplo, también en la dispersión del 50%de los valores centrales de nuestros datos. • Un conjunto de estadísticos de utilidad son los cuartiles de una distribución.

  31. Cuartiles Para calcular los cuartiles de una distribución debemos: 1.Ordenar las observaciones en orden creciente y localizar la mediana. 2. El primer cuartil Q1 es la mediana de las observaciones situadas a la izquierda de la mediana de la distribución. 3.El tercer cuartil Q3 es la mediana de las observaciones situadas a la derecha de la mediana de la distribución.

  32. Cuartiles • Los cuartiles son medidas de tendencia no central de una distribución. • Dividen los datos ordenados en 4 cuartos iguales: • El segundo cuartil de una distribución es su mediana. Q1 Q2 Q3

  33. Percentiles • Los percentiles son otro conjunto de medidas de tendencia no central de una distribución. • Dividen los datos ordenados en 100 partes iguales. • El percentil 25 es el primer cuartil ... • Ejemplo • Supongamos que el 78% de los resultados del GMAT es menor o igual a 600 puntos. Entonces, 600 es el percentil 78 de la distribución. 78% de todos los resultados 22% 200 600 800

  34. Percentiles • Percentiles frecuentemente utilizados • Primer decil = percentil 10 • Primer cuartil, Q1, = percentil 25 • Segundo cuartil,Q2, = percentil 50 • Tercer cuartil, Q3, = percentil 75 • Noveno decil = percentil 90 Ejemplo Encontrar los cuartiles del siguiente conjunto de datos: 7, 8, 12, 17, 29, 18, 4, 27, 30, 2, 4, 10, 21, 5, 8

  35. 15 observaciones Percentiles • Solución • Primero, ordenar las observaciones 2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, 27, 29, 30 Primer cuartil Como máximo, (.25)(15) = 3.75 observaciones deberían aparecer por debajo del primer cuartil. Como máximo, (.75)(15)=11.25 observaciones deberían aparecer por encima del primer cuartil. Si el numero de observaciones es par, los resultados se encuentran entre dos observaciones. En ese caso, hay que elegir el punto medio entre ambas observaciones.

  36. Diagrama de caja • Los cinco números resúmen de una distribución son representados gráficamente por un diagrama de caja. • L - Observación máxima • Q3 - Tercer cuartil • Q2 - Mediana • Q1 - Primer cuartil • S - Observación mínima

  37. Diagrama de caja • Los lados inferior y superior de la caja van del primer al tercer cuartil. Por tanto, la altura de la caja es la amplitud del 50% de los datos centrales. • El segmento del interior de la caja indica la mediana. Los extremos de los segmentos perpendiculares a los lados superior e inferior indican, respectivamente, los valores máximo y mínimo de la distribución. S Q1 Q2 Q3 L

  38. Diagrama de caja

  39. Una medida de dispersión: La varianza • La varianzas2de un conjunto de observaciones es el promedio de los cuadrados de la desviaciones de las observaciones respecto a su media. Formalmente: • De forma compacta:

  40. La varianza 9 –10 = -1 11 –10 = +1 Considere dos poblaciones: Población A: 8, 9, 10, 11, 12 Población B: 4, 7, 10, 13, 16 8 –10 = -2 12 – 10 = +2 Suma = 0 Comencemos calculando la suma de las desviaciones En ambos casos, la suma de las desviaciones es Cero (lo cual es siempre Cierto). Por lo tanto, usamos la suma de los cuadrados. La media de ambas poblaciones es 10... A 8 9 10 11 12 …pero en B los datos están mucho mas dispersos que en A 4 -10 = - 6 16 -10 = +6 B 7- 10 = -3 13 -10 = +3 Suma = 0 4 7 10 13 16

  41. La varianza Calculemos la suma de las desviaciones al cuadrado para ambas poblaciones: ¿Por qué la varianza esta definida como un promedio de desviaciones al cuadrado y no como su simple suma? La suma de las desviaciones al cuadrado aumentan cuando la dispersión de aumenta!!

  42. sA2 = SumA/N = 10/5 = 2 sB2 = SumB/N = 8/2 = 4 La varianza Calculemos la suma de las desviaciones cuadradas para ambas poblaciones B es mas dispersa alrededor de su media que A. Sin embargo, la suma no muestra eso. Es por ello que se usa el promedio A B 1 2 3 1 3 5 SumaA = (1-2)2 +…+(1-2)2 +(3-2)2 +… +(3-2)2= 10 5 veces 5 veces ! SumaB = (1-3)2 + (5-3)2 = 8

  43. Una medida de dispersión: El desvío standard • La desviación típica es la raíz cuadrada positiva de la varianza s2: • Ejemplo: Tasas de retorno de dos fondos de inversiones durante 10 años ¿Cual de los dos es más riesgoso? Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05 Media: 14.6 Desvío standard: 16.74 Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4 Media: 11.75 Desvío standard: 9.97 El fondo A es mas riesgoso dado que su desvío standard es mayor.

  44. Grados de libertad • ¿Por qué calculamos la varianza dividiendo por n - 1, en lugar de dividir por n? • Como la suma de las desviaciones es 0, la última desviación es una combinación lineal de las n - 1 desviaciones restantes. • Por lo tanto, no estamos calculando el promedio de n números independientes (los desvíos). Solo n -1 de las desviaciones al cuadrado pueden variar libremente y por ello, promediamos la suma de los desvíos al cuadrado dividiendo por n -1. • Al numero n -1 se lo denomina grados de libertad de la varianza o de la desviación típica.

  45. Propiedades del desvío standard • s mide la dispersión respecto a la media. Debe emplearse solo cuando se escoge la media como medida central de la distribución. • s = 0 solo ocurre cuando no hay dispersión: todas las observaciones toman el mismo valor. De lo contrario s > 0. • Cuanto más dispersión hay entre las observaciones, mayor es s. • s, al igual que la media, se encuentra fuertemente influenciado por las observaciones extremas.

  46. Descripción de una distribución asimétrica • Una distribución asimétrica con unas pocas observaciones en la cola larga de la distribución tendrá un desvío standard grande. En tal caso, s no proporciona información útil sobre la dispersión de la distribución. • Como en una distribución muy asimétrica la dispersión de cada una de las colas es muy distinta, es imposible describir bien la dispersión con un solo número. • Los cinco números resúmen proporcionan mejor información sobre la dispersión de la distribución. • Es preferible utilizar los cinco números resúmen en lugar de la media y el desvío standard para describir una distribución asimétrica

  47. Coeficiente de variación • El coeficiente de variación es una medida de dispersión relativa. • Muestra la dispersión de una distribución en relación a su media. • Se utiliza para comparar distintas distribuciones. • Su fórmula es: • Por ejemplo, un desvio standard de 10, puede ser grande si la media es 100, pero no lo es si la media es 500.

  48. Curva de densidad • Una curva de densidad describe el aspecto general de una distribución. • El área por debajo de la curva, entre cualquier intervalo de valores, es la proporción de todas las observaciones que están situadas en dicho intervalo. • El área total bajo una curva de densidad es 1.

  49. Distribuciones normales • Todas las distribuciones normales tienen la misma forma general. • La curva de densidad de una distribución normal se describe por su media  y su desvío standard . • La media se sitúa en el centro de la curva simétrica, en el mismo lugar que la mediana. • Si se cambia  sin cambiar  se provoca un desplazamiento de la curva de densidad a lo largo del eje de las abscisas sin que cambie su dispersión. • La desviación típica  controla la dispersión de la curva normal.

  50. Distribuciones normales • La curva con mayor desvío standard es la curva que presenta mayor dispersión. • La desviación típica  es la medida natural de la dispersión de una distribución normal. La forma de una curva normal no solo queda completamente determinada por  y , sino que además es posible situar  a simple vista en la curva. • Cuando nos alejamos de , en cualquier dirección, la curva pasa de descender rápidamente a descender suavemente. • Estos puntos de inflexión están situados a una distancia  de .

More Related