430 likes | 744 Views
ESTADÍSTICA I. ESCUELA :. CIENCIAS DE LA COMPUTACIÓN. Ing. Segundo Benítez. PONENTE :. I BIMESTRE. BIMESTRE :. ABRIL – AGOSTO 2007. CICLO :. UNIDAD. VIDEOCONFERENCIAS. Contenido:. Proceso estadístico Medidas de tendencia central y no central Introducción a la probabilidad
E N D
ESTADÍSTICAI ESCUELA: CIENCIAS DE LA COMPUTACIÓN Ing. Segundo Benítez PONENTE: I BIMESTRE BIMESTRE: ABRIL – AGOSTO 2007 CICLO: UNIDAD VIDEOCONFERENCIAS
Contenido: • Proceso estadístico • Medidas de tendencia central y no central • Introducción a la probabilidad • Distribuciones discretas • Distribuciones continuas • Muestreo • Intervalos de confianza • Prueba de hipótesis
Etapas de un proceso estadístico • Planteamiento del problema • Levantamiento de la información • Presentación de los datos • Inferencia estadística • Interpretación
Planteamiento del problema Hacer un análisis estadístico sobre las llamadas telefónicas que los estudiantes de la Modalidad a Distanciad de la UTPL hacen a los profesores respecto a sus materias, durante el anterior ciclo académico.
Recolección de datos Número de llamadas ( por persona): 6, 4, 4, 6, 0, 4, 3, 6, 1, 3, 8, 3, 6, 0, 1, 6, 11, 5, 10, 8, 2, 4, 6, 6, 6, 6, 5,13, 11, 0 6, 4, 8, 4, 7, 7, 6, 8, 3, 3, 6, 3, 2, 3, 6, 2, 2, 3, 2, 4,
Presentación de los datos • Tabulación • Medidas de tendencia central • Medidas de tendencia no central • Medidas de dispersión
Tabulación (sin intervalos) N = 50
Tabulación (con intervalos) N = 50 Rango = mayor valor – menor valor Intervalo de clase = rango / k Regla de Herbert Sturges k = 1 + 3.322 (log N) Calculo del Intervalo de Clase: k = 1+3.322(log 50) = 6.64 Rango = 13-0 = 13 Intervalo de clase = 13/6.64 = 1.95 Intervalo de clase = 2
Medidas de tendencia central 1 Media aritmética:Se obtiene sumando los valores de todas las observaciones y dividiendo el resultado entre el número de observaciones. Ej: La medición de las alturas de 7 mujeres: 141, 141, 143, 144, 145, 146, 155 cm Total de 1015 cm respecto a 7 mediciones La media = 1015/7 = 145 cm. Para datos agrupados: • x es el punto medio del intervalo de clase • f es la frecuencia del intervalo de clase • n es el total de datos de la distribución
Medidas de tendencia central 2 Agrupados No agrupados Media aritmética: No agrupados Media = 243/50 = 4.86 Agrupados Media = 251/50 = 5.02
Medidas de tendencia central 3 Mediana:Es el valor que subdivide una distribución en dos mitades iguales. Es útil cuando alguna de las mediciones es elevada o demasiada pequeña. La media de tales datos se inclinará con sesgo a estos valores extremos. No es sensible a valores extremos Ej: Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7! Para datos no agrupados: Si N es impar la mediana es el valor medio, es decir es: me=N+1/2 Si N es par la mediana es: me=[(N/2 + (N/2 + 1))]/2
Medidas de tendencia central 4 Mediana = Donde: Li = frontera inferior de la clase de la mediana. N = número de datos (frecuencia total). (∑fi)= suma de frecuencia de las clases inferiores a la de la mediana f_mediana= frecuencia de la clase de la mediana c= anchura del intervalo de la clase de la mediana.
Medidas de tendencia central 5 Mediana: Mediana = Posición de la mediana: N/2 => 50/2=25 Li = 3,5 f_mediana = 9 N/2 = 25 (∑fi) = 18 c = 5.5 – 3.5 = 2 Mediana = 5.05 Límites reales: El procedimiento es restándole 0.5 al menor y sumándole 0.5 al mayor
Medidas de tendencia central 6 Moda:es el valor que ocurre con más frecuencia en un conjunto de observaciones
Medidas de tendencia central 7 Moda: Posición de la moda: 15 Li = 5,5 Lreal = 7.5 – 5.5 = 2 fmo = 15 fant = 9 fpost = 4 Moda = 6.25 Límites reales: El procedimiento es restándole 0.5 al menor y sumándole 0.5 al mayor
Medidas de tendencia no central 1 Percentil (P): Son puntos que subdividen todas la mediciones en 100 partes iguales. Ej: El percentil tres (P3) es el valor por debajo del cual están comprendidos el 3% de las mediciones. Cuartil (Q): Divide a la muestra en cuatro grupos con frecuencias similares. Decil (D): Divide a la muestra en 10 grupos con frecuencias similares. Ej: la mediana = P50 = Q2 = D5
Medidas de tendencia no central 2 Percentil - Cuartil - Decil mediana = Posición de Q1 es: 1N/4 => 50/4=12.5 Posición de Q2 es: 2N/4 => 100/4=25 Posición de D8 es: 8N/10 => 400/10=40 Posición de P60 es: 60N/100 => 3000/100=30
Medidas de dispersión 1 Las medidas de dispersión indican como están agrupados los datos alrededor de las medidas centrales Amplitud o rango:Mide la variación total indicando los valores mínimo y máximo del conjunto de datos Ejm: Si los pesos de siete mujeres embarazadas eran de 40,41,42,43,44,47 y 72 Kg, el rango sería 72-40 = 32 Kg. amplitud = max_valor – min_valor Amplitud = 13 – 0 = 13
Medidas de dispersión 2 Varianza:Mide la distancia existente entre los valores de la serie y la media. Datos no agrupados() Datos agrupados Desviación estándar:es la raíz cuadrada de la varianza.
Probabilidad • La probabilidad mide la frecuencia con la que aparece un resultado determinado cuando se realiza un experimento P(A) = Casos favorables / casos posibles Ejemplo: Probabilidad de que al lanzar un dado salga el número 2: el caso favorable es tan sólo uno (que salga el dos), mientras que los casos posibles son seis (puede salir cualquier número del uno al seis). Por lo tanto: P(A) = 1 / 6 = 0,166 (o lo que es lo mismo, 16,6%). • El experimento tiene que ser aleatorio • Los experimentos no aleatorios no se les puede aplicar las reglas de la probabilidad
Relaciones entre sucesos • Un suceso puede estar contenido en otro: las posibles soluciones del primer suceso también lo son del segundo, pero este segundo suceso tiene además otras soluciones suyas propias Entonces, la probabilidad del primer suceso será menor que la del suceso que lo contiene. Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga un número par. Dijimos que el suceso a) está contenido en el suceso b). P(A) = 1/6 = 0,166 P(B) = 3 / 6 = 0,50
Relaciones entre sucesos (Cont.) • Dos sucesos pueden ser iguales: esto ocurre cuando siempre que se cumple uno de ellos se cumple obligatoriamente el otro y viceversa En este caso, las probabilidades de ambos sucesos son las mismas. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que salga múltiplo de 2. Las soluciones coinciden en ambos casos. P(A) = 3 / 6 = 0,50 P(B) = 3 / 6 = 0,50
Relaciones entre sucesos (Cont.) • Unión de dos o más sucesos: la unión será otro suceso formado por todos los elementos de los sucesos que se unen. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que el resultado sea mayor que 3. El suceso unión estaría formado por los siguientes resultados: el 2, el 4, el 5 y el 6. P(A) = 3 / 6 = 0,50 P(B) = 3 / 6 = 0,50 P (A Λ B) = 2 / 6 = 0,33 Por lo tanto, P (A u B) = (0,50 + 0,50) - 0,33 = 0,666
Relaciones entre sucesos (Cont.) • Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de dos o más sucesos que se intersectan. Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que sea mayor que 3. La intersección de estos dos sucesos tiene dos elementos: el 4 y el 6. Su probabilidad será por tanto: P(A Λ B) = 2 / 6 = 0,33
Relaciones entre sucesos (Cont.) • Sucesos incompatibles: son aquellos que no se pueden dar al mismo tiempo ya que no tienen elementos comunes (su interesección es el conjunto vacio). Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3, y b) que salga el número 6. La probabilidad del suceso unión de estos dos sucesos incompatibles será igual a: P(A) = 2 / 6 = 0,333 P(B) = 1 / 6 = 0,166 Por lo tanto, P(A u B) = 0,33 + 0,166 = 0,50
Relaciones entre sucesos (Cont.) • Sucesos complementarios: son aquellos que si no se da uno, obligatoriamente se tiene que dar el otro. Ejemplo: lanzamos un dado al aire. el suceso (A) es que salga un número par, luego su complementario, suceso (B), es que salga un número impar. La probabilidad del suceso (A) es igual a : P(A) = 3 / 6 = 0,50 Luego, la probabilidad del suceso (B) es igual a: P(B) = 1 - P(A) = 1 - 0,50 = 0,50 La probabilidad de la unión de dos sucesos complementarios es igual a 1 P(A U B) = 0,50 + 0,50 = 1
Distribuciones Discretas • Las distribuciones discretas son aquellas en las que la variable puede pude tomar un número determinado de valores Ejemplo: si se lanza una moneda al aire puede salir cara o cruz; si se lanza un dado puede salir un número de 1 al 6; en una ruleta el número puede tomar un valor del 1 al 32. • Al analizar un experimento que se realiza una sola vez, este solo puede tener dos soluciones: acierto o fracaso • Entre las principales tenemos: Binomial y Poison
Distribución binomial • La distribución binomial se aplica cuando se realizan un número"n" de veces el experimento, siendo cada ensayo independiente del anterior. La variable puede tomar valores entre 0: si todos los experimentos han sido fracaso n: si todos los experimentos han sido éxitos La distribución de probabilidad de este tipo de distribución sigue el siguiente modelo:
Distribución binomial (cont) Ejemplo: ¿Cuál es la probabilidad de obtener 6 caras al lanzar una moneda 10 veces? " k " es el número de aciertos. En este ejemplo " k " igual a 6 (en cada acierto decíamos que la variable toma el valor 1: como son 6 aciertos, entonces k = 6) " n" es el número de ensayos. En nuestro ejemplo son 10 " p " es la probabilidad de éxito, es decir, que salga "cara" al lanzar la moneda. Por lo tanto p = 0,5 La fórmula quedaría: Luego, P (x = 6) = 0,205 Es decir, se tiene una probabilidad del 20,5% de obtener 6 caras al lanzar 10 veces una
Distribución Poisson Cuando en una distribución binomial se realiza el experimento un número "n" muy elevado de veces y la probabilidad de éxito "p" en cada ensayo es reducida, entonces se aplica el modelo de distribución de Poisson: Se tiene que cumplir que: " p " < 0,10 " p * n " < 10
Distribución Poisson (cont) La distribución de Poisson sigue el siguiente modelo: Vamos a explicarla: El número "e" es 2,71828 " l " = n * p (es decir, el número de veces " n " que se realiza el experimento multiplicado por la probabilidad " p " de éxito en cada ensayo) " k " es el número de éxito cuya probabilidad se está calculando
Distribución Poisson (cont) Ejemplo: La probabilidad de tener un accidente de tráfico es de 0,02 cada vez que se viaja, si se realizan 300 viajes, ¿cual es la probabilidad de tener 3 accidentes? Como la probabilidad " p " es menor que 0,1, y el producto " n * p " es menor que 10, entonces aplicamos el modelo de distribución de Poisson. Luego, P (x = 3) = 0,0892 Por lo tanto, la probabilidad de tener 3 accidentes de tráfico en 300 viajes es del 8,9%
Distribuciones continuas • Las distribuciones continuas son aquellas que presentan un número infinito de posibles soluciones Ejemplo: El peso medio de los alumnos de una clase puede tomar infinitos valores dentro de cierto intervalo (42,37 kg, 42,3764 kg, 42, 376541kg, etc); el promedio de vida de una población (72,5 años, 7,513 años, 72, 51234 años). La principal distribución continua esla distribución normal
Distribución normal • Es el modelo de distribución más utilizado en la práctica, ya que multitud de fenómenos se comportan según una distribución normal. Un 50% de los valores están a la dercha de este valor central y otro 50% a la izquierda Esta distribución viene definida por dos parámetros: µ : es el valor medio de la distribución y es precisamente donde se sitúa el centro de la curva (de la campana de Gauss). s 2 : es la varianza. Indica si los valores están más o menos alejados del valor central: si la varianza es baja los valores están próximos a la media; si es alta, entonces los valores están muy dispersos.
Distribución normal (cont) Ejemplo: el salario medio de los empleados de una empresa se distribuye según una distribución normal, con media 5 mil USB y desviación típica de 1 mil USB. Calcular el porcentaje de empleados con un sueldo inferior a 7 mil USB. Ya podemos consultar en la tabla la probabilidad acumulada para el valor 2 (equivalente a la probabilidad de sueldos inferiores a 7 mil USB). Esta probabilidad es 0,97725 Por lo tanto, el porcentaje de empleados con salarios inferiores a 7 mil USB. es del 97,725%.
Muestreo • En estadística un muestreo es la técnica para la selección de una muestra a partir de una población. • Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio fiable (que represente a la población), debe cumplir ciertos requisitos, lo que lo convertiría en una muestra representativa. • Al conjunto de muestras que se pueden obtener de la población se denomina espacio muestral
Muestreo aleatorio • Es la extracción de una muestra de una población finita • Tienen la misma posibilidad de ser elegidos El muestreo aleatorio puede ser de dos tipos: • Sin reposición de los elementos: los elementos extraídos se descartan para la siguiente extracción • Con reposición de los elementos:las observaciones se realizan con reemplazamiento de los individuos, por lo tanto la población siempre es la misma
Tamaño de la muestra Objetivos de la determinación del tamaño adecuado de una muestra • Estimar un parámetro determinado con el nivel de confianza deseado. • Detectar una determinada diferencia, si realmente existe, entre los grupos de estudio con un mínimo de garantía. • Reducir costes o aumentar la rapidez del estudio.
Intervalos de confianza • La probabilidad de que la media de la población se encuentre en este intervalo es , que es el nivel de confianza. • Si la confianza es , suele decirse que el nivel de significación es 1- , o nivel de riesgo • Si no conocemos la desviación estándar poblacional se debe sustituir por la muestral
Intervalos de confianza (cont) • Un intervalo de confianza puede considerarse como un conjunto de hipótesis aceptables • Se utiliza la distribución z cuando la muestra es bastante grande • Se utiliza la distribución t cuando la muestra es pequeña • Se define una muestra pequeña cuando esta es menor a cien
Prueba de hipótesis • Una hipótesis estadística es una afirmación sobre la población • Cualquier hipótesis que caiga fuera del intervalo de confianza puede ser rechazada • Si se utiliza un intervalo de confianza del 95%, estamos diciendo que la hipótesis se prueba a un niel de confianza del 95%
UNIDAD VIDEOCONFERENCIAS