820 likes | 1.44k Views
ESTADÍSTICA DESCRIPTIVA. COMPETENCIAS Y OBJETIVOS. UNIDAD I :ESTADISTICA DESCRIPTIVA Competencia: - El estudiante debe utilizar correctamente los procedimientos ,técnicas y métodos estadísticos,en el tratamiento y procesamiento de datos de todo trabajo de investigación científica
E N D
COMPETENCIAS Y OBJETIVOS • UNIDAD I :ESTADISTICA DESCRIPTIVA • Competencia: • -El estudiante debe utilizar correctamente los procedimientos ,técnicas y métodos estadísticos,en el tratamiento y procesamiento de datos de todo trabajo de investigación científica • Objetivos. • -Aplicar adecuadamente las técnicas y procedimientos estadísticos como metodología de toda investigación principalmente en la Ingeniería. • Descripción general de la unidad: • -Esta unidad comprende el desarrollo de los siguientes aspectos :ciclo metodológico de la investigación estadística, recopilación. organización ,clasificación y descripción de datos de una muestra aleatoria o población; determinación y utilización de las medidas descriptivas. • Lectura:Millar/Freund/Jonson “Probabilidad y Estadística para Ingenieros”Edo.de México 1992 Pgs.1 al 40 • Córdova Zamora “Estadística Descriptiva e Inferencial” 2ª ed.Perú 1996 Pags,1 al 69 • Bibliografía Básica: García Oré (1995) “Estadística descriptiva y Probabilidades”(2ª ed) Perú .Pags.2al 83 • Referencia electrónica: http://thales.cica.es/red/Recursos/rd99/ed99-0278-01/inicio.html TPAU
Estadística Descriptiva CONTENIDO MÍNIMO 1.-INTRODUCCIÓN A LA ESTADÍSTICA(muestreo) 2.-ORGANIZACIÓN Y CLASIFICACIÓN DE DATOS 3.-MEDIDAS DE POSICIÓN 4.-MEDIDAS DE DISPERSIÓN 5.-REGRESIÓN LINEAL SIMPLE
Introducción a la Estadística 1.-DEFINICIÓN.- Como ciencia proporciona un conjunto de métodos,técnicas y/o procedimientos ,para recopilar,organizar,presentar ,analizar datos,con el fin de realizar generalizaciones válidas,para tomar decisiones coherentes,ante la incertidumbre,acerca de la población o sus parámetros a partir de datos extraídos de una muestra. • ESTADÍSTICA DESCRIPTIVA. • ESTADÍSTICA INFERENCIAL TPAU
POBLACIÓN (N).-Conjunto universo,motivo de análisis que tiene por lo menos alguna característica en común,el proceso para obtener toda la información de la población se llama censo • PARÁMETRO.- Es un nº resumen que sintetiza alguna característica de la población • MUESTRA (n).- Es un subconjunto propio representativo de la población,el proceso para la obtención de los datos muestrales se llama muestreo • ESTADÍGRAFO.-Es un nº sintético que resume alguna característica de la muestra TPAU
1.- INTRODUCCIÓN AL MUESTREO PROCESO DEL DESARROLLO CIENTÍFICO DESARROLLO DEL CONOCIMIENTO MÉTODO CIENTÍFICO TPAU
PERFIL DE TESIS • TÍTULO • JUSTIFICACIÓN • FORMULACIÓN DEL PROBLEMA • HIPÓTESIS • OBJETIVOS: • METODOLOGÍA: MÉTODOS : inductivo,deductivo,hidtórico,lógico,experimental etc. .TÉCNICAS: DE RECOLECCIÓN DE datos (muesreo) DE PROCESAMIENTO DE DATOS(Estadística Inferencial) INSTRUMENTOS SOFTWARE ESTADÍSTICO) • MARCO TEÓRICO Y REFERENCIAL • ESQUEMA TENTATIVO DE LA TÉSIS O PROYECTO DE GRADO • ANEXOS • BIBLIOGRAFÍA TPAU
Metodología de la investigación: 1.-Planteamiento del problema y de la hipótesis: Se define claramente los objetivos del estudio,se toma una m.a. cuyos datos se utilizan para la inferencia sobre el modelo asignado ó contrastando valores para sus parámetros 2.-Recolección de datos: a)Datos publicados,b)diseño experimental c)Encuesta 3.-Organización y clasificación de datos: se debe realizar un análisis de consistencia 4.-Análisis e interpretación de los datos D E S C R I P T I V A TPAU
I N F R E N C I A • METODOLO´GIA DE LA INVESTIGACIÓN • 5.-Realización de Inferencia • PRUEBAS PARAMÉTRICAS .-representar la incertidumbre asociada a la característica en cuestión ,a un modelo probabilístico cuyos parámetros se desconocen • Estimación de los estadísiticos : • a) Puntual ,b) Por Intervalos de Confianza • 6.-Realizar el TEST DE HIPóTESIS • Contrastar la validez de algún supuesto • acerca de los valores de los parámetros ó • de la Distribución del modelo ,(por IC ó de Siginificancia,y el “P” value),ó predecir. TPAU
1.2.- Tipos de Muestreo • Muestreo.- herramienta fundamental de la investigación científica,cuya función básica es determinar q´parte representatriva de la población en estudio debe examinarse con el fin de realizar Inferencia sobre dicha Población. • Razones para tomar muestras: • a) Poblaciones muy grandes ó infinitas ó desconocidas • b)Costos más económicos en muestras que en poblaciones • c) Mayor rapidez en la recolección de una m.a que el de una población • d) Mayor exactitud.-al reducirse el volumen de trabajo se puede emplear personal más capacitado y someterlo a un entrenamiento intensivo,supervisión del trabajo de campo y procesamiento de los resultados,resultados más exactos que la enumeración completa • e)Destrucción de las unidades estudiadas TPAU
Tipos de muestreo TPAU
TIPOS DE MUESTREO PROBABILÍSTICOS • MUESTREO ALEATORIO SIMPLE ( M.A.S.) • MUESTREO ALEATORIO SISTEMÁTICO(M.A.Sys) • MUESTREO ALEATORIO ESTRATIFICADO(M.A.E) • MUESTREO ALEATORIO CONGLOMERADO(M.A.C.) • MUESTREO POLIETÁPICO(M.U.M) TPAU
MUESTREO ALEATORIO SIMPLE (M.A.S) CON ó sin REPOSICIÓN • La población es homogénea y no muy grande, todos los elementos tienen la misma posibilidad de ser tomados en cuenta • PROCEDIMIENTO.- las extracciones que se realizan manual ó mediante la generación de Nº aleatorios mediante el PC ,con reposición son independientes ,y si es sin reposición son dependientes Sea una N(1000) 20 100 1 TPAU
MUESTREO ALEATORIO SISTEMÁTICO (M.A.Sys)Sea una población grande homogénea N= 1000 ,se toma una m.a. n=50→K=N / n =1000 / 50=20 TPAU
Ventajas y desventajas del M.A.Sys • Ventajas: • - Mayor representatividad que un m.a.s. porque es más facíl sacar una m.a y se lo puede hacer en una oficina ahorrando tiempo • -Es casi tan preciso como el estratificado • Desventajas. • -Sólo se pueden tomar k muestras distintas • -Los elementos de la m.a son dependientes • -No es válido si la característica se presenta periodicamente y no coincide con la posición K TPAU
Muestreo aleatorio estratificado(M.A.E)Se aplica en poblaciones heterogéneas desde el punto de vista de la característica.por lo que se divide en L clases o L estratos homogéneos • Sea una Población heterogénea dispersa N tal que N1+N2+…+Nl =N • Ni = subpoblaciones, cuya m.a. n tal que n1+n2+…+nl =n • =estratos ni= submuestras n1 n2 n3 nl n4 TPAU
Ventajas y desventajas del M.A.E. • Ventajas.- • -permite aplicar técnicas de selección diferentes en cada estrato • -Permite realizar inferencia en cada uno de los estratos. • -Mayor precisión en los estimadores • -Permite disminuir el tamaño de la muestra • Desventajas.- si la población está muy dispersa se requiere mucho dinero en cuanto al aspecto logístico TPAU
Selección del tamaño de cada submuestra en el M.A.E • -Afijación uniforme (ni=nj=nl) • -Afijación proporcional /estrato (Wh= Nh/N) • -Afijación de Mínima Varianza • -Afijación óptima( en función de sus costos) • (V óptima≤ V proporcional ≤ V ran) TPAU
Notación y definición en el M.A.E • .-Una vez estratificado la población y determinados las submuestras: • -Los símbolos que se refieren al estrato h. son: • h= Identidad del estrato , i = la unidad dentro el estrato • Nh=Nº total de unidades en el h-ésimo estrato • nh=nº de unidades en la h-ésima muestra • yhi = valor obtenido para la i-ésima unidad del h-esimo estrato • Wh = Nh / N = ponderación del estrato h-ésimo • fh = nh / Nh = fracción del muestreo del h-ésimo estrato • Ÿh = yhi / Nh = media verdadera ;ÿ = yhi /nh media muestral del h-ésimo estrato • S²h = ( yhi –Ÿh ) ² / Nh =varianza verdadera del h-ésimo estrato TPAU
Muestreo aleatorio por conglomerados (M.A.C)Se aplica también en poblaciones heterogéneas y dispersonas desde el punto de vista geográfico • Sea una población muy heterogénea y dispersa desde el punto de vista geográfico N se divide en Mu unidades de conglomerados heterogéneos • M1 M2 M3 ….. Mu nu n3 n1 n2 TPAU
Muestreo polietápico(MUM) • En la práctica casi es común utilizar diferentes tipos de muestreo ,es decir debe realizar en varias etapas ,así por ejemplo cuando se utiliza el M.A.E ó el M.A.C ,en cada estrato ó en cada conglomerado se debe aplicar el M.A.S. • Otro caso tenemos en el muestreo de la”Unidad monetaria” gralmente aplicable en Auditoría que consiste en tomar como unidades aquellos expedientes con mayor cantidad monetaria y dentro cada expediente aplicar el M.A.S. TPAU
2.Estadísticos muestrales • DEFINICIÓN Y NOTACIÓN.-. • -CARACTERÍSTICAS O ATRIBUTOS(Y).- ciertas propiedades q´se quiere medir,analizar,registrar, etc. Para cada unidad de la población si es muestral (y). • CARACTERÍSTICAS QUE ANALIZA EL MUESTREO.- • Analiza 4 características de la población: • 1) El total (Y) • 2)la Media E (Y) 3) La Proporción(P) 4)La Razón( R) TPAU
NOTACIÓN Característica Población(N) Muestra(n) 1.-Valores yi = y1,y2,...,yN yi = y1,y2,...,yn 2.-Total Y=yi = y1+y2+,...,+yN ; y = yi = y1 +y2+,...,+ yn 3.-La MediaŸ = yi / N ; : ÿ = yi / n 4.-La Razón R= Y / X : r = y / x 5.-Proporción P= X/N : p = x/n TPAU
Estadísticos muestrales • ESTIMACIONES Ó ESTADÍGRAFOS • a)Del total(Y) • Ŷ = N ÿ = N yi / n,donde N/ n = factor de expansión • b) De la media (Ÿ) ÿ = yi / n ,donde n/N =f ,fracción muestral • c)De la Varianza(σ²) S² = ∑(xi-x)²/ n • c) De la razón(Ř) r = y / x = yi / xi TPAU
ESTADÍSTICOS MUESTRALES • Varianza muestral S² = Σ ( yi –y )²/ n • Varianza de Cochran ó • cuasi varianza S² =Σ ( yi –y )²/ n-1 • Media muestral E(y ) = Y =µ • Varianza de la media muestral V(y) = σ²/ n • Media de la Varianza muestral E(S²) = (n-1)σ²/n • MEDIA DE LA CUASI VARIANZA E(S²) = σ² • Caso particular si Y →Bernoulli(p) • Proporción muestral p =y/n ó Σyi/n • Media de la proporción muestral E(p) =P • Varianza de la proporción muestral V(p)= pq/n TPAU
INTERVALOS DE CONFIANZA.- (n 50) 1.-IC PARA LA MEDIA (Ÿ) al 100 r % = [ ÿ ± Zo S 1 –f / n ] donde Zo P(Z< Zo) = (1+ r) / 2 2.-IC PARA EL TOTAL (Y). Al 100r% = [ Nÿ ± ZoN S 1 –f / n ] -3.-IC para la Proporción (P) al 100% = [p± Zo S 1 –f / n ] Nota cuando la muestra es pequeña ,es decir n < 50 se debe utilizar la distribución “t”, El valor crítico es to donde to P(T<to) = (1+ r) / 2 ; tiene distribución n-1 g.d l. NIVELES DE SIGNIFICACIÓN () = 50% 20% 10% 5% 1% NIVELES DE CONFIANZA ( r ) = 50% 80% 90% 95% 99% VALORES CRÍTICOS (n≥50) ( Zo) = 0.67 1.28 1.65 1.96 2.58 TPAU
Ej. Se recabó información sobre una cadena de 676 internets.Cada internet tiene 42 CPU’s ,pero en muchos internetsde no todos los PC funcionan normalmente.Se contó el Nº CPU’s por internet que funcionan normalmente. De 50 Internets(aprox. El 7%) cuyos resultados están en la tabla,donde :N=Tamaño de la póblación 676; n=50 yi = nº de PC q´funcionan ; fi =f recuencias./,internet Se pide estimar a) El Nº total de PC que funcionan normalmente b)La varianza de la muestra c)El IC para el total al 80% yi : 42 41 36 32 29 27 23 19 16 15 14 11 10 9 7 6 5 4 3 Total fi : 23 + 4+ 1+ 1+ 1+ 2 + 1+ 1+ 2 + 2+ 1+ 1+ 1+ 1+ 1+ 3+ 2 +1+ 1 50 Yifi : 966+…………………………………………………… +10 + 4+ 3 1 471 yi²fi:40572 + ………………………………………………… +50 +16 + 9 54 497 TPAU
Sol.- Datos . N= 676 ; Unidad muestral = internet n= 50 internet a)Estimación del Total Y Ŷ = Nÿ = N yi fi / n = 676 (1471)/ 50=19888 fPC q´funcionan normalmente b) Varianza muestral S² = (1 / n-1) [yi² fi –( yi fi )²/n],reemplazando S² = (1/ 49) [54497 –(1471)²/ 50] = 229.0 PC² la desviación típica S = 229 firmas ² = 15.1327 PC c) El IC para el total(Y) al 80%,: = [ 19888 ± 1.28(676)(15.13)(0.9623) / 50 ] = [18 107 ; 21 669 ] Significa que de entre 100 muestras diferentes que se pueden obtener de ésa población se espera que 80 muestras darán la estimación del total entre 18 107 y 21 669 PC que funcionan normalmente TPAU
4.-TAMAÑO MUESTRAL • En forma general depende: • 1)Si la población es finita conocida ó infinita desconocida • 2)Del Error admitido ( acuerdo a la calidad de la v.a.) • 3)Del nivel de significación( α →Mín) • 4)Del tipo de muestreo aplicable(con o sin reposicion) • 5)Del estadístico utilizado en la investigación • La fórmula gral n= no N / [no +(N-1)] • donde : n=tamaño de la muestra • N= tamaño de la población • no= tamaño de la m.a inicial TPAU
Ejemplos para estimar el tamaño de la m.a. • Ej. 1)Un investigador quiere determinar el tiempo promedio que un ensamblador tarda en ensamblar las partes de un ordenador,con una confianza del 95% que la media de su m.a. tenga un error a lo máximo de 0.50 minutos.Se presume por experiencia que la σ= 1.6 minutos.Qué tamaño debe ser la muestra? • Solución : Y:”tiempo de ensamblaje en minutos” • Datos; E=0.5, σ= 1.6 ; r=95% →Zo=1.96 • Por 1) n= (Zo σ/ E)² → n=(1.96*1.6 /0.5)² =39.3 =40 • n= 40 TPAU
Ej 2)Se desea estimar el Nº promedio de días de uso continuo antes de que cierto tipo de PC requiera su reparación inicial, si se supone que la σ= 6 días de un lote de 100 PC´s .De qué tamaño debe ser la m.a. para asegurar con una confianza del 90% que la media muestral difiera a lo más por 2 días? • Solución.- Y:”Tiempo de uso del pc en días” • Datos: N= 100; σ= 6 ;r= 0.90 → Zo= 1.645 ,E=2 • Por la fórmula general:n= no N/ [no +(N-1)] • no= (1.645*6 /2)²= 24.354225 • n= 24.354225*100 / [24.354225+(100-1)]= 19.74=20 TPAU
Ej.3)Se desea estimar la Proporción real de CD´s defectuosos en un importación muy grande ,al nivel de un 95% se admite un error a lo sumo de un 4%.de qué tamaño debe ser la m.a. si • a) No se conoce la proporción real • b)Se sabe q’ la proorción real de defectuosos es 12% • c)Si se conoce el tamaño de la Importación =5000 • Solución.-a) r=0.95→Zo=1.96;E=0.04 n=? • Por 4) no= (Zo/2E)²= (1.96 / 2*0.04)²= 600 • b) p=0.12 →q=0.88; por 3) no= Zo²pq/E² • n= 1.96²(0.12)(0.88) / (0.04)²= 254 • c) N=5000 por :n= no N/ [no +(N-1)] • n=254*5000 /[254 +(5000-1)] =242 TPAU
Conctrucción de los estratos Una población de 13 435 datos cuya Distribución de frecuencias .Determinar a) los tamaños de los estratos(Nh) b)elTamaño de la m.a (n) si se quiere minimizar el mismo para una V(ÿst) =0.01 puede obiar la cpf.c) Determine los tamaños de las submuestras Deterdeterminar √fi→ la F(√ fi). De la siguiente manera. Ii fi √fiF(√fi)Ii fi √ fi F(√fi ) 0 -5 3464 58.9 58.9 50-55 125 11.2 340.3 5-10 2516 50.2109.1 55-60 107 10.3 350.6 10-15 2157 46.4155.5 60-65 82 9.1 359.7 15-20 1581 39.8195.3 65-70 50 7.1 366.8 20-25 1142 33.8229.1 70-75 39 6.2 373.0 25-30 746 27.3 256.4 75-80 25 5.0 378.0 30-35 512 22.6 279.0 80-85 16 4.0 382.0 35-40 376 19.4 298.4 85-90 19 4.4 386.4 40-45 265 16.3314.7 90-95 2 1.4 387.8 45-50 207 14.4 329.1 95-100 3 1.7 389.5 TPAU
Construción de estratos • Suponiendo se quiere tener 5 estratos • Supuestamente serían F(√fi )/ L= 389/5= 77.9 • 77.9 -155.8 -233.7- 311.6 pero los nº más cercanos son: • Estratos • 1 2 3 4 5 • Ii. 0-5 5-15 15-25 25-45 45-100 • Fi,√fi 58.9 96.6 73.6 85.6 74.8 TPAU
N1 = 3464 N2= 4673 N3=2723 N4=1899 N5=676 • W1= N1/N =3464/13435=0.26; W2=4673/13435=0.35 W3= 0.20 W4=0.14 W5=0.05 • n1= ? n2=? n3= ? n4= ? n5= ? • h Wh Sh WhSh nh W1 = N1/N= 3464/13435=0.26 • 1 0.26 5 1.30 903 • 2 0.35 10 3.50 2432 • 3 0.20 7 1.40 973 • 4 0.14 5 0.70 486 • 5 0.05 1 0.05 36 • Total 1 69.5 4830 TPAU
A) por D)Asignación óptima revisada Vmin(ÿst)=(ΣWhSh)² / n) – Σ WhSh² / N (cpf) 0.01 =(6.95)²/n → n = 4830 b) Por A)Minimizar V(ÿst) para un n total fijo (NEYMAN) nh= nWhSh / ΣWhSh =nNhSh / ΣNhSh n1=4830(1.3)/6.95 =903 n2 = 4830(3.5)/6.95=2432 n3 = 4830(1.4)/6.95= 973 n4 = 4830(0.7)/6.95= 486 n5 = 4830(0.05)/6.95= 36 n=4830 TPAU
VARIABLES ESTADÍSTICAS Es toda característica que se desea estudiar de la población y que toma mínimamente dos valores: X: x1 ,x2,...,xn CLASES DE VARIABLES: 1.-CUANTITATIVAS.- Son aquellas que se pueden contar o medir,tenemos: a) Discreta y b)continuas 2.-CUALITATIVAS.-Son aquellas que guardan algún atributo o característica,tenemos:a)Nominal y b) ordinal TPAU
CICLO METODOLÓGICO POBLACION (N) muestreo MUESTRA (n) MUESTRA (n) Estadística descriptiva Toma de decisiones Estadística inferencial TPAU
Metodología de la investigación: 1.-Planteamiento del problema y de la hipótesis: Se define claramente los objetivos del estudio,relacionando con los valores numéricos de las variables observables(y =efecto ;x =causa) 2.-Recolección de datos: a)Datos publicados,b)diseño experimental c)Encuesta 3.-Organización y clasificación de datos: se debe realizar un análisis de consistencia 4.-Análisis e interpretación de los datos TPAU
ORGANIZACIÓN DE LOS DATOS: • Una vez recopilados los datos ,éstos se los deben presentar en: 1.-Cuadros estadísticos.-que deben tener: a) Título descriptivo y numerado(superior) b) Fuente de los datos(pie de página) c) Unidades en que se expresan • 2 .-Gráficos: a) De barras (Verticales u horizontales) b) Circulares TPAU
DISTRIBUCIÓN DE FREC. DE V .CUALITATIVAS Cuadro Nº 1.1. Distrib.de frec. De.......... TPAU
Ejemplo.- En una entrevista a 20 alumnos sobre la preferencia por tipos de ordenadores:A,B,C,se obtuvieron los siguientes resultado: A,B,B,A,C,B,B,A,A,B,A,B,B,C,A,B,A,C,A,B, Cuadro nº 1.2.Distrib.de alumnos por pref.de pc TPAU
Distrib.de frec. por Intervalos o clases (n>30) Cuadro Nº.. Distrib. de frec. por intérvalos TPAU
Procedimiento: ordenar los datos y determinar: 1.-El alcance (A) A=[Valor Mínimo,Valor Máximo] 2.-El Rango (R) R=|Valor Máx-valor Mín| 3.-Nº de Intérvalos (k) a) 5 < k < 20 b) k=1+3.3 log(n) 4.-Ancho de clase (wi) Wi=|L i +1 -Li| igual ancho W = R/k 5.-Marca de clase Xi = (Li + Li+1)/2 TPAU
Ejemplo.- se tiene los ingresos quincenales en $us(X) de 45 familias: 63 89 36 49 56 64 59 35 78 43 53 70 57 62 43 68 62 26 64 72 52 51 62 60 71 61 55 59 60 67 57 67 61 67 51 81 53 54 76 44 73 56 62 63 60 Se pide clasificar en 8 clases TPAU
Cuadro Nº... Distrib.de frec.de los ingresos de 45 familias en dólares TPAU
fi Histograma de los ingresos de 45 familias xi TPAU