1 / 22

Sesión III

Sesión III. José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento de Salud Pública, PUC. Martes 19 de Julio de 2011. Test de Normalidad. Dócima de hipótesis para las pruebas de normalidad.

mills
Download Presentation

Sesión III

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sesión III José Bustos1 & Alex Mellado2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento de Salud Pública, PUC. Martes 19 de Julio de 2011

  2. Test de Normalidad Dócima de hipótesis para las pruebas de normalidad H0: p1 = p2 Son normales H1: p1 ≠ p2 No son normales Con el valor p decidimos si aceptamos o rechazamos la H0 Para evaluar la normalidad de un conjunto de datos • Test de Shapiro-Wilk • Test de Kolmogorov-Smirnov > ks.test(x,y) # si x e y tienen la misma distribución

  3. Test de Normalidad Test de Shapiro-Wilkn<30 # describe mejor cuando los n son pequeños # no significa que no pueda usarse para n>30 sintaxis shapiro.test(name) ejemplo ?shapiro.test name=rnorm(29,0,1) #generación números aleatorios(n,media,sd) mean(name) sd(name) qqnorm(x) qqline(x) shapiro.test(name) #interpretar resultado W= valor del test, p-value.

  4. Test de Normalidad Test de Kolmogorov-Smirnovn>30 #evalúa 1 o 2 muestras simulneamente sintaxis ks.test(name,pnorm) ks.test(name1, name2) ejemplo ?ks.test name1=rnorm(500,0,1) #generación números aleatorios(n,media,sd) mean(name1) sd(name1) ks.test(name1,pnorm) # #interpretar resultado KS= valor del test, p-value ks.test(name1,name2) #interpretar resultado KS= valor del test, p-value. También hay otras distribuciones disponibles. Las más importantes (y los parámetros necesarios en cada una) son: ks.test(x,ppois,lambda) # si x ~ Poisson con tasa lambda. Ej: ks.test(x,ppois,3) ks.test(x,pbinom,n,p) # si x ~ Binomial con n y p dados.

  5. 2. Test de Chi-cuadrado X2 Test Chi-cuadrado. 1 variable categórica con n niveles H0: p1 = p2 Las proporciones son iguales H1: p1 ≠ p2 Las proporciones diferentes sintaxis chisq.test(names) names<-c(valores1, val2….,) ejemplo Supóngase que la proporción observada de mujeres normales y con cuadros de depresión en una cuadra de la comuna de Maipú es de 29/12, respectivamente. Cual es la variable y el factor de la variable? sexo<- c(29,12) # vector formado guarda las frecuencias o proporciones

  6. 2. Test de Chi-cuadrado X2 ejercicio 1 El 35% de erizos de tierra mantenidos en cautiverio enfermaron y el 65% murió. ¿La proporción de muertos y enfermos es significativamente diferente? . Sin embargo, ½ de los enfermos comen pellet (n=50) y enferman menos que aquellos que tienen una dieta casera (½) y mixta (½). ¿Serán las proporciones observadas diferentes? > ks.test(x,y) # si x e y tienen la misma distribución

  7. 2. Test de Chi-cuadrado X2 Test Chi-cuadrado. 1 variable categórica con n niveles cuando conocemos una proporción H0: p = 0.18 H1: p ≠ 0.18 sintaxis a<-c(240,960) b<-c(0.18,0.82) chisq.test(a,p=b) # vector a almacena frecuencias observadas # vector b almacena probabilidades esperadas # Test chi-cuadrado chisq.test(a,p=b) # alternativamente los vectores a y b pueden ir concatenados ejercicio 2 La encuesta nacional de Salud revelo que el 18% de los escolares chilenos es obeso. Supóngase que una muestra obtenida de un colegio privado donde estudian 1200, 240 son obsesos. ¿La proporción observada en el colegio es diferente de los resultados obtenidos en la encuesta nacional?

  8. 2. Test de Chi-cuadrado X2 Test Chi-cuadrado. 2 variable categórica con n niveles H0: p1 = p2 No existe asociación son independientes H1: p1 ≠ p2 Existe asociación no son independientes sintaxis chisq.test(name, correct=F) # chi de Pearson name=matrix(c(valores), nc=columnas)

  9. 2. Test de Chi-cuadrado X2 ejercicio 3 Supóngase que interesa saber si sexo da cuenta de la asociación con el parasitismo por la lombriz solitaria Taeniasolium. De a base de datos de julio del ISP 2011, resultaron parasitados 38 de 50 y de 60 mujeres sólo 4. Los hombres comen mas carne en cebiche y cruda que las mujeres. Realice el test mas adecuado.

  10. 2. Test de Chi-cuadrado X2 ejercicio 4 Interesa determinar si hay diferencias significativas en el porcentaje de personas con depresión entre dos poblaciones A y B. Para esto, se tomó una muestra de 150 personas de la población A y 200 de la población B, encontrándose 45 y 120 personas con depresión en cada una de las ciudades respectivamente. La ciudad B aparentemente esta mas contaminada que la población A. 1. Construya su tabla de contingencia. 2. Realice la rutina en R para obtener el valor de X2Pearson. 3. Señale si acepta o rechaza la Ho

  11. 2. Test de Chi-cuadrado X2 Chi-cuadrado desde un Dataframe sintaxis chisq.test(namevar1,namevar2, correct=F) # Test X2 de Pearson. Var1 vs Var2 . # Buscando dataframe .txt en el directorio name<-read.table(file.choose(), header=T) attach(name) chisq.test(namevar1,namevar2, correct=F)

  12. 2. Test de Chi-cuadrado X2 Test Exacto de Fisher. n< 5 en algunas celdas H0: p1 = p2 No existe asociación son independientes H1: p1 ≠ p2 Existe asociación no son independientes sintaxis fisher.test(name, correct=F) # chi2 de Pearson name=matrix(c(valores), nc=columnas) fisher.test(namevar1,namevar2, correct=F) # chi 2de Pearson usando dataframe

  13. 3. T Student T Student comparación de medias: para 1 muestra. H0: μ = 0 Media es igual a 0 H1: μ ≠ 0 Media diferente de 0 sintaxis t.test(x) # si vector numérico x tiene media μ=0 (por defecto μ0=0) t.test(x,mu=10) # si vector numérico x tiene media μ=10) t.test(x1,x2,paired=T) # si x1-x2 (datos pareados) tiene media 0 Ejemplo x=rnorm(100,20,1) test.t(x) test(x, mu=20)

  14. 3. T Student ejercicio 5 A un total de 10 pacientes con diagnostico de VIH se les midió el número de linfocitos T en la sangre /ml. La siguiente tabla muestra el conteo de linfocitos Antes y después de un tratamiento naturista. Genere los vectores de la tabla conservando los nombres de cabecera. Determine si la intervención es significativa o no. Resultado Paired t-test data: antes and después t = -1.1006, df = 9, p-value = 0.2996 alternativehypothesis: true difference in meansisnotequalto 0 95 percentconfidenceinterval: -95.02074 32.82074 sampleestimates: mean of thedifferences -31.1

  15. 3. T Student T Student comparación de medias muestras independientes (N=2). El test t de Student para muestras independientes permite docimar la hipótesis nula de igualdad de promedios de dos vectores numéricos x1 y x2. Es decir, H0: μ1 = μ2. H0: μ1 = μ2 Media muestra 1 es igual a la media muestra 2 H1: μ 1 ≠ μ2 ambas medias muestréales son diferentes sintaxis t.test(x1,x2) # ambos vectores numéricos

  16. Ejercicio 6 Considerando el numero de linfocitos encontrados en 10 pacientes en la ciudad 1 y en 10 pacientes en la ciudad 2. 1. Genere los vectores de la tabla conservando los nombres de cabecera y determine si existen diferencias significativas en el número de linfocitos en ambas ciudades. Resultado Welch Two Sample t-test data: ciudad1 and ciudad2 t = -0.7308, df = 17.564, p-value = 0.4745 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -120.66331 58.46331 sample estimates: mean of x mean of y 110.1 141.2

  17. t.test requiere que las muestras estén en columnas distintas, cuando lo habitual es tener los datos en una columna (por ejemplo, en vector x) y los grupos a comparar en otra columna (por ejemplo, en vector grupo, con valores 1 y 2). La solución es: >t.test(x[grupo==1], x[grupo==2]) Ejercicio 7 Tomando los valores de linfocitos y ciudad. Determine si existen diferencias significativas entre una ciudad y otra. Genere los vectores de la tabla conservando los nombres de cabecera. ciudad<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2) linfocitos<c(31,157,4,109,283,141,36,164,154,22,71,93,53,240,181,181,64,367,114,48) t.test(linfocitos[ciudad==1],linfocitos[ciudad==2]) WelchTwoSample t-test data: linfocitos[ciudad == 1] and linfocitos[ciudad == 2] t = -0.7308, df = 17.564, p-value = 0.4745 alternativehypothesis: true difference in meansisnotequalto 0 95 percentconfidenceinterval: -120.66331 58.46331 sampleestimates: mean of x mean of y 110.1 141.2

  18. 4. Test kruskallwallis T Kruskal Wallis. comparación de mas de dos medias. El test de rangos de Kruskal-Wallis permite comparar el parámetro de tendencia central (mediana) entre dos o más poblaciones. Cuando se comparan solo 2 grupos, el test es equivalente al test de rangos de Wilcoxon. H0: μ1 = μ2 = μ3 Media muestra 1,2,3 son iguales H1: μ 1 ≠ μ2 ≠ μ3 ambas medias muestréales son diferentes sintaxis kruskal.test(x,grupos) # si la mediana de x (variable numérica) se # diferencia entre grupos (variable categórica) kruskal.test(list(x1,x2,x3)) # si existe diferencias entre promedios # de x1, x2 y x3 (no requierevariable categórica

  19. 4. Test de asociación correlacion El comando cor permite obtener la correlación entre dos vectores x e y. sintaxis cor(x, y) # correlacion (Pearson) entre x e y. cor.test(x, y) # correlacion (Pearson) entre x e y, test e IC95% Por defecto, cor entrega la correlación de pearson. Con el subcomando method se controla cuál correlación obtener: pearson, spearman o kendall. > cor(x, y,method=“pearson”) # igual a cor(x,y) > cor(x, y,method=“spearman”) # correlacion de Spearman ordinal/continua > cor(x, y,method=“kendall”) # correlacion de Kendall ordinal/ordinal Si hay observaciones faltantes en x o y el comando producirá un error. La opción use=“complete.obs” borra registros con NA en cualquiera de las dos variables. xyz=cbind(x,y,z) > cor(xyz)

  20. ejercicio 8 • Lea la base de datos Litiasis.txt (archivo de texto delimitado por tabulaciones) en R. • Observe las características del dataframe como list(), names(), summary() • Acceda a los vectores del dataframe usando attach() • Determine si existe asociación entre las variables HTA y PESO Determine si existe asociación entre las variables HTA y FUMA. • Determine si existe asociación entre las variables EDAD y FUMA. • Determine si existe asociación entre TALLA y EDAD. (grafique). • Finalmente agregue la siguiente instrucción • abline(lm(PESO~TALLA))

  21. 6. Modelos de regresión Es una técnica para analizar una variable dependiente numérica (Y) frente a una o mas variables independientes (X) también numéricas sean categóricas o continuas. Formula: Y = β0 + β1 x1 + ……+ βnxn + e Tipos de modelo de regresión 1. Modelos de regresión Lineal Y= v.a. numérica continua 2. Modelos de regresión Logística Y= v.a. categórica 3. Modelos de regresión Poisson Y= v.a conteo o tasa 6. Modelos de Regresión.

  22. Modelos de regresión Lineal simple lm (formula = variable Y ~ variable X) Modelos de regresión Lineal múltiple lm (formula = variable Y ~ variable X1+ variable X2 +…+ variable Xn)

More Related