140 likes | 484 Views
ANÁLISIS EXPLORATORIO DE DATOS. JOSÉ LUIS CUELLAR TRUJILLO. COMPARACIÓN DE LOS ENFOQUES DE ANALISIS (BERTRAND). Conjunto de herramientas estadisticas que permiten una visualización previa al análisis definitivo de los datos en un estudio. Este análisis tiene los siguientes objetivos:
E N D
ANÁLISIS EXPLORATORIO DE DATOS JOSÉ LUIS CUELLAR TRUJILLO
Conjunto de herramientas estadisticas que permiten una visualización previa al análisis definitivo de los datos en un estudio. Este análisis tiene los siguientes objetivos: Evaluar la calidad y la consistencia de los datos. Determinar la distribución de las variables en estudio. Aplicar el tratamiento de datos ausentes. Detectar datos atípicos. Concepto DE ANÁLISIS EXPLORATIVO DE DATOS
HISTOGRAMA: Muestra la forma de distribución de los datos. Revela la presencia o no de simetria. Proporciona información respecto a la variabilidad de los datos. Ejemplo: Edades de un grupo de pacientes que participaron en la investigación. • Se observa asimetria. • Identifica datos extremos. Análisis explorativo de datos univariado
DIAGRAMA DE TALLO Y HOJAS Permite obsevar al conjunto de datos como un todo y destacar algunas carcteristicas, tales como: La simetria del conjunto de datos. La variabilidad de los datos. La presencia o no de “outliers”. Concentración de los datos. Brechas en el conjunto de datos. Análisis explorativo de datos univariado Ejemplo: Edades de 100 pacientes que participaron en una investigación. • Simetria. • Normalidad. • Valor Extremo alto (89)
GRÁFICO DE CAJAS (BOXPLOT) Es una presentación simple de la información que permite conocer: La localización del centro de los datos. Dispersión. • Simetria. • La extensión: • Limite Superior = (Q3 +1.5*dQ) • Limite Inferior = (Q3 -1.5*dQ) • La existencia de los valores extremos (outliers). Análisis explorativo de datos univariado
El conjunto de técnicas estadísticas bivariadas difiere en función del tipo de datos de los que se dispone (niveles de medida: nominal, ordinal, intervalo, razón), adaptándose en todo momento al contexto de análisis aplicado en el que nos encontremos. De esta manera, disponemos de la Prueba de Chi-cuadrado cuando las variables son de tipo nominal o categórico, la Correlación o la Regresión Lineal cuando ambas variables son, como mínimo, de carácter ordinal, la Prueba T de Student o el ANOVA de 1 Factor cuando se persigue medir diferencias entre medias a partir de una variable categórica sobre una variable continua, etc. ANÁLISIS EXPLORATIVO DE DATOS BIVARIADO
El análisis multivariante es un método estadístico utilizado para determinar la contribución de varios factores en un simple evento o resultado. Los factores de estudio son los llamados factores de riesgo (bioestadística), variables independientes o variables explicativas. El resultado estudiado es el evento, la variable dependiente o la variable respuesta. El análisis multivariante mediante técnicas de proyección sobre variables latentes tiene muchas ventajas sobre los métodos de regresión tradicionales: se puede utilizar la información de múltiples variables de entrada, aunque éstas no sean linealmente independientes puede trabajar con matrices que contengan más variables que observaciones puede trabajar con matrices incompletas, siempre que los valores faltantes estén aleatoriamente distribuidos y no superen un 10% puesto que se basan en la extracción secuencial de los factores, que extraen la mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la información del ruido. Se asume que las X se miden con ruido. ANÁLISIS EXPLORATIVO DE DATOS MULTIVARIADO