1 / 11

ANÁLISIS EXPLORATORIO DE DATOS

ANÁLISIS EXPLORATORIO DE DATOS. JOSÉ LUIS CUELLAR TRUJILLO. COMPARACIÓN DE LOS ENFOQUES DE ANALISIS (BERTRAND). Conjunto de herramientas estadisticas que permiten una visualización previa al análisis definitivo de los datos en un estudio. Este análisis tiene los siguientes objetivos:

oya
Download Presentation

ANÁLISIS EXPLORATORIO DE DATOS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ANÁLISIS EXPLORATORIO DE DATOS JOSÉ LUIS CUELLAR TRUJILLO

  2. COMPARACIÓN DE LOS ENFOQUES DE ANALISIS (BERTRAND)

  3. Conjunto de herramientas estadisticas que permiten una visualización previa al análisis definitivo de los datos en un estudio. Este análisis tiene los siguientes objetivos: Evaluar la calidad y la consistencia de los datos. Determinar la distribución de las variables en estudio. Aplicar el tratamiento de datos ausentes. Detectar datos atípicos. Concepto DE ANÁLISIS EXPLORATIVO DE DATOS

  4. HISTOGRAMA: Muestra la forma de distribución de los datos. Revela la presencia o no de simetria. Proporciona información respecto a la variabilidad de los datos. Ejemplo: Edades de un grupo de pacientes que participaron en la investigación. • Se observa asimetria. • Identifica datos extremos. Análisis explorativo de datos univariado

  5. DIAGRAMA DE TALLO Y HOJAS Permite obsevar al conjunto de datos como un todo y destacar algunas carcteristicas, tales como: La simetria del conjunto de datos. La variabilidad de los datos. La presencia o no de “outliers”. Concentración de los datos. Brechas en el conjunto de datos. Análisis explorativo de datos univariado Ejemplo: Edades de 100 pacientes que participaron en una investigación. • Simetria. • Normalidad. • Valor Extremo alto (89)

  6. GRÁFICO DE CAJAS (BOXPLOT) Es una presentación simple de la información que permite conocer: La localización del centro de los datos. Dispersión. • Simetria. • La extensión: • Limite Superior = (Q3 +1.5*dQ) • Limite Inferior = (Q3 -1.5*dQ) • La existencia de los valores extremos (outliers). Análisis explorativo de datos univariado

  7. El conjunto de técnicas estadísticas bivariadas difiere en función del tipo de datos de los que se dispone (niveles de medida: nominal, ordinal, intervalo, razón), adaptándose en todo momento al contexto de análisis aplicado en el que nos encontremos. De esta manera, disponemos de la Prueba de Chi-cuadrado cuando las variables son de tipo nominal o categórico, la Correlación o la Regresión Lineal cuando ambas variables son, como mínimo, de carácter ordinal, la Prueba T de Student o el ANOVA de 1 Factor cuando se persigue medir diferencias entre medias a partir de una variable categórica sobre una variable continua, etc. ANÁLISIS EXPLORATIVO DE DATOS BIVARIADO

  8. El análisis multivariante es un método estadístico utilizado para determinar la contribución de varios factores en un simple evento o resultado. Los factores de estudio son los llamados factores de riesgo (bioestadística), variables independientes o variables explicativas. El resultado estudiado es el evento, la variable dependiente o la variable respuesta. El análisis multivariante mediante técnicas de proyección sobre variables latentes tiene muchas ventajas sobre los métodos de regresión tradicionales: se puede utilizar la información de múltiples variables de entrada, aunque éstas no sean linealmente independientes puede trabajar con matrices que contengan más variables que observaciones puede trabajar con matrices incompletas, siempre que los valores faltantes estén aleatoriamente distribuidos y no superen un 10% puesto que se basan en la extracción secuencial de los factores, que extraen la mayor variabilidad posible de la matriz de las X (variables explicativas, tienen que ser dependientes) pueden separar la información del ruido. Se asume que las X se miden con ruido. ANÁLISIS EXPLORATIVO DE DATOS MULTIVARIADO

  9. Gracias por la Atención Prestada

More Related