390 likes | 656 Views
Estadística descriptiva Conceptos básicos. Población Muestra Variables. Población. Población: conjunto de elementos referenciado a un tiempo y espacio dados con una característica común observable o cuantificable. Si la población es finita, se dice que tiene tamaño N.
E N D
Estadística descriptiva Conceptos básicos • Población • Muestra • Variables
Población Población: conjunto de elementos referenciado a un tiempo y espacio dados con una característica común observable o cuantificable. Si la población es finita, se dice que tiene tamañoN. Ejemplo 1: Conjunto de establecimientos agropecuarios de la provincia de Córdoba. Ejemplo 2: Cabezas de ganado del Departamento Río Cuarto.
Muestra • Muestra:Subconjunto de elementos de una población. • Unidad muestral (UM): cada elemento en la muestra. • Unidad de observación (UO): Unidad en la que se recolecta la información. Puede coincidir con la UM o ser una parte de ella. • Tamaño muestral (n): número de UM en la muestra.
Muestra • Marco muestral (MM): Conjunto de unidades o grupos de unidades muestrales a las que se tiene (potencialmente) acceso en el proceso de obtención de una muestra. • Ejemplo: Si el propósito fuera estudiar el nivel poblacional de un insecto en un cultivo, las UM podrían ser las plantas, las UO tres hojas de cada planta, el MM el total de plantas en el cultivo y tamaño muestral el número de plantas a revisar.
Muestra… • ¿Todo subconjunto de una población es una buena muestra? • ¿Qué esperamos de una muestra? • ¿Qué se tiene en cuenta para diseñar un plan de muestreo?
¿Qué hacemos durante el muestreo? • Buscar las UM seleccionadas del marco muestral. • Registrar el valor o estado de las característica de interés observadas en cada UM o en cada UO seleccionada. • Repetir desde 1 hasta completar el tamaño muestral requerido Ejemplo: Evaluar la parasitosis del ganado vacuno en un departamento cordobés, El conjunto de establecimientos con actividad pecuaria son el MM Los establecimientos seleccionados del MM son las UM. Los animales de un establecimiento son UO. Para cada UM se registra el número de total animales, de animales parasitados, tipo y abundancia de bebederos, tipo de pastura, etc. CUIDADO! No invertir grandes esfuerzos en información marginal.
Tipos de variables o atributos • Cuantitativas • Discretas (característica que asume una cantidad numerable de valores posibles) • Continuas (característica que asume una cantidad infinita de posibles valores dentro de un intervalo) • Cualitativas o Categóricas • Ordinales (describen grados, como dolor leve, moderado y severo) • Nominales (describen estados como el color del tegumento de las semillas)
Tipos de variables o atributos • No todas los atributos o características de una población son de interés en un estudio. • Las características que nos interesan las podemos agrupar en: • Criterios o factores de clasificación • Variables de respuesta • Covariables
Criterios de clasificación • Sirven para agrupar los elementos poblacionales en estratos o sub-poblaciones. • La comparación de las respuestas entre estratos o subpoblaciones es una de las herramientas clásicas de la investigación en ciencias agropecuarias. • Ejemplos de criterios de clasificación son • Tipo de suelo • Cultivar • Estadio de una enfermedad • Estado fenológico de un cultivo • Marca comercial de un inóculo
Variables de respuesta • Variables cuyo nivel (cuantitativas) o estado (cualitativas) es pertinente observar en la comparación de los estratos definidos por los criterios de clasificación. • Las respuestas no son constantes dentro de cada sub-población o estrato sino que varían, de allí que se les llame simplemente variables.
Covariables • Variables cuantitativas que no son de interés excepto porque modifican la expresión de las variables de respuesta. • Se utilizan solas o en combinación con factores de clasificación para explicar parte de la variabilidad de las variable de respuesta.
Estadística descriptiva Aunque el estudio de la estadística descriptiva se puede abordar describiendo una población, en esta presentación la abordaremos desde la descripción de una muestra, que es el contexto natural de aplicación de estas técnicas. Ensayo de Rendimiento ESTADISTICA DESCRIPTIVA
Ejemplo de muestra 4803 CASOS
¿Cómo se resume la información muestral para darle significado? • Identificar la variable de interés o respuesta • Identificar factores de clasificación • Identificar covariables • Si existen factores de clasificación, es más informativo resumir la información para las distintas particiones que los factores de clasificación sugieren
¿Cómo se resume la información muestral para darle significado? • La comparación de la expresión de variables bajo distintas condiciones conduce al desarrollo de técnicas estadística para describirlas de manera simple. • Los métodos de comparación se basan en la contratación de las distribuciones de frecuencias o en la comparación de las medidas resumenque caracteriza a la distribución de frecuencias.
Distribución de frecuencias • Llamaremos distribución de frecuencias a la colección de frecuencias relativas... • ...de los distintos estados de una variable cualitativa, • ...de los distintos valores que puede tener una cuantitativa discreta. • Para el caso de variables cuantitativas no discretas, como el rendimiento de un cultivo, la superficie foliar de una planta, el contenido de nitrógeno del suelo, etc., daremos una definición más adelante.
Distribución de frecuencias • Cuando la variable de respuesta es cualitativa o cuantitativa discreta, la distribución de frecuencias tiene una interpretación directa. • Las técnicas estadísticas para comparar estas distribuciones son también directas.
Tablas de frecuencias Variable: Número de cochinillas Clase MC FA FR 1 0 829 0.18 2 1 519 0.11 3 2 693 0.15 4 3 740 0.16 5 4 704 0.15 6 5 586 0.13 7 6 544 0.12
Representación gráfica de la distribución de frecuencias 0.25 Diagrama de barras 0.20 Frecuencia relativa 0.15 0.05 0.00 0 1 2 3 4 5 6 Total
Distribución de frecuencias... • La distribución de frecuencias de una variable cuantitativa continua, como puede ser el rendimiento, la superficie foliar, el peso del grano, etc., no tiene una representación natural en tablas. • La presentación de una tabla de frecuencias requiere la previa categorización de estas variable.
Tablas de frecuencias para variables cuantitativas continuas Variable: Peso de la cabeza de ajo Clase LI LS MC FA FR 1 7.00 21.30 14.15 114 0.07 2 21.30 35.60 28.45 362 0.23 3 35.60 49.90 42.75 369 0.23 4 49.90 64.20 57.05 264 0.16 5 64.20 78.50 71.35 189 0.12 6 78.50 92.80 85.65 145 0.09 7 92.80 107.10 99.95 83 0.05 8 107.10 121.40 114.25 41 0.03 9 121.40 135.70 128.55 32 0.02 10 135.70 150.00 142.85 8 0.005
Distribución de frecuenciasVariables continuas • La definición de categorías es arbitraria. • La comparación de distribuciones de frecuencias de variables continuas se basa en la comparación de parámetros que caracterizan a esas distribuciones.
Estadísticas descriptivas • Son funciones de los valores observados en la muestra. Podemos citar... • La media • La mediana • Los cuantiles de la distribución de frecuencias • La desviación estándar • La varianza • Error estándar • Coeficiente de variación • Recorrido intercuartílico • .............
Medidas resumen • Las tablas de frecuencia y sus representaciones gráficas son útiles a los fines descriptivos. • Cuando la variable es cuantitativa, estas descripciones pueden ser aún, poco prácticas a los fines comparativos • Por ello se utilizan medidas resumen que caracterizan a estas distribuciones.
Media • Para una población de tamaño N, la media de una variable Y se define como la suma de todos los valores de Y dividida N.
¿Qué representa la media, como resumen de la distribución de frecuencia? =30 =40 =45
Varianza • Para una población de tamaño N, la varianza de una variable Y se define como la suma de todas las diferencias al cuadrado entre los valores de Y y la media, dividida N.
¿Qué representa la varianza, como resumen de la distribución de frecuencia? 2=0.4 2=1 2=2
Desviación estándar • Los estadísticos prefieren trabajar con la varianza de una distribución, como medida de su variabilidad. • A los fines de presentar los resultados es preferible utilizar la desviaciónestándar ya que se expresa en las misma unidades que la variable original.
Coeficiente de variación • A veces es más util mostrar la variabilidad de una característica en relación a su valor medio. En este caso utilizamos el coeficiente de variación.
Percentiles • El percentil p% es el valor de la variable aleatoria que deja por debajo de el, p% de los datos ( y por encima (100-p)%). • Por ejemplo, el percentil 25% de una variable, es el valor que supera al 25% de todos los valores de esa variable en la población y es superado por el 75% restante.
Ejemplo de percentiles Estadística descriptiva Resumen peso n 1607 Mín 7 Máx 150 P(05) 18.6 P(10) 23.9 P(25) 32.9 P(50) 47.7 P(75) 70.1 P(90) 93.5 P(95) 107.2
Mediana • Es el punto central de una distribución de frecuencias • Corresponde al percentil 50% • Es una medida resumen resistente a valores extremos y por ello se dice robusta • La comparación de la media y la mediana de una distribución permite evaluar si esta es simétrica o no.
Representaciones gráficas de medidas de resumen • Diagramas de barras • Diagramas de puntos • Diagramas de cajas • Polígonos de frecuencias relat. acum. Algunas de estas técnicas solo tienen sentido práctico cuando se comparan dos o mas subpoblaciones