750 likes | 969 Views
ESTADÍSTICA. Es la ciencia que se ocupa de recolectar, organizar, presentar, analizar e interpretar datos para ayudar a una toma de decisiones más efectiva. ¿Por qué estudiar estadística?.
E N D
ESTADÍSTICA Es la ciencia que se ocupa de recolectar, organizar, presentar, analizar e interpretar datos para ayudar a una toma de decisiones más efectiva.
¿Por qué estudiar estadística? La primera razón es que en todos lados encontramos información numérica. La encontramos en periódicos, revistas de información, revistas de negocios, publicaciones de interés general, revistas femeninas o revistas de deportes.
La segunda razón es se utilizan para tomar decisiones que afectan nuestra vida diaria, influyen en nuestro bienestar personal: • Compañías de seguros, para establecer tarifas de casa, automóvil, vida y salud. Existen tablas que indican la probabilidad de que a determinada edad se viva un año más, cinco años más, etc. las primas se establecen de acuerdo a estas probabilidades. • Medio ambiente, periódicamente se pueden tomar muestras de agua, aire, condiciones ambientales y establecer niveles de contaminación y tomar decisiones para mantener el nivel de calidad requerido. • Los investigadores médicos estudian las tasas de curación de enfermedades, basándose en el uso de diferentes medicamentos y distintas formas de tratamiento.
La tercera razón es que ayuda a entender por qué se toman ciertas decisiones, y aporta una mejor compresión respecto a la forma en la que nos afectan. Sin importar el tipo de trabajo nos enfrentamos con la toma de decisiones, y una comprensión del análisis de datos será de gran ayuda. Para poder tomar una decisión basada en la información , se necesita: • Determinar si la información es adecuada o si se requiere información adicional. • Reunir información adicional, si es necesario, de tal forma que no haya resultados erróneos. • Resumir la información de modo útil e informativo. • Analizar la información disponible. • Sacar las conclusiones y realizar las inferencias necesarias, al tiempo que se evalúa el riesgo de llegar a una conclusión incorrecta.
Conceptos básicos La palabra estadística proviene de una voz italiana statista que significa estadista, y fue acuñada por GottfredAchenwall (1719 – 1772). La estadística se agrupan en dos categorías: 1.- Estadística Descriptiva 2.- Estadística Inferencial. La Descriptiva, se dedica a describir los datos obtenidos en una investigación por medio de gráficas, Tablas y diagramas y facilitan su interpretación. Analiza series de datos (edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) y trata de extraer conclusiones sobre el comportamiento de estas variables. La Inferencial, es un conjunto de métodos utilizados para saber algo acerca de una población, basándose en una muestra.
Algunas definiciones • Individuo: cualquier elemento que aporte información sobre el fenómeno que se estudia. Si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. • Población: conjunto de todos los individuos que aporten información sobre el fenómeno que se estudia. • Muestra: subconjunto que seleccionamos de la población. Es representativa de la población que se estudia. Una porción, o parte, de la población de interés.
Parámetro. Es una medida numérica que describe una característica de la población. • Estadístico. Es la medida numérica que describe alguna característica de la muestra. • Variables. Son las características de los objetos o de los individuos. • Datos. Son valores observados de las variables. • Datos brutos. Cuando la información obtenida de un estudio, encuesta o experimento, no ha sido organizada, es decir, la información no ha sido procesada por métodos estadísticos.
Tipos de variables Existen dos tipos de datos: • Los obtenidos a partir de una población cualitativa. • Los que resultan de una población cuantitativa. Cuando la característica o variable en estudio es no numérica, se le denomina variable cualitativa o atributo. Ejemplos: género sexual, religión, tipo de automóvil, estado o lugar de nacimiento, color de los ojos, etc.
Cuando la variable estudiada se puede expresar numéricamente, se denomina variable cuantitativa, y la población se conoce como población cuantitativa. Ejemplos: saldo de cuenta de cheques, edad de los alumnos, duración de las calculadoras, número de alumnos, etc. Las variables cuantitativas pueden ser discretas o continua.
Las variables discretas pueden asumir sólo ciertos valores, y generalmente existen “brechas” o huecos entre ellos. Ejemplos: número de salones, cantidad de estudiantes en cada grupo del curso de estadística, etc. Las variables continuas pueden tomar cualquier valor dentro de un intervalo determinado. Ejemplos: tiempo de llegada al salón de clase, estatuta de los alumnos, etc.
Niveles de medición Los datos pueden clasificarse de acuerdo con los niveles de medición, los cuales determinan los cálculos que se pueden realizar para resumir y presentar la información, y las pruebas estadísticas que pueden desarrollarse. existen cuatro niveles de medición: • Nominal. • Ordinal. • De intervalo. • De razón. El nivel “más bajo”, o más primitivo, es el nominal. El más alto, o el que proporciona la mayor cantidad de información acerca de la observación, es el de razón.
Datos de nivel nominal Las observaciones solamente se pueden clasificar o contar. No existe algún orden específico entre las clases. Ejemplo: se cuenta el número de estudiantes de una clase de matemáticas en cierta escuela, y se reporta cuántos son hombres y cuántos son mujeres. Se puede reportar primero la cantidad de varones o la de féminas. Para el nivel nominal de medición la única medición posible es el conteo. Sólo hay dos categorías, donde no existe un orden específico (orden lógico). Tales categorías son mutuamente excluyentes (propiedad de un conjunto de categorías que implica que una persona, objeto o medición se ha de incluir en sólo una categoría). Las categorías también son exhaustivas (propiedad de un conjunto de categorías que implica que cada individuo, objeto o medición debe aparecer en sólo una categoría.
Datos de nivel ordinal Las categorías para este tipo de datos son mutuamente excluyentes y exhaustivas. Dichas categorías para los datos se clasifican por intervalos, o se ordenan de acuerdo con las características particulares que poseen. Ejemplo: las calificaciones dadas por los estudiantes a un profesor en una escuela: Calificación frecuencia Excelente 6 Bueno 28 Regular 25 Malo 12 Muy malo 3
Datos de nivel de intervalo Incluye todas las características del nivel ordinal pero, además, la diferencia entre los valores tiene un tamaño constante. Las categorías para los datos son mutuamente excluyentes y exhaustivas; están ordenadas de acuerdo con la cantidad de las características que poseen; diferencias iguales en la característica se representan por diferencias iguales en la medición. Hay pocos ejemplos de la escala de medición de un intervalo. La temperatura es uno, la medida de calzado es otro. Es importante señalar que cero es solamente un punto de la escala, y no representa la ausencia de la condición.
Datos de nivel de razón Prácticamente todos los datos cuantitativos son de este tipo de medición. Esta medida tiene todas las características del nivel de intervalo, pero además el punto 0 si tiene significado, y la razón (o cociente) entre dos número también es significativa, ejemplos: salarios, unidades de producción, el peso, la distancia entre un conjunto de escuelas, etc. la razón entre dos números también tiene significado. Las propiedades son: • Las categorías de los datos son mutuamente excluyentes y exhaustivas. • Dichas categorías tienen un intervalo u orden de acuerdo con la cantidad de las características que poseen. • Diferencias iguales en las características están representadas por diferencias iguales en los números que se han asignado a las categorías mencionadas. • El punto (o valor) 0 representa la ausencia de la característica.
Análisis Descriptivo de acuerdo al nivel de Medida No todos los procedimientos estadísticos son útiles para la totalidad de los niveles de medida. Cada uno de los tipos de medida posee ciertas características, las cuales debemos tener en cuenta en el momento de realizar un análisis descriptivo. En la siguiente tabla, se encuentran algunos de los procedimientos que resultan ventajosos en los análisis descriptivos de los diferentes niveles de medida. Esta tabla es sólo una muestra de las medidas que se pueden emplear.
Los niveles Nominal y Ordinal cuentan con los mismos procedimientos de análisis, por lo que se agrupan como variables categóricas. Para los análisis descriptivos no hay una gran diferencia entre estos dos tipos de variables, pero si existe diferencia en los análisis de Inferencia.
Distribución de frecuencia Es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia.
Ejemplo: Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (metros):
Tabla de frecuencia. Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencia:
Medidas de posición central • Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos. • Las medidas de posición son de dos tipos: • Medidas de posición central: informan sobre los valores medios de la serie de datos. • b) Medidas de posición no centrales: informan de como se distribuye el resto de los valores de la serie.
Medidas de posición central Las principales medidas de posición central son las siguientes: 1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas: a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra.
b) Media geométrica:se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos de la muestra). Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica. La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc. donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. la media aritmética es la medida de posición central más utilizada.
La más grande ventaja de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información. • Sin embargo, presenta el problema de que su valor se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.
2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores). No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido). 2
MEDIDAS DE DISPERSIÓN Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos concentrados, o más o menos dispersos. Existen diversas medidasde dispersión, entre las más utilizadas podemos destacar las siguientes: 1.- Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más bajo. 2.- Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como la sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. La sumatoria divide por el tamaño de la muestra. La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.
3.- Desviación típica: Se calcula como raíz cuadrada de la varianza. • 4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la media.
Ejemplo Vamos a utilizar la serie de datos de la estatura de los alumnos de una clase y vamos a calcular sus medidas de dispersión.
1.- Rango: Diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el rango de esta muestra es 10 cm. 2.- Varianza: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la fórmula: Por lo tanto, la varianza es 0,0010 3.- Desviación típica: es la raíz cuadrada de la varianza. 0.00320 4.- Coeficiente de variación de Pearson: se calcula como cociente entre la desviación típica y la media de la muestra. Cv = 0,0320 / 1,253 Luego, Cv = 0,0255
El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. Esto no ocurre con la desviación típica, ya que viene expresada en las mismas unidas que los datos de la serie. Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una viene expresada en cm. y la otra en Kg.). En cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar.
Histograma Para la distribución de frecuencia es la representación gráfica más común. En el eje horizontal se representan los intervalos de los datos, marcándose de manera continua las fronteras entre cada uno de los éstos. Está compuesto de rectángulos, el ancho de la base es la misma siempre y la altura corresponde a la frecuencia de cada intervalo. Resulta difícil utilizarlo cuando existen intervalos abiertos o cuando los intervalos no son iguales entre sí.
Gráfica de columnas o barras Muy parecida al histograma. Se elabora con rectángulos también, se pide que sus bases sean del mismo ancho y sus alturas equivalentes con las frecuencias. No es necesario tener una escala horizontal continua, por lo que los rectángulos (o barras) no tienen que aparecer juntas entre sí. Se pueden representar en la misma gráfica, utilizando las mismas escalas horizontales y verticales, varios datos correspondientes a las mismas variables producto de varias observaciones. Esto produce una gráfica con varias series, correspondiendo cada una de ellas a cada observación de la muestra (o población), y teniéndose una gráfica compuesta. Es conveniente que cada serie de datos (u observaciones) sean ilustradas o iluminadas de igual manera entre sí, pero distinta de las demás.
Existe la posibilidad de representar gráficos compuestos de una manera tridimensional, con gráficos que posean no sólo dos ejes, sino tres; y en los que los rectángulos son sustituidos por prismas de base rectangular
También es posible realizar gráficas de barras horizontales, la función de los ejes se intercambian y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases. Es muy común que este tipo de gráficos se utilicen para ilustrar el tamaño de una población dividida.
A este tipo de gráficos en particular se le llama pirámide de edades por su forma. Incluso, cuando se compara la población masculina y femenina por estratos de edades, se estila utiliza el lado izquierdo para la población de un sexo y el lado derecho para el otro, el resultado es una "pirámide" casi simétrica (dependerá de la población en particular).
Gráficas de líneas Se pueden utilizar cuando los datos se relacionan entre sí, cuando podemos decir que existe cierta continuidad entre las observaciones (por ejemplo: el crecimiento poblacional, la evolución del peso o estatura de una persona a través del tiempo, el desempeño académico de un estudiante a lo largo de su instrucción escolar, las variaciones presentadas en la medición realizada en algún experimento cada segundo o minuto), consiste en una serie de puntos trazados en las intersecciones de las marcas de clase y las frecuencias de cada una, uniéndose consecutivamente con líneas.
Polígono de frecuencias Se añaden dos clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje se convierte, junto con éste, en un polígono.
Ojiva Ésta se obtiene de aplicar una distribución acumulativa y existen las ojivas mayor que y las ojivas menor que. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.