620 likes | 832 Views
Ejercicios de repaso . Tterreno.sav ¿los cohes de 4 cilindros consumen en promedio lo mismo que los de 6 a 90, 120 o urbano? Parametrico y no paramétrico Tablas cruzadas c1 directivos y e6 estudios procedencia Archivo: trabajo.sav ¿relación entre sexo (c1) e idelología (c9)?
E N D
Ejercicios de repaso • Tterreno.sav • ¿los cohes de 4 cilindros consumen en promedio lo mismo que los de 6 a 90, 120 o urbano? Parametrico y no paramétrico • Tablas cruzadas c1 directivos y e6 estudios procedencia • Archivo: trabajo.sav • ¿relación entre sexo (c1) e idelología (c9)? • Muestrea los residentes de Andalucia y Aragon (c15) y elige el 20% de cada uno ellos
EJERCICIOS REPASO FACTORIAL Y CLUSTER • ARCHIVO DE CC.AA.sav, realiza el análsis cluster en 2 etapas, jerárquico y no jerárquico. Graba las variables para utilizarlas en otros análisis, ¿existen diferencias entre criterio jerárquico y no-jerárquico?? • Análisis factorial con trabajo.sav (b13 a b21): ¿mejora el análisis si elimino alguna variable siguiendo la comunalidad? • Análisis factorial con facto1.
Ejercicios de repaso • Con el fichero de xls de trabajo de IMD realizar descriptivos y factorial y cluster. variables capital humano, ……..
REGRESION LINEAL • TRATAMOS DE EXPLICAR UNA VARIABLE DEPENDIENTE (EXPLICADA) MÉTRICA A TRAVÉS DE VARIABLES INDEPENDIENTES (EXPLICATIVAS) MÉTRICAS. • UNA INDEPENDIENTE, REGRESION SIMPLE • DOS O MÁS INDEPENDIENTES, REGRESIÓN MÚLTIPLE
REGRESION LINEAL • La F (Anova) nos da información sobre si el modelo es globalmente significativo, válido, si bien eso no implica que todas las variables sirvan • Por lo tanto, hay que ver como contribuye cada variable independiente a la explicación, en signo (sentido), valor (intensidad) y validez (significatividad) • La R2 (R cuadrado corregida) es el grado de la bondad del ajuste, que significa la calidad del ajuste, o el % en el que la variable dependiente es explicada por las independientes • Ejemplo: R2 = 0,8, significa que el 80% de la variable está explicada por las variables independientes.
REGRESIÓN LINEAL • Una vez hemos obtenido las β o estimadores (predictores) podremos predecir la variable dependiente para el sujeto n+1 • Por lo tanto es una técnica de ajuste y predicción. • Si hay varias variables la explicación se hará en unidades estandarizadas, en β estandarizadas • Si hay variables no métricas entonces realizaremos la trampa de las ficticias, interpretando sobe la omitida
EJERCICIOS • INTERPRETACIÓN DEL EJERCICIO EN CLASE (EXPLICACIÓN SUELDO, PP.315) • ¿Cómo realizaríamos la predicción si un nuevo individuo tiene 35 años de edad, lleva 3 en la empresa, es mujer, tiene estudios universitarios (1), 2 hijos y categoría media laboral? • ESPECIFICA EL MODELO E INTERPRETA
REGRESION LINEAL • FICHERO TTERRENO.SAV • ¿PODEMOS EXPLICAR EL PRECIO (PVP) A TRAVÉS DE EL PESO Y LA POTENCIA? ¿QUÉ INTERPRETACIÓN TENDRÍA? • FICHERO TTERRENO.SAV • ¿PODEMOS EXPLICAR EL CONSUMO A 120 KM/H A TRAVÉS DE LA CILINDRADA, CC? ¿QUÉ INTERPRETACIÓN TENDRÍA?
EJERCICIOS • FICHERO TRABAJO.SAV • SE PUEDE EXPLICAR LA SATISFACCIÓN EN EL TRABAJO (b36) con las VARIABLES DESDE b22 hasta b32? • ¿cuáles son las variables que realmente contribuyen al model y con las que podríamos resumir toda la información para explicar la SATISFACCIÓN (b36)?
Regresión… • Podemos sufrir el problema de COLINEALIDAD o Correlación entre las variables INDEPENDIENTES, en este caso, se pueden enmascarar variables buenas, con pobres betas por culpa de la influencia de otras variables……
ANÁLISIS DISCRIMINANTE y REGRESIÓN LOGÍSTICA El análisis discriminante y la regresión logística son técnicas SIMILARES A LA REGRESIÓN; son estadísticas apropiadas cuando la variable dependiente es categórica (NOMINAL) y las variables independientes son métricas. A MODO DE REPASO, TANTO FACTORIAL COMO CLUSTER Y DISCRIMINANTE, TODAS LAS MULTIVARIANTES FUNCIONAN MEJOR CON DATOS MÉTRICOS
ANÁLISIS DISCRIMINANTE y REGRESIÓN LOGÍSTICA • El A.D. tiene la capacidad de tratar tanto dos grupos como grupos múltiples (tres o más). Sin embargo, no tiene la misma interpretación directa que la regresión • La regresión logística o análisis logit, está restringida en su forma básica a dos grupos, a una respuesta dicotómica, si bien es más estable y presenta mejores propiedades que el AD. • No se basa en una distribución paramétrica • Tiene interpretación directa como la regresión
AD y Regresión logística • AD lo utilizaremos cuando su variable dependiente o explicada es categórica, pudiendo representar más de dos respuestas o categorías • EJEMPLO: SUBESPECIE • A • B • C • D • EJEMPLO: TIPO DE EMPRESAS • EXCELENTE (GACELA) • SUPERVIVIENTE • RETRASADA (TORTUGA) • EJEMPLO: CLASIFICACIÓN IDEOLÓGICA • DERECHA • CENTRO • IZQUIERDA
Regresión logística • El LOGIT, sólo admite una respuesta (variable explicada o dependiente) DICOTÓMICA (2 CATEGORÍAS) • VOTACIÓN ELECCIONES • PP • PSOE • EJEMPLO: DEPARTAMENTO DE MK • SI • NO
REGRESION LOGISTICA • Son técnicas de PREDICCIÓN • TENEMOS LOS GRUPOS ESTABLECIDOS A PRIORI • POR EJEMPLO, DESPUÉS DE HABER REALIZADO UN ANÁLISIS CLUSTER Y OBTENIDO DIFERENTES SEGMENTOS DE MERCADO O DIFERENTES GRUPOS (2) • QUEREMOS SABER QUE VARIABLES DISCRIMINAN A LAS OBSERVACIONES A QUE PERTENEZCAN A UNO U OTRO GRUPO O CATEGORÍA. ES DECIR, QUEREMOS SABER QUÉ VARIABLES HACEN QUE LOS INDIVIDUOS PERTENEZCAN A UNO U OTRO GRUPO
Regresión logística • LO QUE NOS INTERESA ES DETERMINAR QUE VARIABLES INDEPENDIENTES EXPLICAN LA PERTENENCIA A UN DETERMINADO GRUPO • SI LO AVERIGUAMOS, PODREMOS PREDECIRYA QUE PARA NUEVAS EMPRESAS O PERSONAS EN LA MUESTRA PODREMOS PRONOSTICAR A QUÉ GRUPO PERTENECERÍA
UTILIDADES DE LAS HERRAMIENTAS • UTILIDADES • EMPRESAS: EL QUE LA EMPRESA SOBREVIVA (1) O QUIEBRE (0) • QUE LA EMPRESA EXPORTE O NO • QUE LOS CONSUMIDORES COMPREN (1) O NO(2) • MÉDICAS • POR EJEMPLO, SI DETERMINAMOS LAS VARIABLES QUE EXPLICAN EL SUFRIR (1) O NO SUFRIR (0) UN ATAQUE AL CORAZÓN PODREMOS PRONOSTICA LA POSIBILIDAD O PROBABILIDAD DE QUE LAS PERSONAS EN FUNCIÓN DE SU CONDUCTA SUFRAN O NO EL ATAQUE
Regresión logística • Ofrece una medida de ajuste o bondad expresada como • -2 log. Verosimilitud (-2LL) cuanto MÁS BAJA mejor, cero sería lo perfecto. Además, se apoya en una Chi-Cuadrado, que nos corrobora la VALORACIÓN GLOBAL DEL MODELO, lo que tampoco implica (como en la regresión) que todas las variables sean buenas. • El grupo de menos individuos, normalmente el que toma valor 0, debe tener más individuos que el número de variables y, además, como mínimo el 10% de la muestra total.
Regresión logística • Se ofrece la Matriz de clasificación o confusión, donde se recogen los valores observados y los predicted para evaluar, con las variables que hemos utilizado, si el modelo es capaz o no de predecir la pertenencia de un individuo a uno u otro grupo • Posteriormente, debemos evaluar la contribución de cada variable (Significatividad) y la interpretación de las mismas como la influencia significativa (+) positiva o negativa (-) en la probabilidad de pertenecer al grupo 1. No obstante la intensidad de la influencia NO SE INTERPRETA COMO EN LA REGRESIÓN, sino en el cambio exponenecial que debe estar alejado de 1 por arriba (+) o por abajo (-)
Regresión logística: ejercicios • Ejercicio de predicción de quiebra empresarial (AMD-Levy) • ¿Cómo funciona el modelo? • ¿Qué variable es la más importante?
ANÁLISIS DISCRIMINATE • El análisis discriminante permite determinar cuáles son las variables (de entre la serie de variables seleccionadas previamente por el investigador), que mejor explican la pertenencia de un individuo a un grupo determinado (Pedret et al., 2000:228). En otras palabras, tratamos de determinar si un conjunto de variables pueden explicar la pertenencia a un grupo previamente determinado por el investigador
ANÁLISIS DISCRIMINANTE • La ecuación lineal discriminante, similar a una regresión múltiple, es la siguiente: • D = B0 + B1 X1 + B2 X2 + ……..+ Bp Xp • Donde Xi son las variables independientes, B0 es la constante y Bi son los coeficientes estimados a partir de los datos originales de modo que los valores de la función difieran el máximo posible entre los diferentes grupos.
ANÁLISIS DISCRIMINANTE • Muestra total: relación óptima de 20 a 1. Mínima de 5 a 1. • El grupo de menos individuos tiene que ser como mínimo mayor que el número de variables • La regla general es que cada grupo tenga al menos 20 individuos. • ESTIMARÁ TANTAS FUNCIONES DISCRIMINANTES COMO GRUPOS MENOS 1 • SI POR EJEMPLO HAY 3 GRUPOS CON UNA SOLA FUNCIÓN PUEDE DISCRIMINAR ENTRE EL 3 Y 2 PERO NO 1 Y 2
Análisis discriminante • LAS PONDERACIONES o CARGAS FACTORIALES ESTANDARIZADAS, SEÑALAN EL SIGNO Y CUANTÍA QUE CADA VARIABLE TIENE DE DISCRIMINACIÓN. • Es la contribución de la variable a la función discriminante • Funciona como las β de la regresión, si bien el signo no importa • La Matriz de estructura nos ordenará la importancia en términos de contribución de cada variable • El stepwise es muy válido para quedarnos las que realmente importan
Análisis discriminante • LA CAPACIDAD DE PREDICCIÓN O POTENCIA DE CLASIFICACIÓN LA OBSERVAREMOS EN LA “MATRIZ DE CONFUSIÓN”, QUE CLASIFICA LOS GRUPOS OBSERVADOS (A PRIORI) Y LOS ESTIMADOS CON LAS VARIABLES INDEPENDIENTES
LA IGUALDAD DE MEDIAS (COMPARACIÓN DE MEDIAS) UTILIZA UNA F, COMO EL ANOVA UN FACTOR Y ME DICE QUE TODAS LAS VARIABLES FUNCIONAN COMO DISCRIMINANTES
EL M-BOX ME INDICA SI REALMENTE HAY DIFERENCIAS ENTRE LOS GRUPOS (MATRICES DE COVARIANZAS) ES COMO EL KMO Y BARLETT DEL FACTORIAL, ME INDICA SI LA PRUEBA PUEDE FUNCIONAR, SIN EMBARGO, NO ES TAN ESTRICTO COMO EN EL CASO FACTORIAL
EN ESTE CASO, 3 FUNCIONES DISCRIMINANTES PORQUE HEMOS TRABAJADO CON 4 GRUPOS; LAS TRES SON SIGNIFICATIVAS
LA MATRIZ DE CONFUSIÓN NOS INDICA QUE CAPACIDAD DE CLASIFICACIÓN O PREDICCIÓN TIENE EL MÉTODO, COMPARANDO LOS CASOS PRONOSTICADOS Y COMPARÁNDOLO CON LOS GRUPOS A PRIORI.
EJERCICIOS DISCRIMINANTE • EJERCICIO DISCRIMINANTE • ARCHIVO: 13.1 • ESTUDIOS (EGB, BUP FP) POR LA • EDAD • HABITAT • Nº LIBROS LEIDOS • HORAS TV • NOTA MEDIA • NUMERO HERMANOS • MUNDO.SAV • CLIMA (TROPICAL, MEDITERRANEO O TEMPLADO) CON • INGESTA CALORÍAS • PIB-CAP • % HABITANTES CIUDADES • POBLAC
EJERCICIOS DISCRIMINANTE • TRABAJO.SAV B1 (DEPENDIENTE, DICOTOMICA) C1 (CATEGORIACA), C2, C6 TODO ELLO EN INDIVIDUOS DE MENOS DE 60 AÑOS • ARCHIVO: TERRENO.SAV • CILINDRO (4,5,6,7,8) • TODAS LAS VARIABLES MENOS MARCA
EJERCICIOS DISCRIMINANTE • 11.1 (CANCER) • NODOS (DEPENDIENTE, DICOTOMICA) • EDAD • ACIDO • GRADO • ETAPA • RADIOGRAFÍA • REVALORIZACIÓN PV • ARCHIVO: CRECIMIENTO • GENERO (NIÑO/NIÑA) • DISTANCIA • EDAD
EJERCICIOS DE PRÁCTICA CLUSTER • Archivo: mundo.sav • Variables: • Alfabetización (alfabet) • Incremento población (inc_pob) • Esperanza vida femenina (espvidaf) • Mortalidad infantil (mortinf) • Numero promedio hijos mujer (fertilid) • Tasa natalidad (tas_nat) • Log_pib • Urbana • Tasa mortalidad (tasa_mor)
Ejercicios práctica: FACTORIAL • ARCHIVO: FACTO2.SAV • PRINCIPLES EMPRESAS ESPAÑOLAS • CASH/VENTAS; INMOVILIZADO/ACTIVO; VENTAS /PALANTILLA; VENTAS/ACTIVO; BEFOS /VENTAS; VENTAS / INMOVILIZADO
Ejercicios de repaso • Fichereo: comparación medias y tablas.xls • Averigua: si existe relación de contingencia entre el tamaño y el pertenencer a un instituto • Existen diferencias entre la imagen y el tamaño, y entre los productos y el tamaño • Existen diferencias entre el tamaño y las rentabilidades 94?? • Antes debes analizar los datos • Fichero: comparación medias.xls • Realizar una prueba para averiguar si el tamaño nos lleva o no a una diferente variedad de productos • Antes, realiza un estudio de los datos