1 / 28

Variables numèriques

Variables numèriques. Taules de freqüències: sense agrupar en intervals agrupant les dades en intervals Descriptius de posició: - de dispersió: la moda ■ el rang

bazyli
Download Presentation

Variables numèriques

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Variables numèriques Taules de freqüències: sense agrupar en intervals agrupant les dades en intervals Descriptius de posició: - de dispersió: la moda ■ el rang la mediana i els percentils ■ el rang inter-quartil la mitjana ■ la variància ■ la desviació típica Gràfiques: diagramade caixa, histograma i polígon de freqüències, ogiva de freqüències acumulades La forma de les distribucions: asimetria i curtosi Un exemple de variable numèrica discreta: estudi complert Un exemple de variable numèrica contínua: estudi complert

  2. Taules de freqüències per a variables numèriques • Consisteixen en un resum dels valors que pren la variable qualitativa, amb el recompte del nombre d’aparicions per a cada valor, els seus percentatges i els percentatges acumulats. • Distingirem dos casos: • Si la variable pren pocs valors diferents: taula de freqüències amb tots els valors • Si la variable pren molts valors diferents: dades agrupades en intervals. • Els intervals poden ser d’igual o de distinta amplitud. • Quan hi ha intervals, cal tenir present: l’amplitud, el punt mitjà, etc • Si els intervals són de diferent amplitud, cal calcular les altures

  3. notes notes Variables amb pocs valors diferents: no cal agrupar en ntervals Exemple: Variable notes matemàtiques a les PAU. Pag. 21 Si volguéssim fer nosaltres la taula, hauríem d’obtenir les freq. Relatives. Vegeu l’exercici següent. Obtenim un resum satisfactori de les dades

  4. Variables amb pocs valors diferents: no cal agrupar en intervals Exercici 1: completeu la taula de freqüències

  5. Variables amb molts valors diferents: agrupar en intervals Exemple: Variable edat població de Catalunya Pag. 22 Si poséssim totes les edats, el resum no seria satisfactori: taula massa llarga !! Agrupar en intervals implica perdre informació [0,5)

  6. Dades agrupades en intervals.Pag. 23 • intervals (enganxats) • amplitud • punt mitjà o marca de classe • Encara perdem més informació! Amplitud o longitud Intervals enganxats Freq. acumu-lades Punt mitjà o marca de classe Freq. absolutes El darrer interval no sabem on acaba % % acumulats El darrer punt mitjà és desconegut. L’hem determinat per coherència amb els altres

  7. Quants intervals convé considerar i de quina amplitud? • Si no tenim cap altre criteri: pag. 25

  8. Exercici 2: Agrupeu les següents dades en intervals • Calculeu el nombre d’intervals: • Calculeu l’amplitud dels intervals: • Completeu la taula següent:

  9. edats Freqüències d’una variable numèrica Sense agrupar en intervals: Avantatges: no hem perdut informació; tots els càlculs dels descriptius seran exactes Inconvenients: poc resumit; les freqüències són molt baixes, hi ha molts valors diferents

  10. Descriptius de posició: dades sense agrupar en intervals • Els resultats són exactes, doncs tenim tota la informació Moda:Hi ha massa modes (la freqüència més alta és 2). La moda no és representativa, no en donem cap valor. Mediana:És el valor 56.5 atès que hi ha un % acumulat igual al 50%, cal fer la mitjana entre aquest valor i el següent. Md=56.5. Recordem que la mediana és el centil 50. Centils o percentils:El percentil o centil 40 és el valor 53, doncs li correspon el primer percentatge acumulat que supera el 40%: C40= 53 El percentil o centil 75, que és el tercer quartil, és el valor 65: C75= Q3= 65 que té el primer percentatge acumulat que supera el 75% El percentil o centil 25, que és el primer quartil, és un valor entre 43 i 45, atès que el valor 43 té un percentatge acumulat igual al 25%. L’SPSS fa la mitjana ponderada entre aquests dos valors: 0.75 x 43 + 0.25 x 45 = 43.5 C25= Q1= 43.5 Què signifiquen? Que el centil 40 sigui 53, vol dir que com a mínim el 40% de les dones d’aquest grup tenen 53 anys o menys.

  11. La mitjana aritmètica És la suma de totes les observacions dividida pel nombre total d’observacions. Si les tenim agrupades en freqüències, cal multiplicar cada valor per la seva freqüència, sumar i dividir pel nombre total d’observacions.

  12. Càlcul de la mitjana per a les dades amb freqüències Aquesta taula NO la fa l’SPSS El càlcul és exacte, tenim tota la informació.

  13. Descriptius de dispersió: dades sense agrupar en intervals Els resultats són exactes, doncs tenim tota la informació Les mesures de la dispersió de les dades acompanyen les característiques de posició. Quan menor és la dispersió, més homogènies són les dades i més concentrades entorn de les característiques de posició central, i per tant, més representatives són aquestes. Són apropiades per a variables numèriques (les variables amb una escala ordinal prou fina es poden considerar numèriques) Rang, recorregut o amplitud:Distància entre el màxim i el mínim; és el recorregut del 100% de les dades R= Max – Min= 89-12 = 77 (edat de 40 dones) • fàcil de calcular • poc sensible i representativa: només hi intervenen 2 observacions Rang inter-quartil:Distància entre els quartils tercer i primer; és el recorregut del 50% de dades centrals RI= Q3 – Q1 = 65- 43.5 = 21.5 (edat de 40 dones) • no tant fàcil de calcular: necessita els quartils • més sensible i representativa: hi intervenen les posicions de totes les dades Variància i desviació típica (pag. Següent)

  14. La variància pag 50

  15. Interpretació i càlcul de la variància pag 51

  16. La desviació típica pag 52 És l’arrel quadrada de la variància • Té les mateixes unitats que la variable, mentre que la variància les té al quadrat • Dues desviacions típiques més enllà de la mitjana cobreixen com a mínim el 75% de les observacions. Si la forma és normal, cobreixen el 95.5% de les observacions

  17. Resum de descriptius de posició i de dispersió, amb l’SPSSl’Spss només calcula la variància i desviació típica mostrals Edats de 40 dones

  18. El coeficient de variació pag 53 • És una mesura de la dispersió en relació a la mitjana • És un coeficient estàndard (sense unitats) • Permet comparar les dispersions de dues variables no necessàriament mesurades en les mateixes unitats • Si és superior al 100% vol dir que la desviació típica és superior a la mitjana • Només és per a variables positives

  19. Càlcul del CV • Él càlcul no el fa l’SPSS directament, cal fer una petita operació • Per aquest ordre, X2, X3 i X1 són les variables amb més dispersió relativa a la mitjana, i per tant, les que discriminen més entre els països

  20. Gràfiques per a variables numèriques:diagrama de caixa

  21. Gràfiques per a variables numèriques: histograma • Correspon al següent agrupament amb intervals:

  22. Per a les dades d’edat agrupades en 6 intervals: podem calcular aproximadament (!) els descriptius

  23. Gràfiques per a variables numèriques: histograma • Les àrees són proporcionals a les freqüències dels intervals.Pag. 30 • Cas d’intervals d’igual amplitud:base= amplitud,altura = freqüència Exemple:Variable evf (esperança de vida femenina). Casos: països. Sense ponderarPonderant per població Intervals enganxats Punts mitjans Amplitud 5

  24. Gràfiques per a variables numèriques: histograma i polígon pg 31 El polígon es fa unint les bases superiors dels rectangles • Àrea sota el polígon = àrea sota l’histograma

  25. Gràfiques per a variables numèriques: ogiva de freqüències acumulades pg 31 ogiva de freq. acumulades ogiva de % acumulats Mateix aspecte, només canvia l’escala Trams amb més pendent: notes més freqüents

  26. Variables numèriques: dades agrupades en intervals de diferent amplitud • Les àrees de l’histograma han de ser sempre proporcionals a les freqüències dels intervals. • Cal calcular: base= amplitud, altura = freqüència/amplitud Variable:notes, agrupades en intervals de diferent amplitud

  27. Histograma, amb intervals de diferent amplitud Pag. 32 Gràfica errònia: l’àrea no és proporcional a la freqüència. Es magnifiquen els intervals grans Sembla que aprovin molt pocs! Gràfica correctal’àrea és proporcional a la freqüència. Aprova un 41.6% dels estudiants

  28. Descriptius: cas d’intervals de diferent amplitud • Són aproximats perquè tenim dades agrupades en intervals (tant si els intervals són d’igual com de distinta amplitud). • Tots els descriptius de posició (excepte la moda) i de dispersió es calculen de la mateixa manera que si els intervals fossin d’igual amplitud. • La moda es calcula tenint en compte la màxima altura: L’interval modal és el que té màxima altura, és a dir, màxima freqüència per unitat d’amplitud. La moda (aproximada) és el punt mitjà d’aquest interval.

More Related