1 / 33

Trasformacije za postizanje normaliteta

R eferalni centar za analizu podataka i statistiku za potrebe akademske i istraživačke zajednice (RC APIS). Trasformacije za postizanje normaliteta. % SYMBOX macro Autor: Nataša Tepić, NCVVO e-mail: ntepic@ncvvo.hr. Uvod.

Download Presentation

Trasformacije za postizanje normaliteta

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Referalni centar za analizu podataka i statistiku za potrebe akademske i istraživačke zajednice (RC APIS) Trasformacije za postizanje normaliteta %SYMBOX macro Autor: Nataša Tepić, NCVVO e-mail: ntepic@ncvvo.hr

  2. Uvod • velik broj statističkih metoda zahtjeva normalno distribuirane podatke • ukoliko oni to nisu, moguće ih je podvrgnuti nekoj transformaciji koja će ih transformirati na takav način da njihova distribuciju postane normalna • najčešće se koriste transformacije za uklanjanje asimetrije (lijevi/desni rep)

  3. Uvod • za uklanjanje lijevog repa koristi se kvadriranje, tj. potenciranje na potenciju 2 • za uklanjanje desnog repa koriste se transformacije kao što su: • korijen • logaritam log Y • inverz 1/Y • poredak transformacija po jačini sabijanja desnog repa prema manjim vrijednostima je: • korijen • logaritam log Y • inverz 1/Y • Inverzi potencija višeg reda 1/Yn

  4. ovisno o jačini asimetrije empirijske distribucije, potrebno je naći prikladnu transformaciju

  5. Napomena

  6. transformacije se ISKLJUČIVO smiju primjeniti tako da se primjenjuju JEDNAKO na sve podatke, odnosno da su MONOTONE • navedene transformacije mogu se primjeniti samo na podacima koji su pozitivni i nisu jednaki 0 (logaritamska i inverz transformacija) pa je podatke potrebno skalirati prije primjene transformacije

  7. Simetričnost empirijske distribucije SAS %SYMBOX macro Autor: Michael Friendly, York University; verzija 1.2 (13.01.2006.) http://euclid.psych.yorku.ca/ftp/sas/macros/symbox.sas

  8. Uvod • SYMBOX macro program olakšava pronalaženje prikladne transformacije za smanjivanje asimetrije empirijske distribucije • taj macro program može istovremeno nekoliko varijabli transformirati na nekoliko načina

  9. Uvod • u BOXPLOT macro programu (sastavni dio SYMBOX programa) može se koristiti i varijabla za grupiranje koja može biti numerička ili kategorijalna te se mogu prikazati grupni stratificirani boxplot dijagrami • kao rezultat rada, SYMBOX macro program kreira boxplot dijagram s transformiranim i “sirovim” podacima za svaku pojedinu varijablu

  10. Uvod • SYMBOX macro program pronalazi sljedeće transformacije: • POWERS = -n inverz potencije n • POWERS = md korijen m-tog reda prikazan kao decimalni broj (pr. 0.5 za drugi korijen) • POWERS = 0 dekadski logaritam • prikaz “sirovih” podataka definira se naredbom: • POWERS = 1

  11. Uvod interkvartilni raspon IQR 3. kvartil Q3 • boxplot dijagram za svaku grupu prikazuje mjere lokacije kao što su medijan, kvartili i aritmetička sredina, dok whisker linije prikazuju vrijednosti koje su udaljene 1,5 puta više od interkvartilnog raspona (taj faktor se može promijeniti naredbom OFACTOR=) • opservacije koje su izvan boxplot dijagram, prikazuju se zasebno simbolom medijan sredina 1. kvartil Q1 whisker linija najmanja ne-atipična vrijednost Q1−1,5*IQR

  12. Uvod • pomoću macro programa traži se transformacija koja će dati simetrični boxplot dijagram (medijan i aritmetička sredina na istom mjestu, udaljenosti između Q1 i Q2 kao i Q2 i Q3 identične, whisker linije iste dužine, bez postojanja atipičnih vrijednosti)

  13. boxplotovi se mogu međusobno uspoređivati obzirom da su svi standardizirati, odnosno prikazuju distribucije čija je aritmetička sredina 0 i standardna devijacija 1 Uvod

  14. uspoređujući sirove podatke koji imaju izraziti desni rep s predloženim transformacijama, može se uočiti kako je korijen (Sqrt) transformacija nedovoljno jaka za ove podatke te su whisker linije različitih duljina. Inverz transformacije (inverz -1/X i inverz korijena -1/Sqrt) na ovim podacima su neprikladne te povećavaju asimetriju u lijevu stranu. Primjer

  15. od predloženih transformacija, logaritamska transformacija (Log) čini se najprikladnija za umanjivanje asimetrije prikazanih podataka je li odabrana transformacija, u ovom slučaju logaritamska, dovoljna za postizanje normalne distribucije podataka potrebno je ispitati prikladnim testom za normalitet; recimo u SAS/INSIGHT modulu Primjer

  16. Postupak korištenja: • snimite SYMBOX.SAS datoteku u kojoj se nalazi macro program na željenu lokaciju na tvrdom disku • zatim u programu SAS otvorite SYMBOX_EX.SAS datoteku i modificirajte ju prema vlastitim potrebama te ju submitirate

  17. Postupak korištenja: • ako vaši podaci imaju negativne vrijednosti, potrebno ih je prvo skalirati, odnosno svesti ih na pozitivne vrijednosti (ne uključujući 0 jer inverz i logaritamska transformacija nisu definirane za 0) • najjednostavnije je oduzeti vrijednost minimuma uvećanu za neku malu vrijednost (pr. 1%, ali izražen kao broj, a ne kao postotak zbog slučajeva kada je minimum jednak 0) Primjer. xs= xi-(max(xi)-0,01)

  18. Program symboxPRIMJER %inc "<lokacijadatoteke/symboxRCAPIS.sas>"; %symbox (data=biblioteka.datoteka-s-podacima, var=popis-varijabli-za-testiranje) Primjer: %inc “C:\SASuser\symboxRCAPIS.sas"; %outlier(data=work.podaci, var=salinitet temperatuta gustoca) • program SYMBOX_EX.SAS je vrlo jednostavan i dovoljne su samo 2 linije koda; jedna za pozivanje macro programa i druga za određivanje dataseta kao i varijable koja će se transformirati

  19. Program symboxPRIMJER • osim osnovnih postavki, program SYMBOX_EX.SAS je moguće dodatno modificirati • opcije za modifikaciju se unose u zagradu u naredbi %symbox( ) i odjeljuju se međusobno zarezom • opcije za modifikaciju se odnose na: • analizu (naredba %symbox) • grafički prikaz (naredba %boxplot)

  20. Modifikacija programa • DATA= naredba u kojoj se definira smještaj i ime datoteke (Default: DATA=_LAST_) • VAR= lista numeričkih varijabli koje će biti transformirane (Default: VAR=_NUMERIC_) • POWERS= -1 0.5 0 1 (negativne vrijednosti se odnose na inverze, 0 na dekadski logaritam, manje od 1 na korjene, a 1 na “sirove” podatke) • OUT= izlazni dataset za izradu grafikona (Default: OUT=SYMOUT) • NAME= ime grafikona (Default: NAME=SYMBOX)

  21. Skaliranje podataka

  22. Skaliranje podataka • u drugom dijelu programa SYMBOX_EX.SAS svaka numerička varijabla koja će biti transformirana prvo je svedena na domenu pozitivnih brojeva (bez uključene 0) • procedurom PROC SQL sve su varijable iz tablice PODACI prenesene u tablici SKALAR te im je određena minimalna vrijednost naredba: min(ime-originalne-varijable) as ime-varijable-koja-je-minimum-originalne-varijable Primjer: min(pH) as minpH,

  23. Skaliranje podataka • nakon toga se stvara tablica PODACI koja je identična tablici SKALAR te se u njoj pod imenom originalne varijable kreira varijabla čijim je vrijednostima oduzet njezin minimum naredba: ime-originalne-varijable = ime-originalne-varijable – (ime-varijable-koja-je-minimum-originalne-varijable --0.0001); Primjer: pH= pH - (minpH-0.0001);

  24. Modifikacija programa – BOXPLOT macro

  25. Modifikacija programa – BOXPLOT macro • SYMBOX macro program koristi BOXPLOT macro program za izradu boxplot dijagrama • za promijenu njegovih standardnih opcija potrebno je izmijeniti postavke unutar samog macro programa koji se nalazi u SYMBOX.SAS datoteci (između 158. i 917. linije programskog koda)

  26. Modifikacija programa – BOXPLOT macro • SYMBOX macro program koristi i BOXPLOT macro program kojem se mogu mijenjati sljedeće opcije: • DATA= naredba u kojoj se definira smještaj i ime datoteke (Default: DATA=_LAST_) • CLASS= varijabla za grupiranje; može biti numerička ili kategorijalna; moguće je korištenje više varijabli istovremeno • VAR= lista numeričkih varijabli koje će biti prikazane na ordinati (ORIENT=V) ili apscisi (ORIENT=H) boxplota;

  27. Modifikacija programa – BOXPLOT macro • ID= karakterna varijabla za označavanje svake atipične opservacije (outlier) • SORTBY= varijabla ili ključna riječ po kojoj se sortiraju grupe/kategorije iz CLASS varijabli • WIDTH=.5 širina pojedinog boxplota; vrijednost 0.5 znači da će boxplot biti širok polovici razmaka između 2 boxplota • CBOX= definira boju linija boxplota (Default: BLACK) • CFILL= definira boju unutrašnjosti boxplota

  28. Modifikacija programa – BOXPLOT macro • LBOX= definira vrstu linije za boxplot (Default: 1) • ORIENT= orijentacija boxplota; V – vertikalno, H - horizontalno, (Default: V) • CONNECT=0 definira vrstu linije za povezivanje medijana svakog boxplota, opcija CONNECT=0 ne povezuje medijane • FN= faktor koji određuje proporcionalnu veličinu, FN=1 znači da su svi boxplotovi jednako široki, FN=sqrt(n) znači da su boxplotovi široki proporcionalno korijenu veličine uzorka; moguće su i druge funkcije veličine uzorka

  29. Modifikacija programa – BOXPLOT macro • VARFMT= ime formata za varijablu koja će biti prikazana • CLASSFMT= ime formata za varijablu prema kojoj se vrši grupiranje • VARLAB= labela za varijablu koja će biti prikazana; ako nije navedena u ovoj naredbi, umjesto labele koristiti će se ime varijable • CLASSLAB= labela za varijablu grupiranja, prikazuje se na osi

  30. Modifikacija programa – BOXPLOT macro • ANNO= ime anotacijskog dataseta • OUT= izlazni dataset u kojem su snimljene sve potrebne statistike (N, _MEAN_, _MEDIAN_, _Q1_, _Q3_, _IQR_, LO_NOTCH, HI_NOTCH, LO_WHISK, HI_WHISK) za izradu grafikona (Default: OUT=BOXSTAT) • NAME= ime grafikona (Default: NAME=BOXPLOT)

  31. Napomena • ukoliko izvodite program skinut direktno sa internetske stranice autora, za njegovo potpuno izvođenje potrebno je aktivirati i dodatne macro programe istog autora • SYMBOX macro program (datoteka SYMBOX.SAS) pripremljen od strane Referalnog centra za analizu podataka i statistiku za potrebe akademske i istraživačke zajednice (RC APIS) ne zahtjeva aktivaciju nikakvih dodatnih programa

  32. Napomena • boxplot koji je rezultat SYMBOX macro programa prikazat će na vodoravnoj osi i transformacije koje im niste zadali, a boxplotove transformiranih podataka poredat će prema veličini reda potencije

  33. Referalni centar za analizu podataka i statistiku za potrebe akademske i istraživačke zajednice (RC APIS) E-mail: vesna.dobric@srce.hr Telefon:(01) 616 55 97 Faks:(01) 616 55 91 Mailing lista:stat-sas-l

More Related