260 likes | 610 Views
PRIKAZ VEČRAZSEŽNIH PODATKOV S KONVEKSNOLUPINSKIMI IN KONKORDANČNIMI DIAGRAMI Gaj Vidmar doktorska disertacija. mentor : prof. dr. Janez Stare. Cilji. nov prispevek na dveh ožjih področjih
E N D
PRIKAZ VEČRAZSEŽNIH PODATKOV S KONVEKSNOLUPINSKIMI IN KONKORDANČNIMI DIAGRAMIGaj Vidmardoktorska disertacija mentor: prof. dr. Janez Stare
Cilji • nov prispevek na dveh ožjih področjih • sklop: prikaz velike količine trorazsežnih podatkov, prikaterih je ena razsežnost opisna, drugi dve pa sta številski razširjeni konveksnolupinski diagrami (augmented convex-hull plots) • sklop: prikaz skladnosti med ocenjevalci pri rangiranju konkordančni diagrami (concordance diagrams) • opis novih diagramov z Wilkinsonovo grafično slovnico • dolgoročno • izboljšanje prakse prikaza podatkov v slovenski biomedicini • uveljavitev prikaza podatkov v Sloveniji kot samostojne znanstvene discipline zag. dokt. dis. – G. Vidmar – 6.3.2007
Raziskovalna vprašanja 1. sklop: Razširjeni konveksnolupinski diagrami (RKLD) • omogočajo hiter in pregleden prikaz velikih množic (10000+ statističnih enot) podakov o dveh številskih lastnostih pri več skupinah enot? • in njihove izpeljanke z minimalno količino črnila povzamejo obliko bivariatne porazdelitve, razpršenost in robno porazdelitev dveh številskih spremenljivk pri več skupinah enot? • se jih da implementirati kot preprost in prilagodljiv paket za R? 2. sklop: Konkordančni diagrami (KonkD) • lahko uspešno prikažejo konkordanco na podlagi dodeljenih rangov (mehurčni KonkD, KonkD z vzporednima osema) in na podlagi razlik v rangih (stolpčni KonkD, diagram blazinice z bucikami)? • imajo ustrezno razmerje med črnilom in podatki in se podrejajo splošnim načelom kakovostnega prikaza podatkov? • olajšujejo razumevanje konkordančnih koeficientov ter olajšajo primerjavo konkordance med skupinami? + Se da RKLD in KonkD popisati na podlagi Wilkinsonove grafične slovnice? zag. dokt. dis. – G. Vidmar – 6.3.2007
RKLD • nadomeščajo nepregledne večskupinske razsevne diagrame • problem je veliko enot in/ali prekrivanje skupin • s KL pridobimo prostor za jasen prikaz opisnih statistik z daljicami (error bars) ali elipsami zaupanja (confidence ellipses) • bivariatna mera razpršenosti: ploščino znotraj KL delimo s številom enot (velikostjo skupine) • dodamo prikaz robnih porazdelitev desno in zgoraj (frekv. mnogok.) • namesto KL lahko uporabimo bivariatne obrobe gostote verjetnosti (in robne porazdelitve prik. z univariatno oceno gostote verjetnosti) • uporabni so za surove ali pretvorjene podatke(npr. z multivariatno analizo –FA, PCA, MDS, DA, CA) • v statistični vizualizaciji se (pre)redko uporabljajo metode računske geometrije (konveksne lupine, Voronoi, Delaunay) • raziskani algoritmi iskanja KL, načini izboljševanja razsevnih diagramov ter ocen. in prik. (bivar.) gostote; RKLD so novost • objava (Vidmar & Pohar, 2005) zag. dokt. dis. – G. Vidmar – 6.3.2007
KonkD • naraščajoč pomen analize urejenostnih (ordinalnih) podatkov(~Nelson in Pepe, 2000) • številne raziskovalne hipoteze so v resnici urejenostne narave(~Cliff, 1996) • prikaz opisnih podatkov doživlja razcvet (~InfoVis; Friendly, 2000); vizualizacije konkordance še ni • VK dopolnjuje primerjavo konkorance med skupinami (~Schucany &..., 1973-84; Vidmar & Černigoj, 2004; Legendre, 2005) • objava (Vidmar &Rode, 2007) zag. dokt. dis. – G. Vidmar – 6.3.2007
Res potrebujemo RKLD? replot & quelplot (Goldberg & Iglewicz, 1992) two-dim. boxplot (Tongkumchum, 2005) rangefinder boxplots (Becketti & Gould, 1987) HDR boxplots (Hyndman, 1996) robust bivar. boxplots (Zani, Riani & Corbellini,1998) bagplot (Rousseeuw, Ruts & Tukey, 1999) clockwise biv. boxplots (Corbellini, 2002) zag. dokt. dis. – G. Vidmar – 6.3.2007
Nelson & Pepe (2000) Res potrebujemo KonkD? zag. dokt. dis. – G. Vidmar – 6.3.2007
Materiali: programje • R(http://www.r-project.org) • jezik in okolje za statistično analizo in grafiko • GNU S (v4, povsem predmeten; za Unix*, Windows* in Mac) • distribucija preko omrežja CRAN (http://cran.r-project.org/); • orodje za statistično analizo podatkov; neomejena razširljivostspaketi (packages) • jsplot(http://ourworld.compuserve.com/homepages/jsieberer/) • glede na majhnost zelo zmogljiv in prilagodljiv • GNU; za UNIX* in Windows* • risarsko orodje + program za diagrame + programski jezik, ki je hkrati zapis • Microsoft® Excel(newsgroups, MVPs) • pol miljarde (potencialnih) uporabnikov (Windows* in Mac*) • elektronske preglednice so kljub omejitvam in pomanjkljivostim (in navzlic predsodkom) postale pomembno orodje v mat. in stat. izobraževanju in praksi • intuitivnost in dinamičnost analize, dopolnitve prikazov zag. dokt. dis. – G. Vidmar – 6.3.2007
Metode: RKLD • paket chplot • funkcija chplot (formulski vmesnik, množica opcij) • predmet legend.control (podroben nadzor legende) • funkcija chadd (rišemo dalje s poljubnimi funkcijami) • podatki hdr (9051×3) • (biomedicinski) primeri • simulirani podatki zag. dokt. dis. – G. Vidmar – 6.3.2007
RKLD– primeri • PČR: {dohodnina, starost ob smrti} × spol zag. dokt. dis. – G. Vidmar – 6.3.2007
RKLD– primeri • konizacija: {zkrvavenje, zizcedek} × tehnika operacije zag. dokt. dis. – G. Vidmar – 6.3.2007
RKLD– Fisherjeve perunike Cleveland (1993) chplot data(iris) library(lattice) set.seed(19) petal.length <- iris[,3,] petal.width <- iris[,4,] variety <- factor(iris[,5,]) n <- length(levels(variety)) mea <- (log(petal.length,2)+log(petal.width,2))/2 dif <- jitter(log(petal.length,2)- log(petal.width,2), 2) xyplot(dif ~ mea, panel = function(...){panel.superpose(...) panel.abline (v = c(0.4, 1.46))}, groups = variety, aspect = 1, xlab ="velikost (log 2 cm)", ylab ="raztresena podolgovatost (log 2 razmerja)", key = list(points = Rows(trellis.par.get("superpose.symbol"), 1:n), text = list(paste("Iris", levels(variety))), columns = n)) data(iris) library(chplot) x<-log(sqrt(iris[,3]*iris[,4]))/log(2) y<-log(iris[,3]/iris[,4])/log(2) variety <- factor(paste("Iris",iris[,5,])) param<-chplot(y ~ x | variety, legend=list(area.in=F), xlab= "velikost (log2 cm)", ylab="podolgovatost (log2 razmerja)", dlevel=0,ratio=1) chadd(param,1,abline,v=1.46) chadd(param,1,abline,v=.4) zag. dokt. dis. – G. Vidmar – 6.3.2007
Metode: KonkD (1. možnost) • konkordanca … m rangiranj k objektov • često primerjava med skupinami • 1. možnost: za vsak objekt narišemovse range, ki so mu bili dodeljeni • mehurčni konkordančni diagram • frekvenca rangov kot funkcija povprečnega ranga • velikost kroga št. dodeljenih rangov • prikaz povprečnih rangov za objekte • popolna konkordanca vsi krogi na glavni diagonali (---) • vprašanje merila za polmer krogov • psihofizika! • pomen konteksta! • alternativa razsevni diag. z raztresenjem (jittered scatter-plot) • nižje razmerje podatki/črnilo • pri veliko ocenjevalcihnastopi prekrivanje točk med sosednjimi zag. dokt. dis. – G. Vidmar – 6.3.2007
Metode: KonkD (mehurčni) umetni podatki k=4 m=6 m=9 Schucany & Frawley (1973) – US in FRA ocenjevalci vin zag. dokt. dis. – G. Vidmar – 6.3.2007
Metode: KonkD (z vzp. osema) • konkordančni diagram z vzporednima osema • vzporedne osi dolgo znane, a šele od 1990-ih popularne (podatkovno rudarjenje, InfoVis) • vse dvojice rangov, v vsaki manjši (R<) in večji rang (R>) • število dvojic debelina črte • k=6, m=4 (umetni podatki) zag. dokt. dis. – G. Vidmar – 6.3.2007
W=1 W=0,01 Metode: KonkD (2. možnost) • 2. možnost:rišemo razlike znotraj parov rangov • na njih temeljita za Spearmanov r in Kendallov t • |di| [0, k–1] • {|di|} ima m (m – 1) / 2 elementov • konkordančni stolpčni diagram • abs. razlika rangov je urejenostna spremenljivka • konkordanca E(|d|) daljši rep porazdelitve • k=4, m=9 (umetni podatki) zag. dokt. dis. – G. Vidmar – 6.3.2007
Metode: KonkD (BzB) • diagram blazinice z bucikami • polarne koordinate • razlika 0 navpična črta • kot “v desno” = 90° {1 – [|d| / (k – 1)]} • razlike ni v podatkih daljice ne rišemo • dolžina daljice št. razlik • v izhodišču “blazinica” (širina=2, višina=1) • k=6, m=4 (Vidmar & Černigoj, 2004, socialne norme) Sku 1 Pog 1 W=0,83 Sku 1 Pog 2 W=0,79 Sku 2 Pog 1 W=0,52 Sku 2 Pog 2 W=0,59 zag. dokt. dis. – G. Vidmar – 6.3.2007
Dodatni primerupor. KonkD (1) • mehurčni konkordančni diagrami (medicina) • vse pogostejše študije soglasja med ocenjevalci ali diagnostičnimi postopki glede urejenostnih ocen • Netto et al.(2006): m=17 patologov, k=6 biopsijskih vzorcev • stadij kroničnega hepatitisa C po Battsu in Ludwigu (W=0,85) • globalna stopnja akutne celične zavrnitve po Banhoffu (W=0,57) zag. dokt. dis. – G. Vidmar – 6.3.2007
Dodatni primerupor. KonkD (2) • diagrami blazinice z bucikami (scientometrija) • JCR 1994-2005 (IZUM) – skladnost rangiranja glede IF • k=7 področij (agr,fiz, kem,med,psi,sta, rač) • za vsako leto med merami (m=4: maxIF, M20, Me10, NočzIF ) • za vsako mero med leti (m=12) W=0,82 (min med merami) W=0,95 (min med merami) W=0,99 (max med leti) zag. dokt. dis. – G. Vidmar – 6.3.2007
Anketa o RKLD • vzorec • poslana 24 študentomUPŠP Statistika (03/04,04/05,05/06), ki izbrali predmet Statistika v medicini oz. modul Biostatistika • odziv 12: starost 27-48 (Me=34), dodipl. izobrazba raznolika (ekon., elektro., fiz., mat., med., meteo., rač. in inf., šport,sociol.) • v elektronski obliki po e-pošti (z gradivi; tudi odg.) • kratka; navodila neformalna, a podrobna • 4 naloge s paketom chplot (podatki 1.hdr, 2.sim, 3.iris, 4.porodi) • ocena paketa chplot v primerjavi z ostalimi paketi za R (Lickert) • ocena zamisli o RKLD (Lickert) • poznavanje alternativ (odprti tip) • rezultati spodbudni • 1., 2. in 3. vsi pravilno • 4. pravilno 10/12 (starost: p=0,349) • težavnost: 12/12 podobna kot drugi paketi za R • zamisel: 1/12 srednje, 11/12 zmerno koristna, 1/12 izjemno • alternative: 6/12 (a vsi razsevni diagram z razl. barvami točk) zag. dokt. dis. – G. Vidmar – 6.3.2007
Grafična slovnica – Zasnova Leland Wilkinson(1999): The Grammar of Graphics • grafika = preslikava podatkov v estetske značilnosti graf. predmetov (+ podobe) • kognitivni model in algoritem branja grafik • grafična slovnica kot proces opis statistične grafike v 7 stavkih 1.DATA 2. TRANS 3. FRAME: birth*death 4. SCALE 5. COORD 6. GRAPH: point(size(0),label(country)) GRAPH: contour.density.kernel.epanechnikov.joint(color.hue()) 7. GUIDE: form.line(position((0,0),(30,30)),label(“Zero Population Growth”)) GUIDE: axis1(label(“BirthRate”)) GUIDE: axis2(label(“DeathRate”)) zag. dokt. dis. – G. Vidmar – 6.3.2007
Grafična slovnica – Uporaba • obstoječe implementacije • SPSS Inc. – nViZn (Java), GPL (v14, v15) • R – ggplot (Wickham, 2006) • grafična algebra • Cross *, Nest /, Blend +; lastnosti algebre raba oklepajev • enotska spremenljivka, konstante • opisani vsi predstavljeni diagrami • RKLD ~ PČR (MSD ali elipse) • KonkD ~ z vzporednima osema (podatki vse dvojice rangov) FRAME: doh*ssm SCALE: log(dim2,10) GRAPH: point(size(0)) GRAPH: link.edge.hull() MSD: GRAPH: bar.region.spread.sd.joint(shape("line"),granularity(spol)) GRAPH: bar…sd(…) ¶ drugi graf enako FRAME in SCALE ¶ COORD: pivot() ¶ COORD: transpose() ¶ bar…sd(…) elipse: GRAPH: contour.region.confi.mean.joint(granularity(spol)) GRAPH: line.bin.rect(position.stack(doh*1),granularity(spol)) GRAPH: line.bin.rect(position.stack(1*ssm),granularity(spol)) GUIDE: axis1(label("dohodnina (SIT)")) GUIDE: axis2(label("starost ob smrti (leta)")) GUIDE: legend(granularity(spol),position.stack(doh*ssm*1)) DATA: rm=string("R<") DATA: rv=string("R>") TRANS: manjsirang=min(rang1,rang2) TRANS: vecjirang=max(rang1,rang2) FRAME: rm*manjsirang+rv*vecjirang GRAPH: line(size(count())) zag. dokt. dis. – G. Vidmar – 6.3.2007
Sklepi • pritrdilen odgovor na Raziskovalna vprašanja • RKLD • omejitev: število skupin (≤10) • odlike: univerzalnost, bivar. mera razp., chplot (vključen v CRAN) • KonkD • omejitve: št. objektov (mehurčni, BzB) oz. ocenjevalcev (KDVO); povprečne range objektov prikazuje le mehurčni • odlike: “zaznavne naloge”, razpoznavni vzorci, preprosto programje • uspešno uporabljena Wilkinsonova grafična slovnica[,ki …] • razkorakmed objavljenimi in dejansko uporabljanimi statističnimi metodami lahko zmanjša le ustrezno programje • sodelovanje študentov (bio)statistike • širjenje zavesti o dobrobitih strokovnega in kakovostnega PP • popularizacija dobrih praks PP (v slovenski biomedicini) • možnosti za prihodnost • 3D chplot • dodatek DataVis za Excel 2007 • predmet Prikaz podatkov (in statistično svetovanje) na UL (UPSP) zag. dokt. dis. – G. Vidmar – 6.3.2007
ZVEZDNATO NEBO NAD SEBOJ IN MORALNI ZAKON V SEBI,PAMET IN NEUMNOST ŽENSK IN MOŠKIH,LASTNOSTI MINERALOV IN KAMNIN,BEKEND IN FORHEND,LJUBEZEN, VISKOZNOST, UPANJE IN BAKTERIJE,FINANČNE TRGE IN VOJNO IN MIR,RUŠEVCE, SEKVOJE IN NANOSTRUKTUREIN ŠE MARSIKAJ LAŽJE USTREZNO SPOZNAMOZ USTREZNIM PRIKAZOM PODATKOV. Gaj Vidmar – Čarovnik