1 / 24

PRIKAZ VEČRAZSEŽNIH PODATKOV S KONVEKSNOLUPINSKIMI IN KONKORDANČNIMI DIAGRAMI Gaj Vidmar doktorska disertacija

PRIKAZ VEČRAZSEŽNIH PODATKOV S KONVEKSNOLUPINSKIMI IN KONKORDANČNIMI DIAGRAMI Gaj Vidmar doktorska disertacija. mentor : prof. dr. Janez Stare. Cilji. nov prispevek na dveh ožjih področjih

rachel
Download Presentation

PRIKAZ VEČRAZSEŽNIH PODATKOV S KONVEKSNOLUPINSKIMI IN KONKORDANČNIMI DIAGRAMI Gaj Vidmar doktorska disertacija

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PRIKAZ VEČRAZSEŽNIH PODATKOV S KONVEKSNOLUPINSKIMI IN KONKORDANČNIMI DIAGRAMIGaj Vidmardoktorska disertacija mentor: prof. dr. Janez Stare

  2. Cilji • nov prispevek na dveh ožjih področjih • sklop: prikaz velike količine trorazsežnih podatkov, prikaterih je ena razsežnost opisna, drugi dve pa sta številski  razširjeni konveksnolupinski diagrami (augmented convex-hull plots) • sklop: prikaz skladnosti med ocenjevalci pri rangiranju  konkordančni diagrami (concordance diagrams) • opis novih diagramov z Wilkinsonovo grafično slovnico • dolgoročno • izboljšanje prakse prikaza podatkov v slovenski biomedicini • uveljavitev prikaza podatkov v Sloveniji kot samostojne znanstvene discipline zag. dokt. dis. – G. Vidmar – 6.3.2007

  3. Raziskovalna vprašanja 1. sklop: Razširjeni konveksnolupinski diagrami (RKLD) • omogočajo hiter in pregleden prikaz velikih množic (10000+ statističnih enot) podakov o dveh številskih lastnostih pri več skupinah enot? • in njihove izpeljanke z minimalno količino črnila povzamejo obliko bivariatne porazdelitve, razpršenost in robno porazdelitev dveh številskih spremenljivk pri več skupinah enot? • se jih da implementirati kot preprost in prilagodljiv paket za R? 2. sklop: Konkordančni diagrami (KonkD) • lahko uspešno prikažejo konkordanco na podlagi dodeljenih rangov (mehurčni KonkD, KonkD z vzporednima osema) in na podlagi razlik v rangih (stolpčni KonkD, diagram blazinice z bucikami)? • imajo ustrezno razmerje med črnilom in podatki in se podrejajo splošnim načelom kakovostnega prikaza podatkov? • olajšujejo razumevanje konkordančnih koeficientov ter olajšajo primerjavo konkordance med skupinami? + Se da RKLD in KonkD popisati na podlagi Wilkinsonove grafične slovnice? zag. dokt. dis. – G. Vidmar – 6.3.2007

  4. RKLD • nadomeščajo nepregledne večskupinske razsevne diagrame • problem je veliko enot in/ali prekrivanje skupin • s KL pridobimo prostor za jasen prikaz opisnih statistik z daljicami (error bars) ali elipsami zaupanja (confidence ellipses) • bivariatna mera razpršenosti: ploščino znotraj KL delimo s številom enot (velikostjo skupine) • dodamo prikaz robnih porazdelitev desno in zgoraj (frekv. mnogok.) • namesto KL lahko uporabimo bivariatne obrobe gostote verjetnosti (in robne porazdelitve prik. z univariatno oceno gostote verjetnosti) • uporabni so za surove ali pretvorjene podatke(npr. z multivariatno analizo –FA, PCA, MDS, DA, CA) • v statistični vizualizaciji se (pre)redko uporabljajo metode računske geometrije (konveksne lupine, Voronoi, Delaunay) • raziskani algoritmi iskanja KL, načini izboljševanja razsevnih diagramov ter ocen. in prik. (bivar.) gostote; RKLD so novost • objava (Vidmar & Pohar, 2005) zag. dokt. dis. – G. Vidmar – 6.3.2007

  5. KonkD • naraščajoč pomen analize urejenostnih (ordinalnih) podatkov(~Nelson in Pepe, 2000) • številne raziskovalne hipoteze so v resnici urejenostne narave(~Cliff, 1996) • prikaz opisnih podatkov doživlja razcvet (~InfoVis; Friendly, 2000); vizualizacije konkordance še ni • VK dopolnjuje primerjavo konkorance med skupinami (~Schucany &..., 1973-84; Vidmar & Černigoj, 2004; Legendre, 2005) • objava (Vidmar &Rode, 2007) zag. dokt. dis. – G. Vidmar – 6.3.2007

  6. Res potrebujemo RKLD? replot & quelplot (Goldberg & Iglewicz, 1992) two-dim. boxplot (Tongkumchum, 2005) rangefinder boxplots (Becketti & Gould, 1987) HDR boxplots (Hyndman, 1996) robust bivar. boxplots (Zani, Riani & Corbellini,1998) bagplot (Rousseeuw, Ruts & Tukey, 1999) clockwise biv. boxplots (Corbellini, 2002) zag. dokt. dis. – G. Vidmar – 6.3.2007

  7. Nelson & Pepe (2000) Res potrebujemo KonkD? zag. dokt. dis. – G. Vidmar – 6.3.2007

  8. Materiali: programje • R(http://www.r-project.org) • jezik in okolje za statistično analizo in grafiko • GNU S (v4, povsem predmeten; za Unix*, Windows* in Mac) • distribucija preko omrežja CRAN (http://cran.r-project.org/); • orodje za statistično analizo podatkov; neomejena razširljivostspaketi (packages) • jsplot(http://ourworld.compuserve.com/homepages/jsieberer/) • glede na majhnost zelo zmogljiv in prilagodljiv • GNU; za UNIX* in Windows* • risarsko orodje + program za diagrame + programski jezik, ki je hkrati zapis • Microsoft® Excel(newsgroups, MVPs) • pol miljarde (potencialnih) uporabnikov (Windows* in Mac*) • elektronske preglednice so kljub omejitvam in pomanjkljivostim (in navzlic predsodkom) postale pomembno orodje v mat. in stat. izobraževanju in praksi • intuitivnost in dinamičnost analize, dopolnitve prikazov zag. dokt. dis. – G. Vidmar – 6.3.2007

  9. Metode: RKLD • paket chplot • funkcija chplot (formulski vmesnik, množica opcij) • predmet legend.control (podroben nadzor legende) • funkcija chadd (rišemo dalje s poljubnimi funkcijami) • podatki hdr (9051×3) • (biomedicinski) primeri • simulirani podatki zag. dokt. dis. – G. Vidmar – 6.3.2007

  10. RKLD– primeri • PČR: {dohodnina, starost ob smrti} × spol zag. dokt. dis. – G. Vidmar – 6.3.2007

  11. RKLD– primeri • konizacija: {zkrvavenje, zizcedek} × tehnika operacije zag. dokt. dis. – G. Vidmar – 6.3.2007

  12. RKLD– Fisherjeve perunike Cleveland (1993) chplot data(iris) library(lattice) set.seed(19) petal.length <- iris[,3,] petal.width <- iris[,4,] variety <- factor(iris[,5,]) n <- length(levels(variety)) mea <- (log(petal.length,2)+log(petal.width,2))/2 dif <- jitter(log(petal.length,2)- log(petal.width,2), 2) xyplot(dif ~ mea, panel = function(...){panel.superpose(...) panel.abline (v = c(0.4, 1.46))}, groups = variety, aspect = 1, xlab ="velikost (log 2 cm)", ylab ="raztresena podolgovatost (log 2 razmerja)", key = list(points = Rows(trellis.par.get("superpose.symbol"), 1:n), text = list(paste("Iris", levels(variety))), columns = n)) data(iris) library(chplot) x<-log(sqrt(iris[,3]*iris[,4]))/log(2) y<-log(iris[,3]/iris[,4])/log(2) variety <- factor(paste("Iris",iris[,5,])) param<-chplot(y ~ x | variety, legend=list(area.in=F), xlab= "velikost (log2 cm)", ylab="podolgovatost (log2 razmerja)", dlevel=0,ratio=1) chadd(param,1,abline,v=1.46) chadd(param,1,abline,v=.4) zag. dokt. dis. – G. Vidmar – 6.3.2007

  13. Metode: KonkD (1. možnost) • konkordanca … m rangiranj k objektov • često primerjava med skupinami • 1. možnost: za vsak objekt narišemovse range, ki so mu bili dodeljeni • mehurčni konkordančni diagram • frekvenca rangov kot funkcija povprečnega ranga • velikost kroga  št. dodeljenih rangov • prikaz povprečnih rangov za objekte • popolna konkordanca  vsi krogi na glavni diagonali (---) • vprašanje merila za polmer krogov • psihofizika! • pomen konteksta! • alternativa razsevni diag. z raztresenjem (jittered scatter-plot) • nižje razmerje podatki/črnilo • pri veliko ocenjevalcihnastopi prekrivanje točk med sosednjimi zag. dokt. dis. – G. Vidmar – 6.3.2007

  14. Metode: KonkD (mehurčni) umetni podatki k=4 m=6 m=9 Schucany & Frawley (1973) – US in FRA ocenjevalci vin zag. dokt. dis. – G. Vidmar – 6.3.2007

  15. Metode: KonkD (z vzp. osema) • konkordančni diagram z vzporednima osema • vzporedne osi dolgo znane, a šele od 1990-ih popularne (podatkovno rudarjenje, InfoVis) • vse dvojice rangov, v vsaki manjši (R<) in večji rang (R>) • število dvojic debelina črte • k=6, m=4 (umetni podatki) zag. dokt. dis. – G. Vidmar – 6.3.2007

  16. W=1 W=0,01 Metode: KonkD (2. možnost) • 2. možnost:rišemo razlike znotraj parov rangov • na njih temeljita za Spearmanov r in Kendallov t • |di|  [0, k–1] • {|di|} ima m (m – 1) / 2 elementov • konkordančni stolpčni diagram • abs. razlika rangov je urejenostna spremenljivka •  konkordanca E(|d|)  daljši rep porazdelitve • k=4, m=9 (umetni podatki) zag. dokt. dis. – G. Vidmar – 6.3.2007

  17. Metode: KonkD (BzB) • diagram blazinice z bucikami • polarne koordinate • razlika 0  navpična črta • kot “v desno” = 90° {1 – [|d| / (k – 1)]} • razlike ni v podatkih  daljice ne rišemo • dolžina daljice  št. razlik • v izhodišču “blazinica” (širina=2, višina=1) • k=6, m=4 (Vidmar & Černigoj, 2004, socialne norme) Sku 1 Pog 1 W=0,83 Sku 1 Pog 2 W=0,79 Sku 2 Pog 1 W=0,52 Sku 2 Pog 2 W=0,59 zag. dokt. dis. – G. Vidmar – 6.3.2007

  18. Dodatni primerupor. KonkD (1) • mehurčni konkordančni diagrami (medicina) • vse pogostejše študije soglasja med ocenjevalci ali diagnostičnimi postopki glede urejenostnih ocen • Netto et al.(2006): m=17 patologov, k=6 biopsijskih vzorcev • stadij kroničnega hepatitisa C po Battsu in Ludwigu (W=0,85) • globalna stopnja akutne celične zavrnitve po Banhoffu (W=0,57) zag. dokt. dis. – G. Vidmar – 6.3.2007

  19. Dodatni primerupor. KonkD (2) • diagrami blazinice z bucikami (scientometrija) • JCR 1994-2005 (IZUM) – skladnost rangiranja glede IF • k=7 področij (agr,fiz, kem,med,psi,sta, rač) • za vsako leto med merami (m=4: maxIF, M20, Me10, NočzIF ) • za vsako mero med leti (m=12) W=0,82 (min med merami) W=0,95 (min med merami) W=0,99 (max med leti) zag. dokt. dis. – G. Vidmar – 6.3.2007

  20. Anketa o RKLD • vzorec • poslana 24 študentomUPŠP Statistika (03/04,04/05,05/06), ki izbrali predmet Statistika v medicini oz. modul Biostatistika • odziv 12: starost 27-48 (Me=34), dodipl. izobrazba raznolika (ekon., elektro., fiz., mat., med., meteo., rač. in inf., šport,sociol.) • v elektronski obliki po e-pošti (z gradivi; tudi odg.) • kratka; navodila neformalna, a podrobna • 4 naloge s paketom chplot (podatki 1.hdr, 2.sim, 3.iris, 4.porodi) • ocena paketa chplot v primerjavi z ostalimi paketi za R (Lickert) • ocena zamisli o RKLD (Lickert) • poznavanje alternativ (odprti tip) • rezultati spodbudni • 1., 2. in 3. vsi pravilno • 4. pravilno 10/12 (starost: p=0,349) • težavnost: 12/12 podobna kot drugi paketi za R • zamisel: 1/12 srednje, 11/12 zmerno koristna, 1/12 izjemno • alternative: 6/12 (a vsi razsevni diagram z razl. barvami točk) zag. dokt. dis. – G. Vidmar – 6.3.2007

  21. Grafična slovnica – Zasnova Leland Wilkinson(1999): The Grammar of Graphics • grafika = preslikava podatkov v estetske značilnosti graf. predmetov (+ podobe) • kognitivni model in algoritem branja grafik • grafična slovnica kot proces  opis statistične grafike v 7 stavkih 1.DATA 2. TRANS 3. FRAME: birth*death 4. SCALE 5. COORD 6. GRAPH: point(size(0),label(country)) GRAPH: contour.density.kernel.epanechnikov.joint(color.hue()) 7. GUIDE: form.line(position((0,0),(30,30)),label(“Zero Population Growth”)) GUIDE: axis1(label(“BirthRate”)) GUIDE: axis2(label(“DeathRate”)) zag. dokt. dis. – G. Vidmar – 6.3.2007

  22. Grafična slovnica – Uporaba • obstoječe implementacije • SPSS Inc. – nViZn (Java), GPL (v14, v15) • R – ggplot (Wickham, 2006) • grafična algebra • Cross *, Nest /, Blend +; lastnosti algebre  raba oklepajev • enotska spremenljivka, konstante • opisani vsi predstavljeni diagrami • RKLD ~ PČR (MSD ali elipse) • KonkD ~ z vzporednima osema (podatki vse dvojice rangov) FRAME: doh*ssm SCALE: log(dim2,10) GRAPH: point(size(0)) GRAPH: link.edge.hull()  MSD:  GRAPH: bar.region.spread.sd.joint(shape("line"),granularity(spol))  GRAPH: bar…sd(…) ¶ drugi graf enako FRAME in SCALE ¶ COORD: pivot() ¶ COORD: transpose() ¶ bar…sd(…)  elipse: GRAPH: contour.region.confi.mean.joint(granularity(spol)) GRAPH: line.bin.rect(position.stack(doh*1),granularity(spol)) GRAPH: line.bin.rect(position.stack(1*ssm),granularity(spol)) GUIDE: axis1(label("dohodnina (SIT)")) GUIDE: axis2(label("starost ob smrti (leta)")) GUIDE: legend(granularity(spol),position.stack(doh*ssm*1)) DATA: rm=string("R<") DATA: rv=string("R>") TRANS: manjsirang=min(rang1,rang2) TRANS: vecjirang=max(rang1,rang2) FRAME: rm*manjsirang+rv*vecjirang GRAPH: line(size(count())) zag. dokt. dis. – G. Vidmar – 6.3.2007

  23. Sklepi • pritrdilen odgovor na Raziskovalna vprašanja • RKLD • omejitev: število skupin (≤10) • odlike: univerzalnost, bivar. mera razp., chplot (vključen v CRAN) • KonkD • omejitve: št. objektov (mehurčni, BzB) oz. ocenjevalcev (KDVO); povprečne range objektov prikazuje le mehurčni • odlike: “zaznavne naloge”, razpoznavni vzorci, preprosto programje • uspešno uporabljena Wilkinsonova grafična slovnica[,ki …] • razkorakmed objavljenimi in dejansko uporabljanimi statističnimi metodami lahko zmanjša le ustrezno programje • sodelovanje študentov (bio)statistike  • širjenje zavesti o dobrobitih strokovnega in kakovostnega PP • popularizacija dobrih praks PP (v slovenski biomedicini) • možnosti za prihodnost • 3D chplot • dodatek DataVis za Excel 2007 • predmet Prikaz podatkov (in statistično svetovanje) na UL (UPSP) zag. dokt. dis. – G. Vidmar – 6.3.2007

  24. ZVEZDNATO NEBO NAD SEBOJ IN MORALNI ZAKON V SEBI,PAMET IN NEUMNOST ŽENSK IN MOŠKIH,LASTNOSTI MINERALOV IN KAMNIN,BEKEND IN FORHEND,LJUBEZEN, VISKOZNOST, UPANJE IN BAKTERIJE,FINANČNE TRGE IN VOJNO IN MIR,RUŠEVCE, SEKVOJE IN NANOSTRUKTUREIN ŠE MARSIKAJ LAŽJE USTREZNO SPOZNAMOZ USTREZNIM PRIKAZOM PODATKOV. Gaj Vidmar – Čarovnik

More Related