1 / 34

Gerth Stølting Brodal Aarhus Universitet Science Center Sorø - 4. september 2009

Gerth Stølting Brodal Aarhus Universitet Science Center Sorø - 4. september 2009. Overblik. Hvem er jeg ? Hvad er MADALGO ? Algoritmiske problemstilling ? Vidensspredning. Cand. s cient., Aarhus Universitet 1994 Ph.d., Aarhus Universitet, 1997 Lektor, Aarhus Universitet, 2004-.

nessa
Download Presentation

Gerth Stølting Brodal Aarhus Universitet Science Center Sorø - 4. september 2009

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. GerthStølting Brodal Aarhus Universitet Science Center Sorø - 4. september 2009

  2. Overblik • Hvem er jeg ? • Hvad er MADALGO ? • Algoritmiske problemstilling ? • Vidensspredning

  3. Cand. scient., Aarhus Universitet 1994 Ph.d., Aarhus Universitet, 1997 Lektor, Aarhus Universitet, 2004- GerthStølting Brodal

  4. Center motivation: Massive Data • Computereogcensoreranvendesoveralt • Øgedemuligheder for at indsamle/gemme/behandledata → Massive data tilstedeoveralt • Samfundet mere og mere “datadrevet” → Tilgå/behandledata overalttilenhvertid Nature • 2/06: “2020 – Future of computing” • 9/08: “BIG DATA” • Videnskabelig data voksereksponentielt, menskvalitetogtilgængelighedforbedres • Paradigmeskift: Videnskabvilbliveomdatamining → Datalogialtafgørendeiallevidenskaber

  5. Massive Data Eksempler • Telefon: AT&T 20 TB telefonopkalds database, • trådløssporring • Forbrugere: WalMart70 TB database, købsmønstre • WEB: Google indeks med »8 milliarderwebsider • Bank: Danske Bank 250 TB DB2 database • Geografi: NASA satelitergenerererterrabyteshver dag

  6. Center ved • Lars Arge, Professor, Centerleder • Gerth S. Brodal, Lektor • 5 post docs., 13 ph.d. studerende, 2 kandidat studerende, 4 TAP • Total budget for 5 år ca. 60 millionerkr • Overordnedemål • Fremme den algoritmiskevideninden for processeringaf massive data • Træningafforskerei et verdensførendemiljø • At værekatalysator for multidisciplinæresamarbejder Lars Arge

  7. Etableret1991 • 2 milliarderkr • Yderligere3 milliarderi2009 • Støtter • Grundforskningscentre (“Center of excellence”) • Højtprofileredegæsteprofessorer • Ph.d. skoler • Center of excellence • Grundforskningiverdensklasse • 5 år; nogleforlænges med yderligere 5 år • P.t. ca. 40 centre • Gennemsnitlige 5 årsbevillingpå ca. 40 million kr

  8. AU MPI MIT MADALGO kerneforskere ArgeBrodal (AU) (AU) I/O, cache, ogalgoritme engineering DemaineIndyk (MIT) (MIT) Cache og streaming Mehlhorn Meyer (MPI) (FRA) I/O ogalgoritmeenginnering

  9. Center Aktiviteter • Besøgafkerneforskerne • Udvekslingaf AU, MPI, FRA og MIT post docs. ogph.d. studerende • Gæsteopholdafforskereogstuderendefraandreinstitutioner • Diverse workshops • Incl. multidisciplinæreogisamarbejde med industrien • Førendeinternationallebegivenheder: • 25th Annual Symposium on Computational Geometry in 2009 • Workshop on Algorithms for Massive Datasets in 2009 • Sommerskoler • 2007: Streaming algorithms • 2008: Cache-oblivious algorithms

  10. Center samarbejder • COWI, DHI, DJF, DMU, Duke, NSCU • FinanseringfradetStrategiskeForskningsrådog US Army Research Office • Software platform for Galileo GPS • Adskilligedanskeakademiske/industriellepartnere • FinanseringfraHøjteknologiFonden • Europæisknetværkom massive data algoritmik • 8 førendeeuropæiskeforskningsgrupper

  11. Algoritmiske Problemstilling

  12. Problemet... Normal algoritme køretid I/O-effektivalgoritme datastørrelse størrelsenafhukommelsen

  13. køretid datastørrelse Hvad er flaskehalsene ?

  14. Hukommelseshierarkier CPU R Processor L1 L2 L3 Disk A M flaskehals voksendetilgangstidoghukommelsesstørrelse

  15. Hukommelseshierarkiervs.Køretid L1 L2 L3 RAM køretid datastørrelse

  16. Algoritmik • Central betydning for skalerbarhed/effektivitet → Algoritmikcentraltdatalogiskområde • Traditionelalgoritmik: Transformer input tiloutput vedanvendelseaf en simpelmaskinmodel • Utilstrækkeligtil f.eks. • Massive data • Små/varierendemaskiner • Kontinuæredatastrømme → Software med begrænsninger! • Fagligegrupperingerhararbejdet med dissemangler • men megetmanglerstadig at bliveløst

  17. Læse-/skrivehoved Læse-/skrivearm spor Magnetiskoverflade I/O-EffektiviteAlgoritmer • Problemerinvolverende massive data pådisk • Tilgangtil disk er106 gangelangsommere end hukommelsen • Dyrtilgangstidamortiseresudved at overførre store blokkeaf data →Altafgørende at udnytteblokkenenår data gemmes/tilgås • I/O-effektiviealgoritmer: • Flyttesåfåblokkesommuligt for at løse et givet problem “Forskellenihastighedmellemmoderne CPU- ogdiskteknologiersvarertilforskellenihastighedenmellem at spidse sin blyant med sin blyantspidserpå sit skrivebordog at tage et fly til den anden side afjordenoganvende en anden persons blyantspidserpådennesskrivebord.” (D. Comer)

  18. D Blok I/O M P I/O-EffektiveAlgoritmer: I/O-model • Model parametre • N= # elementeri input • B = # elementer I en disk blok • M = # elementeri intern hukommelse • Mål: Minimer # I/O • FlytBsammenhængendeelementermellemhukommelsenog disk • Typisketeoretiskegrænser: • Sortering: • Søgning: O(logBN) • Prioritetskøer: amortiseret

  19. MADALGO Fokusområder Streaming Algoritmer I/O Effektive Algoritmer Cache Oblivious Algoritmer Algoritme Engineering

  20. I/O-EffektiveAlgoritmerGørForksel • Eksempel: Gennemløb en kædetliste • ProblemstørrelseN= 10 elementer • DiskblokstørrelseB = 2 elementer • HukommelsesstørrelseM= 4 elementer(2 blokke) • ForskellenmellemNogN/Bstordablokstørrelsenerstor • Eksempel:N = 256 x 106, B = 8000 , 1ms disk tilgang N I/O tager256 x 103sek= 4266 min = 71 timer N/B I/O tager256/8 sek= 32 sek 1 5 2 6 3 8 9 4 10 1 2 10 9 5 6 3 4 7 7 8 Algoritme1: N = 10 I/O Algoritme2: N/B = 5 I/O

  21. Cache-Oblivious Algoritmer • Hvisproblemerskalløsespåukendteellerændrendemaskiner • Bloktilgangervigtigpåalleniveauerihukommelseshierarkiet • Men hukommelseshierarkierermegetvarierende • Cache-oblivious algoritmer: • Brugalleblokkeeffektivtpåalleniveaueriethverthukommelseshierarki

  22. AlgoritmeEngineering • Design/implementation afpraktiskealgorithmer • Eksperimenter • Center motiveretvedteoretiskemangler • Center promovererinterdisciplinær/industrieltarbejde →Naturligt at lave algorithm engineering • Algorithm engineering • Ofteværdifuld input tilteoretiskarbejde • f.eks. til design afbedreberegningsmodeller • Noglegangepraktiskegennembrud • f.eks. MADALGOs terrændata implementation

  23. Hurricane Floyd Sep. 15, 1999 7:00 15:00

  24. Massive Terræn Data

  25. TerrænData • Nye teknologier: Megetnemmere/billigere at indsamledetaljeret data • Før ‘manuel’ ellerradarbaseredemetoder • Ofte30 meter mellemdatapunkter • Noglegange10 meter data tilgængelig • Nyelaserskanningsmetoder (LIDAR) • Mindre end 1 meter mellemdatapunkterne • Præcisioni centimeter (hidtilmeter) Danmark • ~2 millionerpunkter v. 30 meter («1GB) • ~18 milliarderpunkter v. 1 meter (»1TB) • COWI (ogandre) skanner nu DK • NC skannetefterHurricane Floyd i1999

  26. Simulering af Oversvømmelse • Ikke alt terræn over højdehbliver oversvømmetnårvandetstigerh meter! • Teoretiskikkesåhårdt at beregne områdernederoversvømmesnårvandet stigerh meter • Men ingen software kunnegøredet for Danmarkved 2-meter opløsning • Anvend I/O-effektivalgoritme  Danmarkpåén dag

  27. OversvømmelseafDanmark +1 meter +2 meter

  28. TerraStreamTerrænSoftware • Skalerbar, generelt, porterbar, håndteringafdatafejl • Pipeline afmassive terrændata processeringssoftware • Demo: www.madalgo.au.dk/~thomasm/floodmaps/?extra=d2m

  29. Opsummering • Massive datamængderforekommeroveralt • Medførerskaleringsproblemmer • pga. hierarkiskhukommelseoglangsom I/O • I/O-effektivealgoritmer giver en signifikantforbedringafskalerbarhed • Nytforskningscenterfokusererpåalgoritmiskeemnerinden for massive data

  30. Vidensspredning

  31. Vidensspredning • Folkeskolepraktik • Gymnasiepraktik • UNF foredrag om internetsøgemaskiner • ACM programmeringskonkurrence • Perspektiverende datalogi kursus

  32. Tak ! Spørgsmål, hvad nu? • GerthStølting Brodal, MADALGO, Aarhus Universitet

More Related