340 likes | 489 Views
Gerth Stølting Brodal Aarhus Universitet Science Center Sorø - 4. september 2009. Overblik. Hvem er jeg ? Hvad er MADALGO ? Algoritmiske problemstilling ? Vidensspredning. Cand. s cient., Aarhus Universitet 1994 Ph.d., Aarhus Universitet, 1997 Lektor, Aarhus Universitet, 2004-.
E N D
GerthStølting Brodal Aarhus Universitet Science Center Sorø - 4. september 2009
Overblik • Hvem er jeg ? • Hvad er MADALGO ? • Algoritmiske problemstilling ? • Vidensspredning
Cand. scient., Aarhus Universitet 1994 Ph.d., Aarhus Universitet, 1997 Lektor, Aarhus Universitet, 2004- GerthStølting Brodal
Center motivation: Massive Data • Computereogcensoreranvendesoveralt • Øgedemuligheder for at indsamle/gemme/behandledata → Massive data tilstedeoveralt • Samfundet mere og mere “datadrevet” → Tilgå/behandledata overalttilenhvertid Nature • 2/06: “2020 – Future of computing” • 9/08: “BIG DATA” • Videnskabelig data voksereksponentielt, menskvalitetogtilgængelighedforbedres • Paradigmeskift: Videnskabvilbliveomdatamining → Datalogialtafgørendeiallevidenskaber
Massive Data Eksempler • Telefon: AT&T 20 TB telefonopkalds database, • trådløssporring • Forbrugere: WalMart70 TB database, købsmønstre • WEB: Google indeks med »8 milliarderwebsider • Bank: Danske Bank 250 TB DB2 database • Geografi: NASA satelitergenerererterrabyteshver dag
Center ved • Lars Arge, Professor, Centerleder • Gerth S. Brodal, Lektor • 5 post docs., 13 ph.d. studerende, 2 kandidat studerende, 4 TAP • Total budget for 5 år ca. 60 millionerkr • Overordnedemål • Fremme den algoritmiskevideninden for processeringaf massive data • Træningafforskerei et verdensførendemiljø • At værekatalysator for multidisciplinæresamarbejder Lars Arge
Etableret1991 • 2 milliarderkr • Yderligere3 milliarderi2009 • Støtter • Grundforskningscentre (“Center of excellence”) • Højtprofileredegæsteprofessorer • Ph.d. skoler • Center of excellence • Grundforskningiverdensklasse • 5 år; nogleforlænges med yderligere 5 år • P.t. ca. 40 centre • Gennemsnitlige 5 årsbevillingpå ca. 40 million kr
AU MPI MIT MADALGO kerneforskere ArgeBrodal (AU) (AU) I/O, cache, ogalgoritme engineering DemaineIndyk (MIT) (MIT) Cache og streaming Mehlhorn Meyer (MPI) (FRA) I/O ogalgoritmeenginnering
Center Aktiviteter • Besøgafkerneforskerne • Udvekslingaf AU, MPI, FRA og MIT post docs. ogph.d. studerende • Gæsteopholdafforskereogstuderendefraandreinstitutioner • Diverse workshops • Incl. multidisciplinæreogisamarbejde med industrien • Førendeinternationallebegivenheder: • 25th Annual Symposium on Computational Geometry in 2009 • Workshop on Algorithms for Massive Datasets in 2009 • Sommerskoler • 2007: Streaming algorithms • 2008: Cache-oblivious algorithms
Center samarbejder • COWI, DHI, DJF, DMU, Duke, NSCU • FinanseringfradetStrategiskeForskningsrådog US Army Research Office • Software platform for Galileo GPS • Adskilligedanskeakademiske/industriellepartnere • FinanseringfraHøjteknologiFonden • Europæisknetværkom massive data algoritmik • 8 førendeeuropæiskeforskningsgrupper
Problemet... Normal algoritme køretid I/O-effektivalgoritme datastørrelse størrelsenafhukommelsen
køretid datastørrelse Hvad er flaskehalsene ?
Hukommelseshierarkier CPU R Processor L1 L2 L3 Disk A M flaskehals voksendetilgangstidoghukommelsesstørrelse
Hukommelseshierarkiervs.Køretid L1 L2 L3 RAM køretid datastørrelse
Algoritmik • Central betydning for skalerbarhed/effektivitet → Algoritmikcentraltdatalogiskområde • Traditionelalgoritmik: Transformer input tiloutput vedanvendelseaf en simpelmaskinmodel • Utilstrækkeligtil f.eks. • Massive data • Små/varierendemaskiner • Kontinuæredatastrømme → Software med begrænsninger! • Fagligegrupperingerhararbejdet med dissemangler • men megetmanglerstadig at bliveløst
Læse-/skrivehoved Læse-/skrivearm spor Magnetiskoverflade I/O-EffektiviteAlgoritmer • Problemerinvolverende massive data pådisk • Tilgangtil disk er106 gangelangsommere end hukommelsen • Dyrtilgangstidamortiseresudved at overførre store blokkeaf data →Altafgørende at udnytteblokkenenår data gemmes/tilgås • I/O-effektiviealgoritmer: • Flyttesåfåblokkesommuligt for at løse et givet problem “Forskellenihastighedmellemmoderne CPU- ogdiskteknologiersvarertilforskellenihastighedenmellem at spidse sin blyant med sin blyantspidserpå sit skrivebordog at tage et fly til den anden side afjordenoganvende en anden persons blyantspidserpådennesskrivebord.” (D. Comer)
D Blok I/O M P I/O-EffektiveAlgoritmer: I/O-model • Model parametre • N= # elementeri input • B = # elementer I en disk blok • M = # elementeri intern hukommelse • Mål: Minimer # I/O • FlytBsammenhængendeelementermellemhukommelsenog disk • Typisketeoretiskegrænser: • Sortering: • Søgning: O(logBN) • Prioritetskøer: amortiseret
MADALGO Fokusområder Streaming Algoritmer I/O Effektive Algoritmer Cache Oblivious Algoritmer Algoritme Engineering
I/O-EffektiveAlgoritmerGørForksel • Eksempel: Gennemløb en kædetliste • ProblemstørrelseN= 10 elementer • DiskblokstørrelseB = 2 elementer • HukommelsesstørrelseM= 4 elementer(2 blokke) • ForskellenmellemNogN/Bstordablokstørrelsenerstor • Eksempel:N = 256 x 106, B = 8000 , 1ms disk tilgang N I/O tager256 x 103sek= 4266 min = 71 timer N/B I/O tager256/8 sek= 32 sek 1 5 2 6 3 8 9 4 10 1 2 10 9 5 6 3 4 7 7 8 Algoritme1: N = 10 I/O Algoritme2: N/B = 5 I/O
Cache-Oblivious Algoritmer • Hvisproblemerskalløsespåukendteellerændrendemaskiner • Bloktilgangervigtigpåalleniveauerihukommelseshierarkiet • Men hukommelseshierarkierermegetvarierende • Cache-oblivious algoritmer: • Brugalleblokkeeffektivtpåalleniveaueriethverthukommelseshierarki
AlgoritmeEngineering • Design/implementation afpraktiskealgorithmer • Eksperimenter • Center motiveretvedteoretiskemangler • Center promovererinterdisciplinær/industrieltarbejde →Naturligt at lave algorithm engineering • Algorithm engineering • Ofteværdifuld input tilteoretiskarbejde • f.eks. til design afbedreberegningsmodeller • Noglegangepraktiskegennembrud • f.eks. MADALGOs terrændata implementation
Hurricane Floyd Sep. 15, 1999 7:00 15:00
TerrænData • Nye teknologier: Megetnemmere/billigere at indsamledetaljeret data • Før ‘manuel’ ellerradarbaseredemetoder • Ofte30 meter mellemdatapunkter • Noglegange10 meter data tilgængelig • Nyelaserskanningsmetoder (LIDAR) • Mindre end 1 meter mellemdatapunkterne • Præcisioni centimeter (hidtilmeter) Danmark • ~2 millionerpunkter v. 30 meter («1GB) • ~18 milliarderpunkter v. 1 meter (»1TB) • COWI (ogandre) skanner nu DK • NC skannetefterHurricane Floyd i1999
Simulering af Oversvømmelse • Ikke alt terræn over højdehbliver oversvømmetnårvandetstigerh meter! • Teoretiskikkesåhårdt at beregne områdernederoversvømmesnårvandet stigerh meter • Men ingen software kunnegøredet for Danmarkved 2-meter opløsning • Anvend I/O-effektivalgoritme Danmarkpåén dag
OversvømmelseafDanmark +1 meter +2 meter
TerraStreamTerrænSoftware • Skalerbar, generelt, porterbar, håndteringafdatafejl • Pipeline afmassive terrændata processeringssoftware • Demo: www.madalgo.au.dk/~thomasm/floodmaps/?extra=d2m
Opsummering • Massive datamængderforekommeroveralt • Medførerskaleringsproblemmer • pga. hierarkiskhukommelseoglangsom I/O • I/O-effektivealgoritmer giver en signifikantforbedringafskalerbarhed • Nytforskningscenterfokusererpåalgoritmiskeemnerinden for massive data
Vidensspredning • Folkeskolepraktik • Gymnasiepraktik • UNF foredrag om internetsøgemaskiner • ACM programmeringskonkurrence • Perspektiverende datalogi kursus
Tak ! Spørgsmål, hvad nu? • GerthStølting Brodal, MADALGO, Aarhus Universitet