220 likes | 344 Views
Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden. Mariëlle Stoelinga Universitair Hoofddocent Informatica Universiteit Twente. Agenda: wat doen we vandaag?. Iets over mijzelf en de universiteit Gastles: zoeken in grote tekstbestanden wiskunde zonder getallen Inhoud
E N D
Universiteit Twente meets SG TwickelZoeken in grote tekstbestanden Mariëlle Stoelinga Universitair Hoofddocent Informatica Universiteit Twente Presentatietitel: aanpassen via Beeld, Koptekst en voettekst
Agenda: wat doen we vandaag? • Iets over mijzelf en de universiteit • Gastles: • zoeken in grote tekstbestanden • wiskunde zonder getallen • Inhoud • uitleg (10 min) • opdrachten + oplossingen (30 min) • Terugblik • samenvatting • werkt het echt? • Pak schrift & pen • Bij vragen: vinger opsteken • Als ik praat, dan zijn jullie stil • Opdrachten (straks!) in groepjes van 2
1. Marielle Stoelinga @ Universiteit Twente: • Management • team wetenschappers • projectleider onderzoek • buitenlandse congressen • Onderwijs • testtechnieken software • modelleertalen • afstudeerscripties • vandaag: 1st jaars vak • Onderzoek • bedenken nieuwe wiskunde • beter besturen robots • beter/sneller testen software • UT: na VWO of HBO; Saxion: lectoren
2. Gastles: zoeken in grote tekstbestanden Wiskunde Taalkunde ontmoet • Wat gaan we doen? • snel & efficiënt zoeken • wiskunde zonder getallen • 1ste-jaars vak universiteit Hoe gaan we te werk? • Uitleg • waarom zoeken in grote tekstbestanden • methode 1: dom zoeken • methode 2: slim zoeken 2. Opdrachten • bespreking oplossingen 3. Samenvatting
Zoeken in grote tekstbestanden: waarom? Zoeken in grote tekstbestanden: waarom? Iemand een idee waarom zoeken reuze handig is ? 5
Zoeken in grote tekstbestanden: waarom? Zoeken in grote tekstbestanden: waarom? Personen zoeken op Facebook Google:100 miljoen zoektermen per dag Google:100 miljoen zoektermen per dag Twitter: 800.000 zoektermen per dag Moet zeer up-to-date zijn Conclusie: zoeken moet snel en efficient zijn 6
Zoeken in grote tekstbestanden: waarom? ananas cacao cocacola kokos pinacolada • Woordzoekers oplossen • Van links naar rechts • Geen $$$, wel leuk 7
Zoeken in grote bestanden: hoe a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n s n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a a a a a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n a n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n a a a a n a s n a a n n s a s n a n a n a n a n a s n a s a n a s a n n a s n a s a s a n n a n a a n s a n a s n a s n a s a s a n a n a a n a s a n s a n n a s n a s a s a n n a a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a a s a n a s a s a n n a n a s a n a s a n n a s n a a n a s a n a s a n a s a ZOEK ananas IN
Zoeken in grote bestanden: hoe s a s a n a n a n a s a n a s a n n a s n a Yesss! Methode 1: dom zoeken • Mensen zien woorden ineens • Computers kunnen alleen letter voor letter zoeken a n a n a s a n a n a s a n a n a s a n a n a s a n a n a s a n a n a s 9
Zoeken in grote bestanden: hoe kan het slimmer? s a s a n a n a n a s a n a s a n n a s n a Hoe kunnen we slimmer zoeken? foute letter Je ziet hier al een gedeelte van het goede woord. Dat kunnen we slim gebruiken! 10
Zoeken in grote bestanden: hoe kan het slimmer? Methode 2: slim zoeken • Gebruik een diagram • Lees letters uit tekst en volg de pijlen • “Happy” bereikt = woord gevonden • Geen “happy” bereikt = woord komt niet voor Goede letters naar : a a a a n a n a s a an ana anan anana s n n,s s n,s n,s Foute letters: Met n of s terug naar begin Slim: ananan Tot nu toe gelezen letters vh woord
Opdrachten: • opdracht 1,2,4: • in groepjes van 2 • 5 minuten werken • dan bespreken • opdracht 3: • klassikaal
Terminologie: wat is wat? a a a a n a n a s a an ana anan anana s n n,s s n,s n,s • label • letter • Diagram • automaat • graaf met labels • “Bolletje” • Toestand • Engels: state • Pijl • (toestands)overgang / transitie • Engels: transition
Opdracht 1: a a a a n a n a s a an ana anan anana s n n,s s n,s n,s • Zoek het woord ananas in onderstaande tekst • Maak gebruik van het diagram s a s a a n s a n a n a n a s a n n a s n a
Opdracht 2: • Maak zelf het diagram voor het woord cacao • Letters: c,a,o Oplossing: a a a c a c a o c ca cac caca cacao c Dus: • Begin met goede woord • Schrijf gelezen letters bij elke positie • Maak pijlen voor foute letters • Controleer of je, bij elke positie, alle letters hebt 15
Opdracht 3 (klassikaal): • Maak een diagram dat uitzoekt of een tekst • OF het woord “pen” • OF het woord “nep” • OF allebei bevat • Letters: e,p,n e p a e n p p pe pen n e p e p e n e n ne nep n e 16
Opdracht 4: • Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat • Letters: a,b,c Oplossing: b,c b,c b,c a a a 1 a 2 a’s 3 a’s 0 a‘s 17
Terugblik Samenvatting • Zoeken in teksten is belangrijk • bv Google, Twitter, Facebook, MS Word • Met diagrammen kun je efficient zoeken in teksten • Is dit wiskunde? • Slimme / snelle methoden om problemen op te lossen • Niet altijd met getallen • Gebruikt Google dit echt? • Google houdt methoden geheim • Andere toepassingen (bv grep in Linux) gebruiken het zeker 18
Bedankt voor jullie aandacht&tot ziens! UT begeleidt ook profielwerkstukken Presentatietitel: aanpassen via Beeld, Koptekst en voettekst
Opdracht 1: antwoordvel a a a a n a n a s a an ana anan anana s n n,s s n,s n,s • Zoek het woord ananas in onderstaande tekst • Maak gebruik van het diagram s a s a a n s a n a n a n a s a n n a s n a
Opdracht 2: antwoordvel • Maak zelf het diagram voor het woord cacao • Letters: c,a,o 21
Opdracht 4: • Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat • Letters: a,b,c 22