1 / 22

Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden

Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden. Mariëlle Stoelinga Universitair Hoofddocent Informatica Universiteit Twente. Agenda: wat doen we vandaag?. Iets over mijzelf en de universiteit Gastles: zoeken in grote tekstbestanden wiskunde zonder getallen Inhoud

phoebe
Download Presentation

Universiteit Twente meets SG Twickel Zoeken in grote tekstbestanden

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Universiteit Twente meets SG TwickelZoeken in grote tekstbestanden Mariëlle Stoelinga Universitair Hoofddocent Informatica Universiteit Twente Presentatietitel: aanpassen via Beeld, Koptekst en voettekst

  2. Agenda: wat doen we vandaag? • Iets over mijzelf en de universiteit • Gastles: • zoeken in grote tekstbestanden • wiskunde zonder getallen • Inhoud • uitleg (10 min) • opdrachten + oplossingen (30 min) • Terugblik • samenvatting • werkt het echt? • Pak schrift & pen • Bij vragen: vinger opsteken • Als ik praat, dan zijn jullie stil • Opdrachten (straks!) in groepjes van 2

  3. 1. Marielle Stoelinga @ Universiteit Twente: • Management • team wetenschappers • projectleider onderzoek • buitenlandse congressen • Onderwijs • testtechnieken software • modelleertalen • afstudeerscripties • vandaag: 1st jaars vak • Onderzoek • bedenken nieuwe wiskunde • beter besturen robots • beter/sneller testen software • UT: na VWO of HBO; Saxion: lectoren

  4. 2. Gastles: zoeken in grote tekstbestanden Wiskunde Taalkunde ontmoet • Wat gaan we doen? • snel & efficiënt zoeken • wiskunde zonder getallen • 1ste-jaars vak universiteit Hoe gaan we te werk? • Uitleg • waarom zoeken in grote tekstbestanden • methode 1: dom zoeken • methode 2: slim zoeken 2. Opdrachten • bespreking oplossingen 3. Samenvatting

  5. Zoeken in grote tekstbestanden: waarom? Zoeken in grote tekstbestanden: waarom? Iemand een idee waarom zoeken reuze handig is ? 5

  6. Zoeken in grote tekstbestanden: waarom? Zoeken in grote tekstbestanden: waarom? Personen zoeken op Facebook Google:100 miljoen zoektermen per dag Google:100 miljoen zoektermen per dag Twitter: 800.000 zoektermen per dag Moet zeer up-to-date zijn Conclusie: zoeken moet snel en efficient zijn 6

  7. Zoeken in grote tekstbestanden: waarom? ananas cacao cocacola kokos pinacolada • Woordzoekers oplossen • Van links naar rechts • Geen $$$, wel leuk 7

  8. Zoeken in grote bestanden: hoe a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n s n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a a a a a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n a n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n a a a a n a s n a a n n s a s n a n a n a n a n a s n a s a n a s a n n a s n a s a s a n n a n a a n s a n a s n a s n a s a s a n a n a a n a s a n s a n n a s n a s a s a n n a a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a s n a s a s a n n a n a s a n a s a n n a s n a s a s a n a n a a n a s a n a s a n n a a s a n a s a s a n n a n a s a n a s a n n a s n a a n a s a n a s a n a s a ZOEK ananas IN

  9. Zoeken in grote bestanden: hoe s a s a n a n a n a s a n a s a n n a s n a Yesss! Methode 1: dom zoeken • Mensen zien woorden ineens • Computers kunnen alleen letter voor letter zoeken a n a n a s a n a n a s a n a n a s a n a n a s a n a n a s a n a n a s 9

  10. Zoeken in grote bestanden: hoe kan het slimmer? s a s a n a n a n a s a n a s a n n a s n a Hoe kunnen we slimmer zoeken? foute letter Je ziet hier al een gedeelte van het goede woord. Dat kunnen we slim gebruiken! 10

  11. Zoeken in grote bestanden: hoe kan het slimmer? Methode 2: slim zoeken • Gebruik een diagram • Lees letters uit tekst en volg de pijlen • “Happy” bereikt = woord gevonden • Geen “happy” bereikt = woord komt niet voor Goede letters naar : a a a a n a n a s a an ana anan anana s n n,s s n,s n,s Foute letters: Met n of s terug naar begin Slim: ananan Tot nu toe gelezen letters vh woord

  12. Opdrachten: • opdracht 1,2,4: • in groepjes van 2 • 5 minuten werken • dan bespreken • opdracht 3: • klassikaal

  13. Terminologie: wat is wat? a a a a n a n a s a an ana anan anana s n n,s s n,s n,s • label • letter • Diagram • automaat • graaf met labels • “Bolletje” • Toestand • Engels: state • Pijl • (toestands)overgang / transitie • Engels: transition

  14. Opdracht 1: a a a a n a n a s a an ana anan anana s n n,s s n,s n,s • Zoek het woord ananas in onderstaande tekst • Maak gebruik van het diagram s a s a a n s a n a n a n a s a n n a s n a

  15. Opdracht 2: • Maak zelf het diagram voor het woord cacao • Letters: c,a,o Oplossing: a a a c a c a o c ca cac caca cacao c Dus: • Begin met goede woord • Schrijf gelezen letters bij elke positie • Maak pijlen voor foute letters • Controleer of je, bij elke positie, alle letters hebt 15

  16. Opdracht 3 (klassikaal): • Maak een diagram dat uitzoekt of een tekst • OF het woord “pen” • OF het woord “nep” • OF allebei bevat • Letters: e,p,n e p a e n p p pe pen n e p e p e n e n ne nep n e 16

  17. Opdracht 4: • Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat • Letters: a,b,c Oplossing: b,c b,c b,c a a a 1 a 2 a’s 3 a’s 0 a‘s 17

  18. Terugblik Samenvatting • Zoeken in teksten is belangrijk • bv Google, Twitter, Facebook, MS Word • Met diagrammen kun je efficient zoeken in teksten • Is dit wiskunde? • Slimme / snelle methoden om problemen op te lossen • Niet altijd met getallen • Gebruikt Google dit echt? • Google houdt methoden geheim • Andere toepassingen (bv grep in Linux) gebruiken het zeker 18

  19. Bedankt voor jullie aandacht&tot ziens! UT begeleidt ook profielwerkstukken Presentatietitel: aanpassen via Beeld, Koptekst en voettekst

  20. Opdracht 1: antwoordvel a a a a n a n a s a an ana anan anana s n n,s s n,s n,s • Zoek het woord ananas in onderstaande tekst • Maak gebruik van het diagram s a s a a n s a n a n a n a s a n n a s n a

  21. Opdracht 2: antwoordvel • Maak zelf het diagram voor het woord cacao • Letters: c,a,o 21

  22. Opdracht 4: • Maak een diagram dat uitzoekt of een tekst 3 (of meer) a’s bevat • Letters: a,b,c 22

More Related