340 likes | 600 Views
Informationsarkitektur og bibliografiske databaser. Bo Gerner Nielsen Det Informationsvidenskabelige Akademi. Agenda. Informationsarkitektur i bibliografiske databaser Karakteristika i opbygning Søgemuligheder og begrænsninger i inverterede filstrukturer.
E N D
Informationsarkitekturogbibliografiskedatabaser Bo Gerner Nielsen Det Informationsvidenskabelige Akademi
Agenda • Informationsarkitektur i bibliografiske databaser • Karakteristika i opbygning • Søgemuligheder og begrænsninger i inverterede filstrukturer
Informationsarkitektur og IR systemer 1/4 • Informationsarkitektur (IA) handler grundlæggende om at skabe en sammenhængende struktur i IR-systemer eller på websites med henblik på at give mulighed for genfinding af de data, som systemerne indeholder på en let tilgængelig måde. • Hvad enten det er tekst, billeder, lyd og musik, kunst, eller andet • På den måde handler IA og IR både om indhold, form og organisering – med udgangspunkt i brugernes behov og ønsker! (Chowdhury, 2010)
Informationsarkitektur og IR systemer 2/4 • Moderne IR-systemer giver muligheder for at søge i f.eks. • Bibliotekers databaser / kataloger • Faglige databaser • E-bøger • Tidsskrifter • Søge i e-mailsystemer • Intranet KU-net • Søgemaskiner • Emnekataloger • Digitale biblioteker • Søge musik i iTunes • Søge i sociale netværk Facebook (Chowdhury, 2010)
Informationsarkitektur og IR systemer 4/4 Typer af databaser: Reference databases • Bibliografiske • Kataloger • Vejvisere Source databases • Numeriske • Fuldtekst databaser • Tekst-numeriske • Multimedia (Chowdhury, 2010)
Konceptuel model af database med inverterede filer (inddata) (Dorte Aurvig, 2005)
Eksempelpost • 001 00 *a 20128542 *b 870970 *c 20010128224732 *d 19921103 *f a *t FAUST • 004 00 *r n *a e • 008 00 *t m *u u *a 1992 *b dk *j f *l dan *o b *v 0 • 009 00 *a a *g xx • 010 00 *a D747154057 • 021 00 *a 87-7724-280-7 *c hf. *d kr. 295,00 • 032 00 *a DBF199249 *x SFD199249 *x DAT199247 *x BØK *x SKO *x DAT200019 *a DBF *x SFD *x DAT *x DAT • 041 00 *a dan *c eng • 100 00 *0 *a Cooper *h J. F. • 241 00 *a The ¤last of the Mohicans • 245 00 *a Den ¤sidste mohikaner *c en fortælling fra 1757 *e J. Fenimore Cooper *f oversat af Gerd Have *ø Uforkortet udgave • 250 00 *a 1. udgave *b (Klims klass.) • 260 00 *a Århus *b Klim *c 1992 *k Narayana Press, Gylling • 300 00 *a 439 sider 440 00 *a Klims klassikere • 504 00 *a Mohikaneren Chingachgook, sønnen Uncas og den hvide spejder Falkeøje gør sammen med deres hvide engelske venner et forsøg på at befri to kvinder, som er bortført af den fjendtlige indianerstamme, irokeserne • 505 00 *a Fra 13 år • 512 00 *a Uforkortet udgave • 520 00 *a Originaludgave: 1826 • 526 00 *a 2. del af: Hjortedræber. Seriens indhold se denne • 652 00 *n 83.8 *z 296 • 652 00 *o sk • 652 00 *r 98.633 666 00 *0 *s indianere • 666 00 *0 *s historie 666 00 *0 *s 1750-1759 • 666 00 *0 *s USA • 666 00 *0 *s spændendebøger • s10 00 *a DBC http://www.kat-format.dk/danMARC2/felter03.htm
Filer og registre • Den lineære fil: posten registreres og lagres i den lineære fil. Ved fremvisning hentes posten i den lineære fil og præsenteres. • Den inverterede fil (hovedregister og supplerende registre): der søges i registrene i den inverterede fil • Enkeltordsregister og langords-/fraseregister
Parsing (ituklipning) 1/2 • Handler om at opdele i enkeltdele. • Baggrund for opbygning af den inverterede fil (hovedregister og supplerende registre)
Filstruktur • 289519 <Accession Number> • Title: Servants of Socrates in the land of Oz • Author: Blackburn, Harold • Journal: Clearing House, V57 n2 p69-71 Oct 1983 • Language: English • Document Type: Opinion Papers; Journal Articles • Abstract: Discusses the role of the microcomputer in the classroom. • Descriptors: Educational Improvement; Educational Quality; • Educational Technology; Futures (of Society); Learning • Theories; Microcomputers; Technological Advancement.
Filstruktur(fortsat) Hvilke ord vil være i hoved-registret for fx. ERIC databasen og hvilke vil være ord-/frase-registrerede?
Filstruktur (fortsat) • 289519 <Accession Number> • Title: Servants of Socrates in the land of Oz • TI1 TI3 TI4 TI6 TI8 • Author: Blackburn, Harold • AU • Journal: Clearing House, V57 n2 p69-71 Oct 1983 • JN PY • Language: English • LA • Document Type: Opinion Papers; Journal Articles • DT1 DT2 DT3 DT4 • Abstract: Discusses the role of the microcomputer in the classroom. • AB1 AB3 AB6 AB7 AB9 • Descriptors: Educational Improvement; Educational Quality; • DE1 DE2 DE3 DE4 • Educational Technology; Futures (of Society); Learning • DE5 DE6 DE7 DE9 DE10 • Theories; Microcomputers; Technological Advancement. • DE11 DE12 DE13 DE14
Filstruktur(fortsat) Hvilke ord vil være i hovedregistret for fx. ERIC databasen og hvilke vil være ord-/fraseregistrerede? Hovedregister for post 289519 TermTerm-addresse advancement 289519 DE14 classroom289519 AB9 discusses289519 AB1 educational 289519 DE1, DE3, DE5 educational improvement 289519 DE1, DE2 educational quality 289519 DE3, DE4 educational technology 289519 DE5, DE6 futures 289519 DE7 futures (of society) 289519 DE7, DE9 improvement 289519 DE2 in 289519 TI4, AB7 land 289519 TI6 learning 289519 DE10 learningtheories 289519 DE10, DE11 microcomputer 289519 AB6 …
Filstruktur(fortsat) Hvilke supplerende registre vil der være og hvordan vil disse se ud? Supplerende registre for post 289519 Term Term-adresse au=blackburn, harold 289519 dt=opinion papers 289519 jn=clearing house 289519 la=english 289519 py=1983 289519
Konceptuel model af database med inverterede filer (uddata) (Dorte Aurvig, 2005)
Registre 1/3 Hvilken betydning har registrene for søgning? Forudsætning for boolesk logik (AND, OR, NOT) og trunkering Giver mulighed for feltsøgning på: enkeltord, frase/langord, suffix (basicindex) og prefix (additionalindex)
Registre 2/3 Register “Alfabetiskellersystematiskordnetliste over ordogbegreber, somfindesi et antaldokumenter med detformål at lettegenfindingenafdetenkeltedokument” Søgeregistrekanindeholdeordfra mange forskelligefelter: Titelord Forfatter Emneord M.fl.
Registre 3/3 Enkeltordsregister (word indexed) Indeholderenkelteord Mestalmindeligeregistre Eks. emneord, titelord, forfatternavne Langordsregister (phrase indexed) Indeholderfraser Ét felt læggesindsoménhelhed Typisk for navneogkontrolleredeemneord
Registre 3/3 Langordsregister (phrase indexed) Indeholderfraser Ét felt læggesindsoménhelhed Typisk for navneogkontrolleredeemneord
Exactmatch 1/4 • Exact match = • der skal være fuldstændig overensstemmelse mellem de termer, der er anvendt i søgeformuleringen og de termer, der forekommer i posterne / dokumenterne. • Booleske operatorer • Boolesk søgning opdeler basen i to dele: • poster, der matcher forespørgslen <relevante poster?> • poster, der ikke matcher forespørgslen <ikke-relevante poster?>
Boolsk logik: OG / AND Eks. kat OG hund (551 poster)
Boolsk logik: ELLER / OR Eks. kat ELLER hund (14910 poster)
Boolsk logik: IKKE / NOT Eks. kat IKKE hund (7060 poster)
Exactmatch 2/4 • Kræver viden og øvelse at udforme søgestreng/søgeformulering ved hjælp af boolesk logik og kommandosprog • Brugeren kan have vanskeligt ved at overskue konsekvensen af de forskellige operatorer. • Brugeren skal vide i hvilken rækkefølge søgesystemet processerer operatorerne – eller tage sine forholdsregler (parenteser) • Et dokument, der ikke matcher queryen eksakt, kan godt være relevant – men det bliver ikke fundet
Exactmatch 3/4 • Forskellige brugere og formidlere vil beskrive samme problem med forskellige termer • Forskellige indeksører vil beskrive samme dokument med forskellige termer • Kræver et grundigt kendskab til basen, da man ellers ikke vil kunne forudsige, hvor stort et omtrentligt søgeresultat, man får • Alle termerne i dokumentet og i søgeargument antages at være lige relevante for den, der søger (Vægt = 1 eller 0) relativ vægtning af queryens komponenter er ikke mulig
Exactmatch 4/4 • ”Opblødning” af exact match • Trunkering • Venstretrunkering – joker anvendesved start • Eks ?beredskab (forsvarsberedskab, brandberedskab) • Højretrunkering – joker anvendesved slut • Eks. psyko? (psykolog, psykologi, psykopat) • Maskering • Vedmaskeringanvendesjokertegnetimidten • Eksempelvis: • wom?n (inkluderer:woman / women) • organi?ation (inkluderer: organisation / organization)
Opsummering • IA i bibliografiske informationssystemer er karakteriseret ved brug af inverterede filstrukturer • Søgning foregår i registrene • Boolsk logik og exact match definerer muligheder og begrænsninger
Slut Kommentarer eller spørgsmål?
Referencer • Aurvig, Dorthe (2005a). Databasens arkitektur: Eksempelpost. Referencen, 35(1): 11-17. • Aurvig, Dorthe (2005b). Databasens arkitektur: Basen dannes. Referencen, 35(2), 18-27. • Bruhns, Svend (2004). Bibliografisk online søgning for begyndere. 3. udg. ved Annette Skov. Klarup: Bibliografica. Kapitel 5. • Chowdhury, G.G. (2010). Introduction to modern information retrieval. 3 ed. London: Facet Publishing. 508 s. • Large, Andrew; Tedd, Lucy & Hartley, R.J. (1999). Information seeking in the online age: Principles and practice. London: Bowker-Saur s. 109-131. • Jenkins, M.-C.Learningabout SEO. http://www.scienceforseo.com/learning-about-ir/