760 likes | 959 Views
Báze ANL FULL v systému TOPIC Inforum Praha, 22. května 2002. Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování NKČR Anopress. závažnost významnost důležitost adekvátnost. závažný významný důležitý adekvátní, odpovídající.
E N D
Báze ANL FULL v systému TOPICInforumPraha, 22. května 2002 Ivana Anděrová, NKČR Ivo Mattern, Anopress Josef Kučera, Anopress Oddělení analytického zpracování NKČR Anopress
závažnost významnost důležitost adekvátnost závažný významný důležitý adekvátní, odpovídající Relevance - relevantní
příslušnost potřebnost využitelnost příslušný potřebný využitelný Pertinence - pertinentní
Relevance, pertinence? • relevance je určitý stupeň shody mezi entitami, oblastmi, prvky, jevy • může být formální a obsahová • má relativní charakter v závislosti na čase a místě • relevance odpovídající konkrétní potřebě koncového uživatele se nazývá pertinence
Komunikační proces - komplexní pohled na relevanci • relevance systému tvorby a potřeby informací • relevance informačního systému vzhledem k jeho funkci a postavení v komunikačním procesu • relevance z hlediska funkcí a procesů probíhajících v informačním systému
Relevance a vyhledávání • relevance vyhledávání je závislá na poměru mezi úplností a přesností vyhledávání • úplnost výsledku vyhledávání (recall) - poměr mezi nalezenými dokumenty a všemi relevantními dokumenty v databázi • přesnost výsledku vyhledávání (precision) - poměr mezi nalezenými relevantními dokumenty a mezi všemi nalezenými dokumenty • úplnost a přesnost vyhledávání se měří koeficientem úplnosti a přesnosti • optimálně: hodnota koeficientu přesnosti a úplnosti se rovná jedné
Selekční jazyk, zpracování a vyhledávání • selekční jazyk je nástroj určený k formulaci identifikačních a obsahových údajů o dokumentu (selekčního obrazu) a k formulaci dotazu uživatele (selekčního předpisu) • kvalita vyhledávání závisí na tom, do jaké míry selekční jazyk odráží a vystihuje obsah a strukturu dokumentu a dotazu • kvalita výsledku vyhledávání je určena mírou shody selekčního obrazu a selekčního předpisu a do jaké míry vyhovuje uživatelově informační potřebě
Sémiotika – tři úrovně sdělování a jazyka • syntaktická úroveň (formální přenos zpráv, elementy jazyka a jejich vzájemné vazby, formální uspořádání) • sémantická úroveň (přenos zpráv z hlediska obsahu, vztah elementů k mimojazykovým entitám, vztah mezi znaky a objekty) • pragmatická úroveň (soustavy, mezi nimiž dochází ke komunikaci - účinky komunikace na vysílajícího a příjemce)
Richardsonův trojúhelník reference – znázornění znakové situace Richardsonův trojúhelník reference – znázornění znakové situace reference (myšlenka) vztahuje se k symbolizuje referent (denotát, věc) symbol vložený vztah prostřednictvím myšlení
Richardsonův trojúhelník - aplikace na selekční jazyk sémantická úroveň - věcný obsah deskriptorů pragmatická úroveň - užití deskriptorů ve sdělení syntaktická úroveň - pravidla psaní a řazení deskriptorů
Tři úrovně analýzy relevance z hlediska poskytnuté informace • formální relevance (formální vztah poskytnuté informace k obsahu dotazu) - vztah syntaxe • věcná relevance ( vztah obsahu poskytnuté informace k obsahu dotazu) - sémantický vztah • pertinence (vztah poskytnuté informace k informační potřebě) - pragmatický charakter
Trojúhelník reference a tři úrovně analýzy relevance věcná relevance pertinence formální relevance
Vztah relevance (formální, věcné) a pertinence pertinence relevance relevance=pertinence
Vztah množin formálně, věcně relevantních a pertinentních dokumentů a informačního fondu formálně relevantní nalezené dokumenty věcně relevantní dokumenty dotaz informační fond pertinentní dokumenty nalezené pertinentní dokumenty
Efektivnost informačního systému - kritéria • ekonomická efektivnost (zisk, náklady, rentabilita) • selekční efektivnost (vyhledání a poskytnutí relevantních, resp. pertinentních informací) • flexibilita (kritéria časová a schopnost přizpůsobit se změnám)
Zpřístupnění českých plných textů a některé projekty • Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů (VaV, MKČR, 1999-2003) • Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat (VaV, MKČR, 2000-2004)
Rámec zpřístupnění plných textů a ANL FULL • zdroje plných textů • získávání plných textů • zpracování záznamů a plných textů • identifikace plných textů • propojení záznamů s plnými texty • uložení plných textů • vyhledání a zpřístupnění plných textů • výstupy • uživatelé • služby a platby
Zpracování článků v ČR. KOSABI. Báze ANL. Báze ANL FULL • zpracování článků v ČR - rozsáhlé co do zdrojů i typů institucí • Kooperační systém článkové bibliografie - „užší“ a „širší“ • kooperace po linii regionální a oborové • souborná bibliografická databáze KOSABI - ANL a lokální databáze spolupracujících institucí, plnotextová báze ANL FULL s metadaty
lokální KOSABI lokální ANL FULL plnotextová, metadata ANL souborná bibliografická lokální lokální lokální
Obsah báze ANL, ANL FULL (duben 2002) • počet : ANL 710 000 bibliografických záznamů, ANL FULL 92 000 plných textů s metadaty • počet zpracovávaných titulů: ANL 210 v NKČR, 469 ve spolupracujících institucích; ANL FULL 30 titulů, běžně zpracovávaných zatím 14 • časové pokrytí: ANL 1990/91 -, ANL FULL 1997-
Charakteristika obou bází • výběrové článkové databáze • obory: všechny (lékařství a sport okrajově, technika posílila) • typy seriálů (časopisy, sborníky, ročenky vydávané AVČR, vysokými školami aj. institucemi, noviny a kulturně politické časopisy, populárně-naučné časopisy omezeně) • úplnost excerpce (výběr článků vzhledem k typům seriálů) • typy článků (faktograficky přínosné, odborné, s dokumentární a uměleckou hodnotou, recenze, biografické články, akce, rozhovory, komentáře..) • popis (UNIMARC, AACR2, MDT-MRF, předmětové kategorie, hesla, klíčová slova)
Srovnání bází ANL a ANL FULL • ANL zpracovávána v sytému ALEPH+lince zpracování TTDE a zpřístupněna v ALEPHu, ANL FULL vzniká v lince zpracování TTDE a zpřístupněna v systému TOPIC • ANL obsahuje bibliografické záznamy, ANL FULL plné texty s metadaty • ANL obsahuje všechny typy stanovených seriálů • ANL FULL obsahuje zatím deníky a některé časopisy • záznamy ANL jsou propojeny s plnými texty ANL FULL, ANL FULL doplňuje ANL • ANL FULL je doplněna portálem volně přístupných textů na internetu a samostatnou aplikací pro zpřístupnění periodika Národní knihovna • ANL propojena na vybrané volně přístupné www tituly
Zpracování v ALEPHu a v rámci linky zpracování TTDE v NKČR, zpracování v KOSABI • báze ANL - přírůstek NKČR - 3266 záznamů / měsíc / 11 úvazků / jmenný a věcný popis, z toho: • zpracování v ALEPHu - 1689 záznamů / měsíc / 7,5 úvazku - jmenný a věcný popis ručně, linka zpracování TTDE - 1577 záznamů / měsíc / 3,5 úvazku - jmenný popis extrahován a generován automaticky, věcný popis ručně • zpracování v ALEPHu - 11 záznamů / úvazek /den, zpracování v TTDE - 21 záznamů / úvazek /den • báze ANL - přírůstek z kooperujících institucí:1000 záznamů / měsíc
Báze ANL FULL. Architektura systému zpracování a zpřístupnění plných textů • v současné době ANL FULL vzniká on-line v rámci linky zpracování TTDE bibliografických záznamů, resp. metadat z plných textů, které jsou získávány z databáze Tam Tam (Anopress) • plné texty získány též v rámci konzorcia Anopress, retrospektiva - nákup • báze je provozována v systému TOPIC
TamTam TTSNK Lokální pracovní stanice- TTDE Internet Information Server Aplikační, datový server – TOPIC, DELL, Win NT ALEPH OPAC Web server
Linka zpracování, lokální stanice TamTam dokumenty TTSNK
Linka zpracování. Výstupy pro ANL/ALEPH a ANL FULL/TOPIC v praxi
Systém TOPIC - principy • Produkt americké firmy Verity, v současné verzi Portal One.V ČR TOPIC a další produkty založené na stejné technologii dodává firma TOVEK, s.r.o. • fulltextový pojmově orientovaný vyhledávací systém, pojmové vyhledávání (concept retrieval) pomocí strukturovaných dotazů (topiců) • hodnocení důležitosti vyhledaných dokumentů vzhledem k dotazu (relevance ranking) • kvantifikace obsahu dokumentů • shlukování dokumentů podle společného kontextu (clustering) a vytváření automatické anotace - sumarizace (summarization) • interaktivní vyhledávací systém – hledání dokumentů s podobným obsahem - volný dotaz (Free Text Query), dotaz příkladem (Query By Example)
TOPIC a relevance • relevance je důležitost vyhledaného dokumentu vzhledem k dotazu, vyjadřujeme ji pomocí skóre dokumentu • skóre je číslo mezi 0-100 (%), = relevance dokumentu, výpočet provádí TOPIC
Topic=dotaz • dotaz - výraz složený ze slov a frází, který hledáme v dané databázi • topic - je předem definovaný uložený strukturovaný dotaz, resp. téma, které je tvořeno slovy, frázemi, operátory a modifikátory; obsahuje informace o předmětu hledání • topic má podobu pojmového stromu, na jeho nižších úrovních (větvích) jsou množiny dalších pojmů, resp. témat, která jsou tvořena dále nedělitelnými klíčovými slovy (listy) • pojmový strom tvoří vyhledávací podmínku pro dokumenty týkající se určitého tématu • topic je konceptuální popis znalosti o dané problematice ve formě znalostního stromu • definice topiců tvoří tzv. znalostní bázi
Konstrukce topicu • jednotlivé větvě topicu, resp. témata, resp. slova jsou připojena k vyšší úrovni operátory • důležitost pojmů resp. témat, resp. slov je určena váhami • topic se vytváří speciálním editorem • předpoklad: dobrá znalost operátorů a orientace v dané oblasti
Topic - některé operátory, modifikátory • listové operátory: WORD, STEM, SOUNDEX, WILDCARD, THESAURUS, SUGGEST a TYPO • proximitní operátory: PHRASE, SENTENCE,PARAGRAPH, NEAR • koncepční operátory: AND, OR a ACCRUE • logické operátory: ANY a ALL • relační operátory: rovnost `=', větší než `>', větší nebo rovno `>=', menší než `<', menší nebo rovno `<=', MATCHES, SUBSTRING, CONTAINS, STARTS,ENDS • modifikátory (specifikují chování operátorů): MANY, CASE, NOT, ORDER
Topic - váhy • váha je číslo mezi 0-100 (%) vyjadřující důležitost hledaného výrazu ve vztahu k dotazu • váhy lze použít pouze u “výrazů“ připojených pomocí koncepčních operátorů (AND, OR a ACCRUE); pokud váhu neuvedeme, použije se standardní váha - pro AND a OR1.00, pro ACCRUE0.50 • přiřazením váhy k “výrazu“ určujeme, jak (od 0.01 do 1.00) se „výraz“ podílí na celkovém skóre daného dokumentu při výběru; změnou vah je možno změnit pořadí dokumentů v seznamu dokumentů dle skóre relevance
ACCRUE sbližuje operátor AND a OR: “čím více různých klíčových slov nalezeno, tím je dokument důležitější“ ACCRUE řeší dilema mezi přesností a úplností Fuzzy operátor ACCRUE Dotaz (X Y Z) Chci najít Najdu (X and Y and Z) Accrue (X,Z,Y) (X or Y or Z) Ztráta úplnosti Optimální výsledek Ztráta přesnosti
Topic - znaková situace obsah dotazu ekologie, životní prostředí topic popis dotazu použitá znalost, strukturovaný dotaz ochránci životního prostředí, ochrana životního prostředí, krajina, příroda, voda, řeka, …. Ekologie
Báze ANL FULL v systému TOPIC, jak se zaregistrovat • v současné době obsahuje výběr článků z celostátních deníků, některé kulturně politické, ekonomické tituly, periodikum Národní knihovna, okrajově některé regionální tituly, doplněna portálem volně přístupných textů na internetu (strukturovaný oborově a regionálně) • vzniká v lince zpracování bibliografických záznamů z plných textů TTDE • přístup: interní uživatelé NK - metadata a plné texty, externí uživatele - metadata, plné texty zkušebně na 7 dnů