430 likes | 550 Views
TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW. indeksowanie statystyczne indeksowanie probabilistyczne indeksowanie lingwistyczne. Indeksowanie statystyczne.
E N D
TRZY METODY AUTOMATYCZNEGO INDEKSOWANIA DOKUMENTÓW • indeksowanie statystyczne • indeksowanie probabilistyczne • indeksowanie lingwistyczne
Indeksowanie statystyczne Metody wykorzystujące statystyczne właściwości wyrazów lub wyrażeń występujących w tekście dokumentu w aspekcie danego dokumentu lub całego dokumentu.
Indeksowanie probabilistyczne Metody wykorzystujące rachunek prawdopodobieństwa w celu określenia prawdopodobieństwa wyszukania dokumentu relewantnego oraz wykorzystujące rozkłady częstości terminów w celu określenia tego prawdopodobieństwa.
Indeksowanie lingwistyczne Metody wykorzystujące automatyczną analizę językową w celu wyróżnienia w tekście dokumentu wyrażeń informacyjnie ważnych, znaczących dla jego treści.
Języki informacyjno-wyszukiwawcze JI-W to specjalistyczny sztuczny język, przeznaczony do odtwarzania podstawowej treści dokumentu i (lub) pytania informacyjnego w celu wyszukania ze zbioru informacyjnego tylko tych dokumentów, które odpowiadają na pytanie. (na podstawie słownika terminologicznego)
Języki informacyjno-wyszukiwawcze JI to język sztuczny, którego wyspecjalizowaną funkcją jest opis dokumentów w celu późniejszego odszukania ich na żądanie użytkownika. JI wyraża treść i/lub charakterystyki formalne ... dokumentów. JI umożliwia odwzorowanie treści dokumentu przez tworzenie jednoznacznej zwięzłej jej reprezentacji (możliwie najbardziej odpowiedniej semantycznie w stosunku do pełnego dokumentu) oraz jednoznaczne i sformalizowane wyrażenie charakterystyk formalnych dokumentu przez podanie (wyliczanie) ich w wyborze i w postaci ustalonych regułami danego języka informacyjnego. (E.Ścibor)
Klasyfikacja językówinformacyjno-wyszukiwawczych • Prekoordynacja – tworzenie wyrażeń złożonych z wyrażeń elementarnych danego języka informacyjno-wyszukiwawczego na etapie budowanie tego języka. • Postkoordynacja – tworzenie wyrażeń złożonych z wyrażeń elementarnych danego języka informacyjno-wyszukiwawczego podczas indeksowania lub wyszukiwania informacji, a nie podczas budowy tego języka.
1.Prekoordynacyjne języki inf.-wysz.1.1.Klasyfikacje wyliczające1.1.1.Klasyfikacje hierarchiczne1.1.2.Klasyfikacje alfabetyczno-przedmiotowe1.2.Klasyfikacje fasetowe 2.Postkoordynacyjne języki inf.-wysz.2.1.Języki deskryptorowe2.2.1.Język unitermów2.1.2.Język słów kluczowych2.1.3.Tezaurusy2.2.Kody semantyczne2.3.Syntole
Klasyfikacje hierarchiczne (1) Klasyfikacje hierarchiczne mają strukturę „drzewa wiedzy”, którego korzeń to całość określonej wiedzy (uniwersum), który następnie dzieli się na węższe, wzajemnie wykluczające się podklasy.
Klasyfikacje hierarchiczne (2) Klasyfikacja – to system klas. Klasyfikowanie – to proces przyporządkowywania obiektów (dokumentów, informacji, faktów, przedmiotów itp.) do klas według najistotniejszych cech, posiadanych przez te obiekty i jednocześnie odróżniających je od innych. Podstawa podziału – to cecha według której odbywa się podział.
Klasyfikacje hierarchiczne (3) Klasyfikacja powinna podlegać następującym regułom formalno-logicznym: • podziału klas powinno się dokonywać tylko według podstawy, • otrzymane w wyniku podziału podklasy powinny wykluczać się wzajemnie, • podział na podklasy powinien być równomierny, • podział na podklasy powinien być ciągły (bez przeskoków).
Klasyfikacje hierarchiczne (4) Podstawowe rodzaje relacji między członami klasyfikacji: • hierarchia (podrzędność) – relacja, w której jedna klasa stanowi podklasę innej, szerszej, • współzależność – wiąże klasy, które są podklasami jednej i tej samej szerszej klasy.
Klasyfikacja UKD • 1876 r. - system klasyfikacji dziesiętnej zaproponowany przez M. Deweya, • 1905 r. – klasyfikacja UKD, zaproponowana przez Belgów: Paul Otlet i Henri la Fontaine, • obecnie rozwojem UKD zajmuje się międzynarodowa organizacja FID.
Klasyfikacja UKD (2) Klasyfikacja dziesiętna UKD polega na tym, że cała wiedza ludzka, potraktowana jako całość, podzielona została na 10 działów głównych pierwszego stopnia, oznaczonych symbolami jednocyfrowymi od 0 do 9. Każdy z tych działów głównych dzieli się następnie na 10 działów drugiego stopnia, oznaczonych symbolami dwucyfrowymi, z których każdy dzieli się na dalszych 10 działów itd..
Klasyfikacja UKD (3) Tablice główne UKD: 0 – zagadnienia dotyczące podstawy wiedzy i kultury 1 – systemy filozoficzne, etyka, logika, psychologia 2 – teologia 3 – nauki społeczne – socjologia, ekonomia, ekonomika, prawo, polityka, opieka społeczna, oświata, etnografia 4 – (wolny) 5 – nauki ścisłe i przyrodnicze – matematyka, astronomia, fizyka, chemia, geologia, biologia, botanika, zoologia 6 – technika 7 – sztuki piękne, architektura, fotografia, kinematografia, sport 8 – językoznawstwo, lingwistyka, filologia, literatura 9 – historia, geografia.
Klasyfikacja UKD (4) Oprócz tablic głównych utworzono tablice symboli pomocniczych: • tablice poddziałów wspólnych – (globalne) zawierające powtarzające się elementy • tablice poddziałów analitycznych (lokalne, w obrębie danego działu).
Klasyfikacja UKD (5) Tablice UKD: • tablice główne • tablice pomocnicze (wspólne i analityczne) • indeksy przedmiotowe. Przykład kodu: 629.114.6BMW.004.5 instrukcja obsługi technicznej samochodu BMW.
Klasyfikacje hierarchiczne ZALETY: • niskie kwalifikacje przy indeksowaniu, • do kodowania stosuje się tylko cyfry i litery. WADY: • brak indeksowania wieloaspektowego, • nie są dogodne do wyszukiwania informacji według wcześniej nie przewidzianego zestawienia cech, • mała głębokość podziału, • regularnie odbiegają od osiągniętego poziomu wiedzy.
Klasyfikacjealfabetyczno-przedmiotowe Elementy strukturalne klasyfikacji alfabetyczno-przedmiotowej: • temat hasła przedmiotowego, • określnik hasła przedmiotowego, • zapis przedmiotowy (dodatkowe uściślenie hasła przedmiotowego).
Klasyfikacjealfabetyczno-przedmiotowe (2) ZALETY: • alfabetyczny porządek jest ogólnie znany, dlatego też do jego stosowania nie są potrzebne żadne specjalne znajomości ani środki pomocnicze, • o wiele łatwiejsze jest wprowadzanie nowych terminów niż w klasyfikacjach hierarchicznych, WADY: • nie jest możliwe wyszukiwanie informacji według dowolnych połączeń cech, • włączenie synonimów do przedmiotowego wykazu haseł wymaga zastosowania wielokrotnie krzyżujących się odsyłaczy, co znacznie komplikuje strukturę.
Klasyfikacje fasetowe 1933 r. indyjski filozof i teoretyk klasyfikacji Shiyali Ramamrita Ranganathan (1892-1972) zaproponował klasyfikację dwukropkową (ang. Colon Classification). Ranganathan wyróżnił 5 kategorii podstawowych: • Indywiduum (ang. Personality) • Materia (ang. Matter) • Energia (ang. Energy) • Przestrzeń (ang. Space) • Czas (ang. Time).
Klasyfikacje fasetowe (2) Faseta – dowolna z podstawowych kategorii przedmiotów lub ich nazw, stosowanych w danej dziedzinie. Fokus – każdy termin fasety. Formuła fasetowa – niezmienna kolejność (faset) w zakodowanym zapisie.
Klasyfikacje fasetowe (3) Przykład. Dziedzina: FILMY Fasety: GATUNEK, METRAŻ, KOLOR, FORMAT Fokusy: GATUNEK: fabularne, dokumentalne, kroniki METRAŻ: pełnometrażowe, krótkometrażowe KOOLOR: czano-biały, kolorowy, mieszany FORMAT: zwykłe, panoramiczne. G2,M2,K1,F2 – to film dokumentalny, krótkometrażowy, czarno-biały, panoramiczny.
Klasyfikacje fasetowe (4) ZALETY: • umożliwiają indeksowanie wieloaspektowe, • ułatwiają dogodne gromadzenie w jednym miejscu wszystkich aspektów jakiegoś tematu lub przedmiotu (w klasyfikacjach hierarchicznych te aspekty mogą być rozrzucone po różnych członach podziału, przy czy zwykle nie istnieją reguły odszukania tych członów), • dopuszczają zazwyczaj większą głębokość podziału pojęć niż klasyfikacje hierarchiczne, • Pozwalają łatwiej wprowadzać do swoich tablic nowe terminy (fokusy).
Klasyfikacje fasetowe (5) WADY: • duża pracochłonność w tworzeniu klasyfikacji, • trudności we wprowadzaniu do wąsko specjalistycznych klasyfikacji nowych terminów z dziedzin pokrewnych.
Kody semantyczne Kodami semantycznymi nazywamy takie postkoordynacyjne języki informacyjno-wyszukiwawcze, w których relacje paradygmatyczne między jednostkami leksykalnymi, tzn. relacje zachodzące między słowami określonego języka, niezależnie od kontekstu, w którym słowa te występują, wyrażone są przez same struktury ich jednostek leksykalnych.
Kody semantyczne (2) • USA – kod semantyczny Perry-Kenta J.W.Perry i A. Kent w latach 1954-1959 • kod opracowano na Western Research University (WRU) w Cleveland w satnie Ohio w USA dla Amerykańskiego Stowarzyszenia Metalurgów (American Society for Metals – ASM) • kod ASM-WRU.
Kody semantyczne (3) • ZSRR 1960-1964 - język RX-kodów • Ukraina, Kijów • zastosowano w systemie BIT.
Syntole Syntolami nazywamy takie postkoordynacyjne języki informacyjno-wyszukiwawcze, w których relacje paradygmatyczne wyrażone są odsyłaczami w słowniku, a także za pomocą tablic i/lub schematów graficznych.
Syntole (2) • SYNTagmatic Organization Language – język o syntagmatycznej organizacji, • 1660-1662 Maison des Sciences de l’Homme w Paryżu. Język SYNTOL, podobnie jak kody semantyczne, nie znalazł szerszego, praktycznego zastosowania.
Języki deskryptorowe • Unitermy • Słowa kluczowe • Tezaurusy
Zalety i Wady Zalety: • możliwość prowadzenia efektywnego wyszukiwania informacji według dowolnego, wcześniej nie przewidzianego, zestawienia cech, • możliwość łatwego wprowadzania nowych terminów, • zazwyczaj stosunkowo niewielki objętościowo słownik podstawowy.
Zalety i Wady Wady: • trudniejsze niż przy zastosowaniu klasyfikacji hierarchicznej i fasetowej wyszukiwanie informacji według pytań tematycznych (pytań dotyczących ogólnych zagadnień), • bardzo pracochłonne generowanie słów kluczowych, • trudne i pracochłonne budowanie tezaurusów.
Unitermy a słowa kluczowe Unitermy to pojedyncze wyrazy języka naturalnego, wykorzystywane do indeksowania i wyszukiwania informacji. Słowa kluczowe to wyrazy lub wyrażenia języka naturalnego, wykorzystywane do indeksowania i wyszukiwania informacji.
Identyfikacja unitermów w tekście PROBLEMY • kropki w skrótach • nawiasy () [] {} • apostrof ‘ • cyfry samodzielne, cyfry z literami • przecinki i kropki między cyframi (np. w liczbach) • pojedyncze litery np.. Witamina C, symbole chemiczne, znaki walut, itp. • adresy internetowe • małe i duże litery, • znaki diakrytyczne.
Stop lista • Stop lista to wykaz bardzo często używanych słów języka naturalnego, które jednak pełnią w tekście jedynie role pomocniczą. • 10 najczęściej używanych wyrazów w tekstach języka naturalnego to nawet 20-30 % tekstu • Przykłady z języka angielskiego: and, an, by, from, of, or, the, with
Wskaźniki więzi Wskaźniki więzi to symbole o takiej samej postaci (cyfry lub litery) przypisane do dwóch lub więcej terminów w charakterystyce wyszukiwawczej dokumentu w celu wykazania zachodzącej między nimi relacji syntagmatycznej i wyeliminowania szumu informacyjnego spowodowanego fałszywym kojarzeniem wyrazów.
Wskaźniki roli Wskaźnik roli to symbol zaczerpnięty z ustalonego wykazu symboli, dołączony do elementu języka informacyjno-wyszukiwawczego, w celu wskazania roli pojęcia (np.. surowiec, część itp.), reprezentowanego przez ten element w tekście dokumentu.
Przyrost liczby unitermów Przyrost liczby unitermów w zależności od liczby zaindeksowanych dokumentów ma charakter asymptotyczny. Przebieg funkcji przyrostu unitermów opisujemy następującym wzorem: Y = A (1 – e-kx) gdzie A – granica, do której dąży ogólna liczba unitermów w słownikach (zbiorach indeksowych), k – stała przyrostu, x – liczba zaindeksowanych dokumentów. Wielkość A zależy od zakresu tematycznego bazy. Współczynnik k zależy od szerokości indeksowania.
Tezaurus Tezaurus to zbiór semantycznie i hierarchicznie powiązanych terminów (deskryptorów i askryptorów) z określonej dziedziny wiedzy, stosowany do przekładu wyrazów języka naturalnego na terminy sformalizowanego języka informacyjno-wyszukiwawczego. W tezaurusie wyróżniamy dwa typy terminów: • deskryptory – terminy zalecane do indeksowania • askryptory – terminy zakazane, którymi są synonimy, terminy bliskoznaczne, terminy zbyt ogólne i zbyt szczegółowe oraz niektóre antonimy (askryptory wprowadza się do tezaurusa w celu ułatwienia odszukania reprezentujących je deskryptorów).
Tezaurus (2) Podstawowe relacje, uwzględniane w tezaurusie, to: • relacja synonimii – relacja umożliwiająca przyporządkowania każdemu terminowi odpowiadającego mu deskryptora, • relacja hierarchii – relacja wskazująca na terminy węższe lub szersze (ogólne lub bardziej szczegółowe w stosunku do innych). Ŧ = < T , S, B >
Tezaurus (3) Metody tworzenia tezaurusa: • metoda dedukcyjna • metoda indukcyjna.
Tezaurus (4) Części tezaurusa: • wprowadzenie, • część alfabetyczno-hierarchiczna, • część systematyczna, • indeks hierarchiczny, • wykazy indeksów.