300 likes | 503 Views
PREDMETNE ANALIZE I REPREZENTACIJA ,. Predmet: Napredne metode u pretraživanju informacija prof. Cvetana Krstev prezentacija Mirjana Nešić master studije, index 930232M februar 2011.
E N D
PREDMETNE ANALIZE I REPREZENTACIJA , Predmet: Napredne metode u pretraživanju informacija prof. Cvetana Krstev prezentacija Mirjana Nešić master studije, index 930232M februar 2011.
Uskladjivanje sadržaja dokumenta sa korisnikovim upitom jeste jedna od glavnih funkcija Sistema pretraživanja informacija (Information retrieval system). • Sadržaj svakog dokumenta, kojim se dopunjava kolekcija, mora biti analiziran i predstavljen na takav način da bude pogodan za uparivanje (matching). • Za svaki dokument mora se pripremiti surogat i svi ti surogati moraju se održavati na organizovan način. • Proces stvaranja surogata dokumenta, dodeljivanjem identifikatora, naziva se indeksiranje.
Kada je zadatak indeksiranja zasnovan na konceptualnoj analizi predmeta dokumenta, onda se on naziva predmetnim indeksiranjem. • Indeksiranje je dugo vremena vršio ljudski faktor. U poslednje vreme taj zadatak obavljaju automatski sistemi – računari. Ipak, glavni zadaci u vezi sa indeksiranjem u osnovi su isti – analiziranje sadržaja odredjenog dokumenta i predstavljanje dobijenih analiza, putem identifikatora ili ključnih reči. • Lankaster smatra da proces predmetne analize čine dva posebna intelektualna koraka: • konceptualna analiza i • reprezentacija
U predmetnoj klasifikaciji glavni cilj je kreirati dokumente u skladu sa njihovim predmetnim sadržajem, a rezultat konceptualne analize je predstavljen odredjenim veštačkim jezikom ili simboličnim oznakama. Razne vrste ovakvih sistema su dugo u upotrebi: Djuijeva decimalna klasifikacija, Univerzalna decimalna klasifikacija, Klasifikacija Kongresne biblioteke, Kolon klasifikacija. • U predmetnom indeksiranju glavni cilj je upariti sadržaj dokumenta sa upitom korisnika i tako je produkt konceptualne analize predmeta predstavljen u formi prirodnog jezika. Godinama su razvijani brojni sistemi za pripremanje predmetnih indeksnih odrednica dokumenata: Chain, PRECIS, POPSI, Relational Indexing, itd.
Jedan od glavnih problema u procesu predmetnog indeksiranja odnosi se na izbor odgovarajućih ključnih reči ili deskriptora, kroz koje bi indeksna odrednica trebalo da bude predstavljena. Indekseri preferiraju ne samo one ključne reči koje predstavljaju predmet jasno, već i one koje su često birane od strane korisnika, koji traže taj predmet. • Iz potrebe da se standardizuje zadatak odabira odgovarajućih ključnih reči za generaciju indeksnih odrednica–razvijani su brojni brojni rečnički instrumenti, kao što su tezaurusi, klasaurusi, tezaurofaceti, itd.
Ovi alati pomažu indekserima u odabiru pojma koji u najvećoj meri predstavlja predmet u fazi indeksiranja, dok korisnicima pomažu u odabiru najadekvatnijih pojmova za formulaciji upita. Ipak, svi ovi alati i tehnike - budući da su bazirani na intelektualnim sposobnostima indeksera – pokazuju se neefikasnim na mnogim mestima. • Da bi se izbegla potpuna zavisnost od ljudskog intelekta – istraživači su zamislili da automatizuju ceo proces predmetnog indeksiranja i klasifikacije.
Većina sistema za automatsku analizu sadržaja, razvijenih do sada, zasniva se na statističkom proračunu ključnih reči u dokumentu. Ukazujući na očigledne nedostatke ovakvih sistema, baziranih na statistici, neki istraživači ukazali su na potrebu za sintaksičkom i semantičkom analizom teksta, korišćenjem računarske lingvistike u procesu analize sadržaja.
KLASIFIKACIJA • Prva bibliotečku klasifikacionu šemu razvio je Melvil Djui 1876. godine. (DDC). • Univerzalna decimalna klasifikacija (UDC) je druga glavna klasifikaciona šema koja se pojavila. Kao i DDK, UDK je u osnovi brojčana šema, ali ima dosta sintetičkih elemenata, nakalemljenih na svoje osnovno jezgro, što doprinosi velikoj fleksibilnosti. Primeri gradjenja UDK brojeva: 53(038) – Rečnik iz fizike 622 + 629 - Rudarstvo i metalurgija
Ranganatanova Kolon klasifikacija (CC) Primer analitičko-sintetičke klasifikacione šeme, koja dozvoljava klasifikatoru da, u samom radu, utvrdi različite aspekte predmeta, a zatim napravi klasni broj korišćenjem sintetičkih elemenata. Primeri: • Matematika B • Hemija E • Vatra E:2131
Klasifikacija Kongresne biblioteke (LC) • Primer polu-brojčane šeme klasifikacije, koja obezbedjuje dugu listu svih klasa u univerzumu predmeta; ona dozvoljava manje fleksibilnosti za utvrdjivanje klasnih brojeva sintezom. Primeri: • Inženjerstvo HD8039.E5 • Ljubav BF575.L8 • Ostale klasifikacione šeme: Blisova Bibliografska Klasifikacija (BC), Braunova Predmetna klasifikacija (SC), Rajderova Medjunarodna klasifikacija, itd.
Djuijeva decimalna klasifikacija (DDC) 1876. • DDC je najrasprostranjeniji klasifikacioni sistem na svetu. Koristi se u oko 135 zemalja i preveden je na preko 30 jezika. U SAD-u oko 95% svih javnih i školskih, 25% visokoškolskih i univerzitetskih i oko 20% specijalnih biblioteka koristi DDC. • U ovoj klasifikaciji celokupno znanje je podeljeno na 10 oblasti, od kojih je svaka glavna klasa, a svaka klasa je potom podeljena u 10 glavnih oblasti, i tako sukcesivno, vodeći do oblasti i podoblasti različitih disciplina, predmeta i koncepata, odakle i izraz decimalna klasifikacija.
Glavne smernice za DDC klasifikaciju: • Dokument klasifikovati po predmetu, pa onda po formi, osim u polju književnosti. Na primer, rečnik bibliotečke nauke će biti klasifikovan u bibliotečku nauku, a ne medju rečnike. Ovde je predmet mnogo bitniji nego forma u kojoj je predstavljen. • Dela književnosti klasifikovati prvo po jeziku na kojem su, a onda po formi u kojoj se nalaze. (npr. engleska drama – prvo kao engl. književnost, a potom kao drama). • Kada se radi o dva ili više predmeta u delu: - prednost se daje onom predmetu na kojem je akcenat - ako je akcenat na oba podjednak – prednost se daje prvom (prvi-od-dva-pravilo), ...
Glavne klase • 000 Opšta • 100 Filozofija • 200 Religija • 300 Društvene nauke • 400 Jezik • 500 Prirodne nauke • 600 Tehnologija (primenjene nauke) • 700 Umetnost • 800 Književnost • 900 Geografija i istorija
Glavne oblasti za klasu tehnologije • 600 Tehnologija • 610 Medicina • 620 Inženjerstvo • 630 Poljoprivreda • 640 Ekonomija • 650 Menadžment • 660 Hemija • 670 Industrija • 680 Industrija za odredjene oblasti • 690 Gradjevinarstvo
Glavne oblasti za klasu Inženjerstva • 620 Inženjerstvo i primenjene operacije • 621 Primenjena fizika • 622 Rudarstvo i srodne grane • 623 Vojno i nautičko inženjerstvo • 624 Gradjevina • 625 Železnica, putevi i autoputevi • 626 neupotrebljeno • 627 Hidraulično inženjerstvo • 628 Sanitarno i komunalno inženjerstvo • 629 Ostale grane inženjerstva
Tablice iz prvog toma se ne mogu koristiti samostalno, već se kombinuju sa glavnim klasnim brojevima: • Tablica 1: standardna podoblast (studiranje i učenje bibliotečke i informacione nauke 020.7) • Tablica 2: područje (inostrana politika Etiopije 327.63) • Tablica 3: podoblast za različite književnosti (Istorija nemačke književnosti 830.9) • Tablica 4: podoblast za posebne jezike (Izgovor finskih reči 494.54181) • Tablica 5: rasne, etničke, nacionalne grupe (Umetnost keramike u Kini 738.089951) • Tablica 6: jezici (Prevod Biblije na holandski jezik 220.53931) • Tablica 7: osobe (Deca kao umetnici 704.054)
Klasifikacija internet izvora • Iako su klasifikacione šeme uglavnom bile razvijane za organizovanje bibliografskih jedinica na bibliotečkim policama, mnogi istraživači su koristili bibliotečke klasifikacione šeme za organizaciju informacionih izvora na internetu. Evo nekoliko tipičnih primera. • BUBL LINK Bubl link obezbedjuje pristup katalogu od preko 11.000 odabranih izvora, iz oblasti svih akademskih predmeta, katalogiziranih u skladu sa DDC. Može se pretraživati po Djuijevim klasama ili odabirom pojma/fraze iz alfabetskog indeksa.
Sledeći primer pokazuje listu stavki/članaka o digitalnim bibliotekama, po klasama:
Sledeći primer pokazuje rezultate pretrage na upit “searching and use of digital libraries”:
CyberDewey Ovo je još jedan primer korišćenja DDC u organizaciji digitalnih inormatičkih resursa i datira iz 1995. godine. Takodje se može pretraživati kroz Djuijeve klase ili kroz alfabetski indeks. • Scorpion Ovo je projekat OCLC (Online Computer Library Center) Sektora za istraživanja indeksiranja i katalogizovanja internet resursa. Njegov cilj bio je da izgradi alate za automatsko prepoznavanje predmeta, kombinujući bibliotečku nauku i tehnike pronalaženja informacija. Počeo je kao istraživački projekat sa osvrtom na:
izgradivanje alata za automatsko odredjenje predmeta • izgradivanje alata za smanjenje troškova katalogizacije od strane ljudi • bolje razumevanje toga koji kataloški koncepti mogu biti automatizovani • dalju upotrebu i poboljšanje DDC • pronalaženje načina za poboljšane pretrage • CyberStacks Ovo je centralizovana, integrisana i jedinstvena kolekcija odabranih internet resursa, kategorizovanih po klasifikacionoj šemi Kongresne biblioteke. Ona dozvoljava korisnicima da pretražuju memoriju virtuelne biblioteke, koja sadrži monografske i serijske publikacije, datoteke, baze podataka, ili da pretražuju servise da bi pronašli potencijalno vredne informacione resurse.
Scout Report • Osnovan je kao istraživački projekat US nacionalne naučne fondacije (1996-2000). • Primarni cilj ovog projekta bio je da pokaže da internet resursi mogu da budu katalogizovani, klasifikovani i uredjeni, korišćenjem postojećih preglednih rečnika i klasifikacija, kao što je klasifikacija Kongresne biblioteke u skladu sa standardom Dablin jezgra (Dublin core) meta podataka. Projekat se završio 2000. godine, a materijali su sada dostupni u Scout Report arhivama, koje su pretražive baze podataka koje sadrže 12.711 kritičkih beleški o izabranim sajtovima i mejling liste.
EELS i EEVL • EELS (Engineering E-Library, Sweden) je kapija za kvalitetno ocenjene inženjerske informacione izvore na intenetu. Glavni deo EELS-a je strukturiran u skladu sa EI (Engineering Information) predmetnom klasifikacionom šemom. • EEVL (Enhanced and Evaluated Virtual library) Još jedan vodič kroz inženjerske predmete, koji takodje koristi EI klasifikacionu šemu. Stvoren je i održavan je od strane tima informacionih stručnjaka sa različitih univerziteta i institucija u Velikoj Britaniji, da bi obezbedio pristup digitalnim informacijama iz oblasti inženjerstva, matematike i računarstva.
Predmetne analize • Pod terminom predmetne analize podrazumevamo analize zamišljenog sadržaja otelotvorenog u dokumentu. Autori plasiraju svoje ideje u dokumentima, a indekseri moraju da odrede suštinu onoga što su autori rekli. Predmetne analize podrazumevaju prisustvo, identifikaciju i izraz predmeta u tekstu dokumenta, baze podataka, kontrolisani i prirodni jezik, zahteve za informacijama i strategije za pretragu. • Najteži deo predmetnog indeksiranja ili klasifikacije jeste faza kada indekser, koji ne mora nužno da bude i predmetni ekspert, pokuša da sumira sadržaj celog dokumenta u nekoliko reči.
Indekser treba da se, dok ispituje dokument, drži smernica, koje se nalaze u pitanjima: • Da li se dokument bavi odredjenim proizvodom, stanjem ili fenomenom? • Da li predmet sadrži neki akcioni koncept, neku operaciju ili proces? • Da li je objekat ili trpilac radnje identifikovan? • Da li ukazuje na odredjene načine izvršavanja akcije, kao npr. specijalne instrumente, tehnike ili metode? • Gde se ovi faktori nalaze u kontekstu pojedine lokacije ili okruženja? • Da li se uočavaju nezavisne ili zavisne varijable? • Da li se predmet posmatra iz specijalnog ugla, koji nije uobičajen za to polje izučavanja, kao npr. sociološko izučavanje religije?
Bilo kako bilo, mora se primetiti da ovi koraci traže intelektualnu angažovanost indeksera; zato, moguće je da će dva različita indeksera analizirati sadržaj datog dokumenta na dva različita načina, što će rezultirati sa dve različite indeksne odrednice. • U stvari, ovo je ozbiljan nedostatak ručnog indeksiranja. Sledeća opservacija Kleverdona pokazuje dva nedostatka ručnog predmetnog sistema analiziranja: • Ako dva čoveka ili dve grupe ljudi naprave tezaurus iz iste oblasti – samo 60% indeksnih termina će se nalaziti u oba tezaurusa. • Ako dva iskusna indeksera indeksiraju isti dokumet, koristeći isti tezaurus – samo 30% indeksnih termina biće zajedničko.
Salton naglašava da potreba za indeksnim ekspertima u manuelnom indeksnom okruženju uvodi u neželjenu varijabilnost i nesigurnost, koje mogu negativno uticati na efektivnost pretrage. On dodaje da u automatizovanom indeksnom okruženju nedostatak ljudske stručnosti može biti prevazidjen inteligentnom upotrebnom rečnika slobodnog teksta u uskladištenim zapisimai informacionim zahtevima. • Različiti aspekti predmetnih analiza i indeksiranja su razmatrani u Godišnjem časopisu informacione nauke i tehnologije. Tu se pominje, 1989. godine da iako je mnogo napisano o različitim aspektima indeksiranja – ipak je potrebna obimna knjiga predmeta. • Od tada Lankaster sam je napisao takvu knjigu, trenutno dostupnu u 3. izdanju.
Hvala na pažnji! •