230 likes | 410 Views
Prona ženje informacija. Cvetana Krstev čas 1. Pronalaženje informacija – šta je tu novo?. Engleski termin je Information Retrieval Koje je značenje reči “ retrieval ”? Collins Cobuild:
E N D
Pronaženje informacija Cvetana Krstev čas 1
Pronalaženje informacija – šta je tu novo? • Engleski termin je Information Retrieval • Koje je značenje reči “retrieval”? Collins Cobuild: If you retrieve sth, you succeed in getting it back from somewhere, especially from the place where you have hidden it or where it should not be. The men were trying to retrieve weapons left when the army abandoned the island Oxford/Hornby: get possession of again: retrieve a lost piece of lagguage
Šta kaže Wikipedia? • Information retrieval (IR) is the science of searching for documents, for information within documents, and for metadata about documents, as well as that of searching relational databases and the WWW. There is overlap in the usage of the terms data retrieval, document retrieval, information retrieval, and text retrieval, but each also has its own body of literature, theory, praxis, and technologies. IR is interdisciplinary, based on computer science, mathematics, library science, information science, information architecture, cognitive psychology, linguistics, statistics, and physics. • Automated information retrieval systems are used to reduce what has been called "information overload". Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.
O nastanku discipline • Ideja: Ideja da bi se računari mogli koristiti za traženje relevantnih informacija je u članku As We May Think koji je objavljen 1945. godine (pre efektivnog korišćenja računara) popularisaoVannever Bush (Buš) • Termin: IR je skovao i prvi upotrebio Calvin Northrup Mooerszajedno sa terminom “descriptor” u svojoj magistarskoj tezi na MIT-u 1948. godine • Realizacija: Da bi se prevazišlo zaostajanje za SSSR-om u nauci, u SAD-u počinju početkom 50-tih godina XX veka da se finansiraju istraživanja u oblasti “mechanized literature searching systems” i “citation indexing”
Malo istorije • 60-te godine: prvi sistemi za pronalaženje informacija u kolekcijama manjeg obima (nekoliko hiljada dokumenata). Gerard Selton i sistem SMART (System for the Mechanical Analysis and Retrieval of Text) • 70-te godine: Prvi on-line sistemi —NLM's AIM-TWX, MEDLINE (Medical Literature Analysis and Retrieval System); Lockheed's Dialog(prvi sistem velikih dimenzija); SDC's ORBIT • Početak 90-tih godina: Ministarstvo odbrane SAD-a (US Department of Defense), zajedno sa Državnim institutom za standarde i tehnologiju (National Institute of Standards and Technology - NIST), finansiraju konferencijuText Retrieval Conference (TREC) sa ciljem da se istraživačima u oblasti IR obezbedi potrebna infrastruktura za evaluciju metodologija za pronaženje tekstualnih informacija u vrlo velikim kolekcijama dokumenata.
Bum 90-tih • 1989: Tim Berners-Lee iz CERN-aje sačinio prvi predlog World Wide Web-a. • Kasne 90-te: U mašinama za pretraživanje veba primenjena su mnoga napredna svojstva koja su ranije imali samo eksperimentalni IR sistemi. Mašine za pretraživanje su postale najčešći i najbolji primer za modele, istraživanje i realizaciju u pronalaženju informaicja.
Razvoj pojma Pronalaženje informacija • Sistemi za pronalaženje dokumenata • Sistemi za pronalaženje tekstualnih dokumenata • Savremeno pronalaženje dokumenata • Pronalaženje dokumenata s punim tekstom • Sistemi za pronalaženje multimedijalnih dokumenata
Sistemi za pronalaženje dokumenata • Prvi sistemi za pronalaženje informacija • Njihova svrha je bila da pronađu informacije o postojanju ili nepostojanju bibliografskih dokumenata koja su relevantni za korisnikov upit. Ova dokumenta uz bibliografske podatke mogu da sadrže ključne reči, apstrakt ili sažetak, itd. • Ovi sistemi ne informišu korisnika, tj. ne menjaju njegovo znanje o temi upita, već mu samo govore da li postoje i gde se nalaze dokumenta koja su vezana za korisnikov zahtev.
Sistemi za pronalaženje tekstualnih dokumenata • Pojam pronalaženja informacija se suštinski promenio kada su počela da se skladište u digitalnom obliku kompletna dokumenta (“pun tekst dokumenata”) • Ovi sistemi mogu da pretražuju ili po bibliografskim podacima ili se u tekstu dokumenta iz uskladištene kolekcije traži tekst koji je korisnik zadao kao upit
Sistemi za pronalaženje multimedijalnih dokumenata • Pojam sistema za pronalaženje informacija je na početku značio pronalaženje tekstualnih informacija • Savremeni multimedijalni sistemi pronalaze multimedijalne informacije što osim teksta, podrazumeva slike, zvuk i pokretne slike. • Mnoge tehnike koje se koriste za pronalaženje tekstualnih informacija se mogu primeniti i na multimedijalna dokumenta, iako su za njih razvijeni mnogi novi alati i tehnike. (Mi se time u okviru ovog kursa nećemo baviti)
Odnos sistema za pronalaženje informacija i sistema za upravljanje bazama podataka • Sistemi za upravljanje (relacionim) bazama podataka • Sistemi za rad s bibliografskim podacima • I u njima su sadržane činjenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo traže.
Sistemi za upravljanje (relacionim) bazama podataka • U njima su sadržane činjenice kao vrednosti odgovarajućih atribita. Korisnik pretražuje i kao odgovor dobija činjenice (npr. Koja je prosečna starost vozača u autobuskom preduzeću?) • Podaci su u principu obavezni i unapred poznate (maksimalne) dužine
Sistemi za rad s bibliografskim podacima • I u njima su sadržane činjenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo traže. • I njih je moguće pretraživati po činjenicama (npr. Koliko različitih autora je objavljivalo kod “Prosvete” 1986. godine?) • Ali najčešće se traže podaci koji će pomoći da se pronađu potrebna dokumenta (na polici ili u bazi podataka) • Karakterišu ih neobavezni podaci promenljive dužine. • Za njihov opis koriste se formati iz familije MARC (MAchine Readable Cataloguing)
Sistemi za pronalaženje informacija • Traže se dokumenta koja u potpunosti, ali češće delimično, odgovaraju korisnikovom upitu.(“Interesuju me tekstovi koji govore o maloletničkom nasilju na sportskim terenima”) • Otuda se sistemi za pronalaženje dokumenata sastoje od tri važne komponente: • Informacione stavke; • Korisnički upiti; • Sravnjivanje upita sa bazom podataka dokumenta
Šta sistem za pronalaženje informacija treba da radi • Analizira sadržaj informacionih izvora kao i korisničkih upita i na osnovu toga • Sravnjuje jedne i druge da bi pronašao one koju su za korisnika relevantni (najrelevantniji).
Na osnovu toga sledi da su glavne funkcije sistema za pronalaženje: • Identifikacija informacionih izvora koji su relevantni za oblast interesovanja ciljne grupe korisnika; • Analiza sadržaja informacionih izvora (dokumenata); • Reprezentacija sadržaja analiziranih izvora na način koji bi bio pogodan za sravnjivanje s korisničkim upitima; • Analiza korisničkih upita i njihova reprezentacija u obliku koji bi bio pogodan za sravnjivanje s bazom podataka dokumenata; • Sravnjivanje upitnog iskaza sa uskladištenom bazom; • Pronalaženje relevantnih informacija; • Potrebno podešavanje odgovora na osnovu odziva korisnika.
Komponente sistema za pronalaženje informacija • Podsistem dokumenata; • Podsistem za indeksiranje; • Rečnički podsistem; • Podsistem za pretraživanje; • Korisničko sučelje (interface); • Podsistem za sravnjivanje.
Opšti nacrt sistema za pronalaženje Analiza i reprezentacija Organizacija informacija Informacioni izvori Pronađene informacije sravnjivanje Upitni iskazi Analiza upita korisnici
Tipovi sistema za pronalaženje informacija • Kućni sistemi za pronalaženje informacija služe korisnicima unutar neke organizacije • On-line sistemi za pronalaženje informacija obezbeđuju raznovrsnim korisnicima pristup udaljenim bazama podataka • Javno dostupni (npr. OPAC) • Pristup na komercijalnoj osnovi • Baze podataka na CD-ROM ili DVD
Zastarevanje digitalnih podataka • Korišćenje digitalnih metoda za skladištenje i pronalaženje informacija je dovelo do fenomena koji je poznat kao zastarevanje digitalnih podataka (digital obsolescence), kada digitalni resurs više ne može da se pročita bilo zato što fizički medij ili uređaj koji ga čita više nije dostupan, ili nije dostupan hardver ili softver koji se na njemu izvršava.Digitalne informacije je na početku lakše pronaći nego one na papiru, ali u jednom trenutku, ako se na vreme ne prenesu na savremeniji medijum, one su potpuno izgubljene.
Primer zastarevanja digitalnog materijala • BBC Domesday Projectje trebalo da obeleži 900-tu godišnjicu originalnog dokumentaDomesday Book, koji predtsvlja popis stanovništva Engleske iz XI veka. • Smešten je na laserskim diskovima (Laser Vision Read-Only Memory LV-ROM format) – prethodnik CD-ROM • Softver je pisan na programskom jeziku BCPL (prethodnik jezika C) • Slike su bile u analognom formatu (pre nastanka JPEG) • ...