140 likes | 295 Views
Alternatív információkezelés a NAVA-ban. (Strukturált dokumentumok rendszerén alapuló információkezelés, mint alternatíva, a Nemzeti Audiovizuális Archívumban). Knapp Gábor, NAVA. A NAVA „másik” feladata. Egyik: Kötelespéldány archívum (sugárzott rádió és tv) Egységes, állandó séma
E N D
Alternatív információkezelés a NAVA-ban (Strukturált dokumentumok rendszerén alapuló információkezelés, mint alternatíva, a Nemzeti Audiovizuális Archívumban) Knapp Gábor, NAVA
A NAVA „másik” feladata • Egyik: Kötelespéldány archívum (sugárzott rádió és tv) • Egységes, állandó séma • Folyamatos tervezett gyarapodás, realtime (meta/media) • Tervezett munkafolyamat (realtime, de pufferelt) • Nagy mennyiség (kb. 100.000 rekord/év) • Törvény által szabályozott hozzáférés • Másik: Önkéntes archívum • Sokféle, változatos, időben is változékony séma • Eseti feladatok (ritkán, de persze azonnal kell minden…) • Egyedi bevételezési megoldások • Egyedi metaadat források: papír/doc/xml/xls/html/txt • Egyedi média források: dvd/svhs/betasp/digitbeta/mpeg4/mpeg2 • Kevés rekord (gyűjteményenként <1000)
Jelenlegi különgyűjtemények + MTV archívum (Híradók, Öveges stb.)
Demo • http://nava.hu/test/kulon.htm • http://mnfa.nava.hu
Közös követelmények (Ha már bent vannak a gyűjtemények…) • A kötelespéldánynál már megvalósult funkciók: • Böngészhetőség (idő szerint: RTV részletes…) • Kereshetőség (mezők szerint, olykor szabadszavasan) • OAI-PMH protokoll szerinti lekérdezhetőség (DC, NDA) • Szabályozott hozzáférés (kijátszás, metaadat bevitel) • További funkciók: • Más böngészési elvek (pl. tag-felhő) • Más kijátszási formátumok (pl. mpeg4/avc, flash) • Kiterjesztés a többnyelvűség felé (VideoActive) • Felhasználói közreműködés (upload, annotálás, P2P-Fusion) • Egyedi szabályok szerinti hozzáférés
Fejlesztési cél, 2007 október • Tájékoztató kidolgozása különgyűjteményekhez • Mit tudunk ajánlani, milyen erőforrások árán • Mennyi idő, mennyi tárhely, mekkora sávszélesség, hány/milyen ember, -> azaz: mennyi pénz… • Szabályozott, dokumentált munkafolyamat kidolgozása különgyűjteményekhez • Bevételezési technológia összeállítása (meta/média) • Konvertálási lehetőségek/technikák, tárhely biztosítása • Időzítés, erőforrás becslés • Új alkalmazás (csoport) készítése, amely megvalósítja a közös követelményeket • A kötelespéldánynál működő funkciók megvalósítása • Az új funkciók kísérleti megvalósítása, majd tesztelése
Miért nem a jelenlegi alkalmazás? • Feladat • Mind a munkafolyamat, mind az adatok, mind a célközönség szempontjából új feladatok • Biztonság • A „gyár”-nak működnie kell, egy ilyen fejlesztés gyerekbetegségei megengedhetetlen kockázatot jelentenének • A NAVA-ba minden művelet nagyon leterheli a szervereket, es nagyon sokáig tart… • Technológia • A fejlesztés egyben kísérlet arra, hogy a web 2.0 technológia által kínált lehetőségek hogy alkalmazhatók • A tapasztalatok alapján beláthatatlanul hosszú fejlesztési idő • A felvázolt többlet funkciók annyira eltérnek, hogy célszerű újat kezdeni
Fejlesztés 1: Bejátszás, Transzkódolás, Kijátszás • Bejátszás • a bevételi lehetőségek, a szoftverek paramétereinek, vezetékezés, eszközök dokumentálása, • lehetőség szerint állandóan rendelkezésre álló, összeállított eszközpark létesítése • felhasználói és/vagy automata upload (P2P-Fusion) • Transzkódolás, kulcskép generálás • Jelenleg: MPEG2 TS, RealVideo/Audio • Terv: MPEG4/AVC (pl. P2P-Fusion követelmény) • Kijátszás (szabályozott) • Jelenleg: real stream • Terv: download, mélylink/beágyazhatóság (vízjelezés?) • Terv: Flash + MPEG-4
Fejlesztés 2: Meta séma kialakítása • Séma minimális követelmények • DC elvek, az azonosításhoz szükséges DC mezők • XML/XSD formátum, XSLT • Séma felderítése, definiálása (gyűjteményenként) • Kapott metaadatok alapján • Kapott dokumentumok alapján • Belső struktúra, dokumentumok közötti kapcsolatok • Formális sémadefiníció (XSD) • Séma megjelenítésének tervezése (CSS, XSLT-k) • Rövid lista tartalma, részletes lista tartalma • Védett (nem megjeleníthető) mezők • OAI-PMH exportok, RSS
Fejlesztés 3: Meta sémák összehangolása (Talán a legnehezebb feladat…) • Mezők összekapcsolása (több-> egy, egy-> több) • Pl. nevek különböző reprezentációja • Szótárak összekapcsolása • Pl. különböző műfaji kategorizálás • Felsőbb szintű tezaurusz/ontológia? (VideoActive) • Megfeleltetés adatcsere formátumoknak • Pl. DC, DC.Culture
Fejlesztés 4: Hozzáférés vezérlés • Kötelespéldány archívum: • Archivátori alkalmazás: Tábla/Csoport szinten szabályozott • Kereső alkalmazás: • kereshet (internet) • kereshet, és elmentheti a találatokat (regisztrált) • Kereshet, lejátszhat (navapont) • Kereshet, elmenthet, lejátszhat (regisztrált + nava pont) • Tervezett különgyűjteményeknél: • Mező/Felhasználó szintű, ACL alapú szabályozás • Felhasználói annotáció, rangsorolás • Az audio/videó állománynál • Idő/tér korlátozott hozzáférés • Megtekintés/letöltés (ingyen/pénzért) • Csak demo részletek • Authentikáció jobb megoldása
Fejlesztés 5: Keresés/Böngészés • Keresés • Szabadszavas keresés a tartalomban • A találati lista rendezése mezők/gyűjtemények/relevancia szerint • Rendezés felsőbb szemantikai szint szerint (pl. ember) • Finomított keresés találati listában • Keresés kiterjesztése túl kevés találat esetén (ontológia) • Találatok csoportosítása túl sok találat esetén (ontológia) • Böngészés • Gyűjteményenként valószínűleg specifikus • Tag- felhő alapján (automata klaszterezés) • OAI-PMH export • A rendszer nyitott, mindenki csinálhat saját keresőt is…
Távlati cél, 2008… • Hipotézis 1: • Az alkalmazandó, web-re kidolgozott „szabad szavas indexelő”, illetve félstrukturált dokumentum alapú megoldások nagyszámú dokumentum esetén is legalább olyan hatékonyak, mint a relációs adatbázis alapúak • Tehát, mivel az új alkalmazás szempontjából a kötelespéldány archívum „csak egy eset”, így érdemes kipróbálni az új alkalmazás hatékonyságát több százezer rekordra, és ha beválik… • Hipotézis 2: • Az új technológia felhasználói interfészében is új, népszerűbb lehet a felhasználók körében (lásd YouTube), könnyebb hozzá oktatatási stb célú speciális API-kat illeszteni • A felhasználói interakció gazdagíthatja a nehezen annotálható tartalmat (pl. 1988-as TV híradók)
Köszönöm a figyelmet!(Jó étvágyat!) www.nava.hukereso.nava.humnfa.nava.hu Knapp Gábor, knapp@nava.hu