260 likes | 396 Views
Metatieto ja HTML-dokumentit. Markus Virkkala Esa Kaihlanen. TJTD63 - Semanttinen Web - 4/2002. Metatieto ja HTML-dokumentit. Mitä on metatieto? Metatiedon tuottaminen Metatieto ja HTML Metatietostandardit ja formaatit Hyötyjä Ongelmia. Mitä on metatieto?.
E N D
Metatieto ja HTML-dokumentit Markus Virkkala Esa Kaihlanen TJTD63 - Semanttinen Web - 4/2002
Metatieto ja HTML-dokumentit • Mitä on metatieto? • Metatiedon tuottaminen • Metatieto ja HTML • Metatietostandardit ja formaatit • Hyötyjä • Ongelmia
Mitä on metatieto? Metatieto on tietoa tiedosta, sen avulla voidaan kertoa esimerkiksi: - Sisällön alkuperästä - Sisällön käyttötarkoituksesta - Sisällön muutoksista - Sisällön sijainnista
Metatiedon tuottaminen Metatieto voidaan tuottaa: - Automaattisesti - Dokumenttien ominaisuustiedoista - Dokumentin sisällöstä rakenteisuutta hyödyntäen - Sisällönhallintajärjestelmistä - Työkaluohjelmat (HTML-editorit) - Manuaalisesti - Kaikki itse kirjoitettu lisätieto, jota dokumenttiin halutaan liittää. - Tarpeen aina, kun automaattinen tuotto ei ole mahdollista, tai se on epätäydellistä.
Metatieto ja HTML-sivustot Metatietoa käytetään HTML-dokumenteissa: - Helpottamaan relevanttien hakutulosten saamista - avainsanat - kielikoodit - aikaleimat - Välittämään lisätietoa dokumentista (tekijä, aika, jne.), - Voi sisältää muutakin informaatiota: - ohjaa hakukoneita esim. kieltämällä dokumentin indeksoinnin
Metatieto ja HTML-sivustot Metatiedon liittämiseen on kaksi tapaa: - Upottaa metatieto itse dokumenttiin - Varastoida metatieto ulkoisesti, erilleen dokumentista Metatieto voi myös olla: - Hajautettuna yksittäisiin dokumenttiin - Keskitettynä “metatietopankkiin” erilleen dokumenteista
Metatieto ja HTML-sivustot Metatiedon upottaminen HTML dokumenttiin 1/3: - Sijoitetaan <head> -elementin sisään, <meta> -tagin sisään: <META name=“tekijä” content=”Ville Vallaton”> - Kaksi pää-attribuuttia: name, content - Vaihtoehtoinen ‘scheme’ -attribuutti määrittää esitysmuodon: scheme=”päivä-kuukausi-vuosi” - Meta-attribuutit ovat käyttäjän vapaasti määriteltävissä
Metatieto ja HTML-sivustot Metatiedon upottaminen dokumenttiin 2/3: - Content -attribuutti voi sisältää tekstiä, tai entiteettejä. - Entiteettejä voivat olla mm. ©, &alpha - HTML-tageja ei saa käyttää - Robotit hakukoneita varten: -<META name=robots content="noindex,follow"> - index, noindex, follow, all, none
Metatieto ja HTML-sivustot Metatiedon upottaminen HTML dokumenttiin 3/3: - Kansainvälisyysattribuutit - &Lang, &Dir - Name-attribuutti voidaan korvata HTTP-EQUIV -attribuutilla - <META HTTP-EQUIV=Refresh content="10; url=http://www.htmlhelp.com/"> - <META HTTP-EQUIV="Content-Type" content="text/html; charset=SHIFT_JIS"> http://www.kaustinen.fi/haakuoro/
Metatieto ja HTML-sivustot Ulkoinen metatieto: - Metatieto sijaitsee erillisessä dokumentissa tai metatietokannassa - Erillinen dokumentti voi olla esimerkiksi XML-muotoinen - Ainoa keino lisätä metatietoa webin ulkopuolisista asioista - Voi koskea myös dokumenttijoukkoa - Viitataan resurssiin esim. URI:n avulla (RDF) Esimerkki
Metatieto multimediassa Multimedia-metatiedot jaetaan kolmeen luokkaan: - Mediakohtainen metatieto - Median käsittelyyn liittyvä metatieto - Sisältöön liittyvä metatieto
Metatietostandardit / formaatit Metatietostandardeja ja formaatteja: - MARC (USMARC, CANMARC, MARC21, FINMARC) - IEEE LOM - Dublin Core - PICS - RFD - XML - XTM (TopicMaps) - Ohjaavat kehitystä ja yhtenäistävät metadatan esitystapoja
Metatietostandardit / formaatit - MARC - Lyhenne sanoista “Machine Readable Cataloging” - Kehitetty alunperin 30v sitten Yhdysvaltain kongressin kirjaston käyttöön - Tavoitteena luoda mekanismi, jonka avulla tietokoneet pystyisivät vaihtamaan, käyttämään ja tulkitsemaan bibliografista informaatiota. - Suomalaistettu versio FINMARC MARC - esimerkki
Metatietostandardit / formaatit - IEEE LOM - IEEE:n määrittelemä standardi opetus- ja koulutus- materiaalien metadatan esittämiseen (Learning Objects Metadata) (ei vielä valmis) - Tavoitteena auttaa sekä opiskelijoita, että opettajia löytämään, arvioimaan, hankkimaan ja hyödyntäämän erilaisia opetuskäyttöön suunniteltuja resursseja. - Ei suunniteltu suoraan HTML- käyttöön, mutta mahdollisesti hyödynnettävissä verkkopohjaisissa opetusympäristöissä. Lisätietoja
Metatietostandardit / formaatit - Dublin Core 1/2 - DCMI eli Dublin Core Metadata Initiative - Suunniteltu kuvaamaan WWW-resursseja - Koostuu 15 elementistä - Perustuu pitkälti kirjastomaailmaan - Ei välttämättä sovellu kaikille WWW-dokumenteille - Ehkä tunnetuin metadataformaatti
Metatietostandardit / formaatit - Dublin Core 2/2 - Liitetään HTML dokumenttiin <head> osioon, <meta>-tagien sisään <head> <title> Tie Unelmiin - Väinö Mattila</title> <link rel = "schema.DC" href = "http://purl.org/DC/elements/1.0/"> <meta name = "DC.Title" content = ”Tie Unelmiin"> <meta name = "DC.Creator" content = ”Mattila,, Väinö Juhani"> <meta name = "DC.Type" content = ”Kaunokirjallisuus"> <meta name = "DC.Date" content = "1951"> <meta name = "DC.Format" content = ”teksti/ASCII"> <meta name = "DC.Language" content = ”FI"> </head> Dublin Core - elementit
Metatietostandardit / formaatit - PICS 1/2 - Platform for Internet Content Selection - Mahdollistaa WWW-sivujen sisällön soveliaisuuden kuvaamisen erilaisille käyttäjäryhmille. - PICS Label määrittelee minkälaisesta siällöstä on kyse - PICS Label voidaan asettaa HTML-dokumentin <META> tagin sisään <META http-equiv="PICS-Label" content='labellist'> PICS Esimerkki
Metatietostandardit / formaatit - PICS 2/2 - PICSRules - formaatti suodatinmäärityksille Esimerkki pääsyn kontrolloinnista: (PicsRule-1.1 ( serviceinfo ( "http://www.coolness.org/ratings/V1.html" shortname "Cool" bureauURL "http://labelbureau.coolness.org/Ratings" UseEmbedded "N" ) Policy (RejectIf "((Cool.Coolness <= 3) or (Cool.Graphics >= 3))") Policy (AcceptIf "otherwise") ) ) Lähde:http://www.w3.org/PICS/#Introduction
Metatietostandardit / formaatit - RDF 1/2 - Resource Description Framework - W3C:n suositus standardiksi - Malli minkä tahansa resurssin kuvaamiseen Internetissä - Syntaksi pohjautuu XML:ään - Lisätään HTML-dokumenttiin <head>-tagien väliin - Resurssiin viitataan URI:n avulla
Metatietostandardit / formaatit - RDF 2/2 RDF-metatiedon liittäminen HTML-dokumenttiin: <html> <head> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/metadata/dublin_core#"> <rdf:Description about=""> <dc:Creator> <rdf:Seq ID="CreatorsAlphabeticalBySurname" rdf:_1=”Matti Aavikko" rdf:_2=”Juhani Heino"/> </dc:Creator> </rdf:Description> </rdf:RDF> </head> <body> <P>Tämä on käypä HTML-dokumentti.</P> </body> </html> Esimerkin lähde:http://www.w3.org/TR/REC-rdf-syntax/#ex-Embedding
Metatietostandardit / formaatit - XML - eXtensible Markup Language - Oleellinen metatiedon kannalta rakenteelisuutensa vuoksi, esitetty metatiedon tallennusmuodoksi - Unicode-tuki mahdollistaa kaikkien maailman kielien käytön - Ulkoisen metatiedon luonti automaattisesti suhteellisen helppoa - Hyödynnetään mm. RDF:ssä
Metatietostandardit / formaatit - XTM - Toiselta nimeltään TopicMaps, eli aihekartta - XTM = XML Topic Map - Aihekartta on XML-dokumentti, jolla kuvataan jonkin olemassa olevan tiedon rakenne - TopicMaps pyrkii tuomaan paremman vaihtoehdon perinteisille hakemistoille TopicMaps
HTML -metatiedon hyödyt - Relevantin tiedon nopeampi löytyminen - Kuvien, videon, äänen ja muun multimedian kuvaaminen - WWW:n ulkopuolisten resurssien saaminen mukaan (taideteokset, muut ei sähköisesssä muodossa olevat resurssit) - Sähköinen kaupankäynti ja tekijänoikeudet
Ongelmia metatiedon hyödyntämisessä - WWW:n ulkopuolisten resurssien saaminen mukaan - Luonnollisten kielien runsaus - Koneellisen tulkinnan vaikeus - Erilaisia määrittelyjä on monia - WWW-dokumenttien sijainnin pysyvyys epävarmaa - Hakukoneiden indeksoinnin hitaus, ja indeksien ajan tasalla pitäminen
Mahdollisia ratkaisuja - Tarpeeksi monipuolisten standardien laaja käyttöönotto - WWW:n ulkopuolisten resurssien saaminen mukaan - Automaattinen metatiedon luonti ja tulkinta - Metatietostandardit tuntevat hakukoneet - Luonnollisista kielistä riippumaton “koodattu” metatieto
Hyödyllisiä linkkejä: World Wide Web Consortium: Http://www.w3c.org Dublin Core http://www.dublincore.org/about/ RDF http://www.w3.org/TR/2002/WD-rdf-primer-20020319/ IEEE Learning Technology Standards Committee http://ltsc.ieee.org/wg12/ HTML 4.0 Spesifikaatio http://www.w3.org/TR/html401/