240 likes | 363 Views
Identifikation der geographischen Lage von Zeitungsartikeln (GIR). Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves. Motivation. Suchmaschinen können mit geographischen Anfragen oft wenig anfangen. Motivation. Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen
E N D
Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves
Motivation • Suchmaschinen können mit geographischen Anfragen oft wenig anfangen...
Motivation • Zeitungsabschnitte Aufgrund von räumlichen Unterteilungen • Scan von NZZ-Vorderseite
Forschungsstand und -kontext • geoCLEF • GIR: • „Geographic information retrieval (GIR) is concerned with providing access to geo-referenced information sources“ (Larson 2000). • Toponym Detection • Toponym Resolution / Disambiguation • Indexing
Toponym Detection • Erkennung von Ortsnamen • Methoden: • Gazetteer Lookup • GETTY, Geonames, WorldGazetteer, GNIS, NIMA, Bevölkerungsstatistik.de • NER-Systems • Regel-basiert, statistisch • Z.B. GATE
Toponym Resoultion / Disambiguation • Zuweisung von Footprint an Toponym • Problem der Mehrdeutigkeit von Toponymen: • Coocurrence (z.B. in Wikipedia) • Hierarchisch • Map-Distance
Indexing • Spatial Index • Textual Index
Problemstellung und Zielsetzung • (1) Statistische Auswertung der Gazetteers • (2) Zuweisen von Footprint an Zeitungsartikel • (3) Räumlicher Vergleich der Südostschweizartikel mit den NZZ-Artikeln
1. Statistische Auswertung • Methodik: • Statistische Methoden in Java programmieren • Daten: Swissnames und Geonames • These: Die räumliche Verteilung von mehrdeutigen Ortsnamen ist gleich wie die allgemeine Verteilung von Ortsnamen.
SwissNames (nur Schweiz): • Swisstopo • Kommerziell • 155‘500 Einträge • Hierarchische Angaben (Gemeinde, Kanton) • Typinformationen • Koordinatensystem: H1903 • Geonames (weltweit): • Wiki-style User-Editing • Mehr als 8 Mio. Einträge • Hierarchische Angaben: Land • Typinformationen • Koordinatensystem: WGS84
2. Zuweisen von Footprint an Zeitungsartikel • Methodik: • Toponym Detection: • Gazetteer Lookup (GATE, SwissNames, Geonames) • Toponym Resolution / Disambiguation: • Hierarchische Beziehungen • Metonyme: Regeln
3. Räumlicher Vergleich von Südostschweiz- mit NZZ-Artikeln • These: Artikel lokaler Zeitungen sind stärker auf ihre Region fokussiert als diejenigen global erhältlicher Zeitungen • Aufbauend auf 2. Teil der Arbeit • Statistischer Vergleich der Verteilung der Footprints
Problempunkte • SwissNames: mehrmalige punkte • Kombination SwissNames und Geonames • Deutsche Sprache: • Gross-/Kleinschreibung • Satzstellung • Zeitungstexte politischer Natur • Metonyme (z.B. Zug, Bern) • Location?
Zusammenfassung • GIR • Statistische Auswertung von SwissNames und Geonames • Zuweisen von Footprints an Zeitungsartikel • Vergleich von Südostschweizartikeln und NZZ-Artikeln • In Java programmiert
Quellen Cunningham, Hamish et al. (2007): GATE - General Architecture for Text Engineering. http://www.gate.ac.uk, Zugriff: 16.09.2007. Geonames (2007): http://www.geonames.org, Zugriff 16.09.2007. Larson, Ray R. (2000): Geographic Information Retrieval and Spatial Browsing. https://sherlock.sims.berkeley.edu/geo_ir/PART1.html, Zugriff: 16.09.2007. SwissTopo (2006): SwissNames - Georeferenzierte Sammlung der Landeskartennamen. http://www.swisstopo.ch/de/products/digital/names/swissnames, Zugriff: 16.09.2007.