220 likes | 364 Views
www.wadoku.de. Auf dem Weg vom Wörterbuch zur Webanwendung. Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung“ in Tübingen am 8.-9. Januar 2007 von Dr. Thomas Latka. Vom Wörterbuch zur Webanwendung. Webanwendung mit Datenbank. Buch. Datei.
E N D
www.wadoku.de Auf dem Weg vom Wörterbuch zur Webanwendung Vortrag für den Workshop "Elektronische Ressourcen in der Japanforschung“ in Tübingen am 8.-9. Januar 2007von Dr. Thomas Latka
Vom Wörterbuch zur Webanwendung Webanwendung mit Datenbank Buch Datei Viele Autoren, wenige Organisatoren 50% Qualitätssicherung, 50% Organisation der Community und Technik Klare Trennung zwischen Daten und Format (Datenbank und Ausgabekanäle) Wissenschaffung als dauernder, gemeinschaftlicher Prozess Ein Autor 100% Einzelleistung Keine Trennung zwischen Daten und Format Institutionelle Wissenschaft
Vom Wörterbuch zur Webanwendung Webanwendung mit Datenbank Buch Datei
www.wadoku.de • Seit 2001: www.wadoku.de • Basiert auf Ulrich Apels WaDokuJT-Datei • User können neue Einträge erstellen und kommentieren • Hierarchisierte SuchtrefferBeste Treffer oben • System:Dedicated Server JavaServerPages & MySQL Database
Entwicklung: 2001-2006 • Vier Jahre lang fast keine Änderungen am User-Interface • Steigende Suchanfragen: von 200 Hits pro Tag bis 35.000 Hits pro Tag • Von 10 Visits bis 4.000 Visits pro Tag
Status: Ende 2006 • über 4.000 Visits pro Tag • über 40.000 Views pro Tag
Status: Ende 2006 Zugriffe aus:50 % Deutschland40 % Japan 5 % Österreich 3 % Schweiz Innerhalb Deutschland:25 % NRW12 % Bayern10 % Hessen10 % Berlin 6 % Baden-Würt. Innerhalb Japan: über 30 % aus Tokio
Status: Ende 2006 70% Wiederkehrende User(Stammkunden) 30% Neue User 60% der User kommen direkt über die URL www.wadoku.de 20 % kommen über Google
Status: Ende 2006 Europäisches Ausland:London ParisMadridGöteburgBudapest Außer Japan:Peking SeoulShanghaiTaipeiSingapur USA:BurlingameMadisonBloomingdaleAmherst
Verbesserungen 2006: Schnellere Suche Trotz steigender Anfragen konnte die Suche mit optimiertem Index noch schneller gemacht werden: Eine einzelne Suche dauert nur wenige Millisekunden: Aufwendige Komposita-Suche braucht weniger wie eine Sekunde:
Verbesserungen 2006: Änderungshistorie Alle Änderungen der Einträge können nachvollzogen werden. Änderungen werden farblich hervorgehoben.
Verbesserung 2006: Nachschlagen in externe Quellen • Automatisches Nachschlagen aller Einträge in externen Quellen wie: Google, japanischen und englischen Wörterbücher, Wikipedia http://dictionary.goo.ne.jp
Verbesserung 2006: Bewertung und Löschen von Einträgen Editoren Editoren können Einträge akzeptieren oder zum Löschen markieren
Verbesserung 2006: Editierfunktion für Editoren aus dem Forum • Alle Felder können von den Editoren editiert werden • Referenzen können per Schnellsuche hinzugefügt werden, und nicht nur per Text • Kommentare können gelöscht oder bestätigt werden
Beiträge der Community 2006 • Über 4.000 Neueinträge (plus 2.000 Duplikate) • Über 7.000 Änderungen und Fehlerbeseitigungen • Bestätigte und gelöschte Kommentare • Bestätigte oder angezweifelte Einträge • Neues professionelles Forum: • 130 registrierte User • über 900 Beiträge
Seit Ende 2006: Wadoku Wiki (vorallem für Japanische Grammatik) • Wiki: jeder kann beitragen, wie bei Wikipedia • Schon jetzt beachtlicher Inhalt:
2007: Der Prozess der Strukturanreicherung ist nötig und unumkehrbar Text-Format {Biologie} Baum {m}; Strauch {m} (große Pflanze) Struktur Tag-Format <DOM: Biologie> Baum {m}; Strauch {m} (<Expl.: große Pflanze>) Entscheidung XML-Format <sense dom=„bio“> <trans> <tr>Baum</tr> </trans> <trans> <tr>Strauch</tr><def>große Pflanze</def> </trans> </sense> <sense dom=„bio“> <trans> <tr>Baum</tr> </trans> <trans> <tr>Strauch</tr> </trans> <def>große Pflanze</def> </sense>
2007: Vom Text zum XML-Format Text-Format {Biologie} Baum {m} (große Pflanze) Text2Tag-Converter Tag-Format <DOM: Biologie> Baum {m} (<Expl.: große Pflanze>) Tag2XML-Converter XML-Format (+ Tabellen) <sense dom=„bio“> <trans> <tr>Baum</tr> <def>große Pflanze</def> </trans> </sense> Baum : m bio : Biologie : 生物学
An TEI (Text Encoding Initiative) angelehntes XML-Schema (XSD) • TEI: De-facto Standard für die Kodierung und den Austausch von Texten innerhalb der Geisteswissenschaften (www.tei-c.org) • TEI-Standard etwas vereinfacht und für Japanisch angepasst • Echtzeit Umrechnung von Tag zu XML (Preview jederzeit)
2007: XML-basierter Index XML-Inhalt ist Grundlage für alle weitere Indizierungen XML-Format <sense dom=„bio“> <trans> <tr>Baum</tr> <def>große Pflanze</def> </trans> </sense> Domain-Index Usage-Index POS-Index
2007: XML basierte Ausgabe in verschiedene Kanäle Verschiedene Ausgabekanäle für neutrale XML-Daten möglich <sense dom=„bio“> <trans> <tr>Baum</tr> <def>große Pflanze</def> </trans> </sense> HTML Verschiedene angepasste Templates für Einsteiger und Profis Webservice-XML Verschiedene automatische Dienste Elektronische Geräte Denshi-jisho Print Old School ausgedruckte Wörterbücher
2007: Zukunft Und es geht immer weiter …!