260 likes | 363 Views
n. e. o. f. o. n. i. e. Berliner XML Tage 2004 Von XML-basierten Suchlösungen zum P2P-basiertes Wissensmanagement. THE SPECIALIST FOR YOUR INFORMATION ARCHITECTURE. 12.10.2004@Art+Com.de präsentiert von Helmut Oertel oertelh@neofonie.de. Agenda. neofonie GmbH
E N D
n e o f o n i e Berliner XML Tage 2004 Von XML-basierten Suchlösungen zum P2P-basiertes Wissensmanagement THE SPECIALIST FOR YOUR INFORMATION ARCHITECTURE 12.10.2004@Art+Com.de präsentiert von Helmut Oertel oertelh@neofonie.de
Agenda • neofonie GmbH • XML-basierte Suchlösungen der Familie neofonie search • neofonie search == XML everywhere • Neue Produkte in 2004 • Forschung und Innovation • Innovation in der neofonie • Themen 2005 bis 2007 • P2P-basiertes Wissensmanagement • Wissenschaftsportal Science-To-Science • Einsatz für kommunalen Einrichtungen
neofonie GmbH • Inhaber-geführt, Standort Berlin • 35 Mitarbeiter, 29 hochqualifizierte Entwickler und Projektleiter • Stabiler Partner: Jährlich positives Ergebnis seit Gründung in 1998 • Softwareentwicklung und Lösungen für das Informationsmanagement • neofonie services&software: Gemeinsam von der Idee über die termingerechte Softwareentwicklung bis zum hochverfügbaren Betrieb • neofonie content: Skalierbare Lösungen für Web Content Management • neofonie search: Innovative Lösungen für Enterprise Search • Kunden und Projekte • AOL Deutschland, BMW, Deutsche Bundesbank, Netzeitung, WEB.DE, • Internet-Pionier im Bereich Suchmaschinen und Web-Portale: FIREBALL, www.netscape.de, WEB.DE SmartSearch, www.newsexpress.de • http://www.neofonie.de
neofonie search– Innovative Suchlösungen • Integrierte Suchmaschinen • Hochqualitative Site-Suche mit neofonie search:suchexpress • Präzise und hochaktuelle Nachrichten-Suche mit :newsexpress • Ihre maßgeschneiderte Suchmaschine • … basierend auf technischen Bausteinen • Dynamische Themenbäume mit :clustering • Indexieren und Suchen mit XML Repository :engine • Sammeln und Vorverarbeiten mit Web Spider :robot • Webmining mit :purifier • http://www.neofonie.de/loesungen/search/
neofonie search == XML everywhere • XML als Bindeglied und Entwicklungsparadigma • Interne und externe Schnittstellen: File/XML, HTTP/XML, SOAP • Interne Datenstrukturen: DTD, XML Schema, SAX, Lightweight DOM, DOM • Programmierung: XPath, XSLT, Java-Codegenerierung aus XML • Konfiguration: XML • neofonie Lösungen konsequent auf Verarbeitung von XML ausgerichtet • Any Source, Any Format XMLWebspidering mit neofonie search:robot, Webmining mit neofonie search:purifier • XML Storage and Retrieval XML Repository neofonie search:engine • XML Any Medium, Any FormatWeb Content Management mit neofonie content:manager
neofonie search == XML everywhere (2) • Vorteile durch Einsatz von XML für neofonie und Kunden • Kürzere Entwicklungszeiten durch wiederverwendbare XML-basierte Komponenten • Optimale Integrierbarkeit der Software in existierende Systemlandschaften • Schnelles Debugging durch menschenlesbares Austauschformat • Insg. reduzierte TCO • Herausforderungen • Niedrige Performanz insb. von DOM, XPath, XSLT und SOAP Implementierungen • Konkurrierende XML Standards (z.B. im Bereich Workflow Management) • Unausgereifte Standards (z.B. im Bereich Datenbanken)
neofonie search:suchexpress – Hosted Site Search • Qualitativ hochwertige Sitesuche ist Voraussetzung für kundenfreundliches Internet-Angebot • Suche ist primäre Benutzerschnittstelle • Web-basierte Erzeugung einer Suchmaschine ohne Installation • “Mit wenigen Klicks zur perfekten Sitesuche” • Keine Investitionskosten sondern Miete (Application Service) • Höchste Qualität bei Suche, Relevanzbewertung und Betrieb • Multikriterielle Relevanzbewertung zum Patent angemeldet • Optional Redaktionelle Beeinflussung der Relevanzbewertung • Hochverfügbarer Betrieb auf Linux-Cluster bei Level 3 • Funktionsumfang weltweit führend • Pixel-genaue Anpassung des Look&Feel der Suche an Corporate Identity • Integrierte Site-Analyse entdeckt Qualitätsmängel in der eigenen Website • Automatische Auswertung des Nutzerverhaltens
:suchexpress – 100%ig passend • Maßgeschneidert und kostengünstig • Basis Edition: kostenlos bis 100 Seiten • Premium Edition:ab monatlich 29€ • Enterprise Edition: Alle Funktionen, 24/7 Support, 99,9% Verfügbarkeit, auch für große Bestände, ab monatlich 1000€ Einrichten von Suchmaschinen: www.suchexpress.de
:clustering – Dynamische Themenbäume • Vollautomatische Generierung von Themenbäumen • Zu Suchergebnissen passender klickbarer Themenbaum für Drill-Down mittels statistischem Online-Clustering • Linguistische Phrasen- und Hierarchieerkennung (z.B. “Microsoft” > “Steve Ballmer”) • Echtzeit-Klassifizierung von Suchergebnissen in Themenbaum • … hocheffizient, • Clustering von mehreren hundert Suchergebnissen in weniger als 100 ms • Caching von Clusterbäumen • …, anpassbar • Optional redaktionelle Pflege von Themenbäumen, Bezeichnern, Synonymen etc. • … und unabhängig von zugrundeliegender Suchmaschine • Clustering direkt auf von Suchmaschine (per HTTP/XML) gelieferter Trefferliste • Qualitätsverbesserung für Site-Suche, Intranet-Suche, Portal-Suche,Shop-Suche u.v.m. • führend hinsichtlich Qualität und Performanz • http://www.neofonie.de/loesungen/search/clustering.csp
:newsexpress – Hochaktuelle News-Suche • Quellen-übergreifende, zeitnahe und zielgerichtete Suche in News • Treffer verlinken auf Original-Artikel der Quellen • Extraktion der Nachrichten aus Webseiten der News-Quellen (Webmining) • Genauer und aktueller als Konkurrenzlösungen durch Einsatz von :purifier • Anbindung von meheren hundert News-Quellen und Originalstimmen (Pressemeldungen) • Berücksichtigung von „Originalstimmen“ (Pressemeldungen) • Präzisere Suche als Konkurrenzlösungen • Einsatz von :engine als XML-Repository • Drill-Down mit Themenbaum • Gruppierte Darstellung, inkl. thematischer Gruppierung ähnlicher Artikel • Einschränkung der Suche auf Rubriken, Quellen, Zeitbereiche etc. • Fortschrittliche Relevanzbewertung • Berücksichtigung textueller Übereinstimmung inkl. Gewichtung von Textteilen (Thema, Titel, Untertitel, Anreisser, Bildunterschriften, Text etc.) • Tracking der Klicks auf Treffer zur Bestimmung der Popularität von Nachrichten • Berücksichtigung von Faktoren wie Aktualität, Textlänge, mediale Aufbereitung, Popularität • Vom Nutzer einstellbare Gewichtung der Faktoren
:newsexpress – News-Suche on Demand • Führend im Funktionsumfang • Expressbote sendet Treffer-Links per Mail, passend zu Interessensprofilen • Persönliche thematische und Quellen-übergreifende RSS-Feeds • Automatische Identifikation der Themen des Tages • Bereitstellung als Application Service für Online-Portale • Netzeitung „News im Web“ (ab Mitte Oktober 2004) • Verlinkung weiterführender Artikel der Konkurrenz als Mehrwert für Nutzer • Redaktionelle Auswahl der Nachrichten-Quellen für Rubriken • Launch: Mitte Oktober • WEB.DE News-Suche (ab Ende Oktober 2004) • Integration in Such-Portal • Launch: Ende Oktober • Anpassbar an Bedarf von Unternehmen • Automatisierte Presseclippings • Unternehmensspezifische Quellen • Demonstrator: www.newsexpress.de
neofonie search:purifier – Webmining per Point & Klick • Einzigartiges Produkt zur Informationsextraktion aus Webseiten • Grundlage für Quellen-übergreifende Suchmaschinen, z.B. News-Suche • Extraktion von Datensätzen und Multimedia-Inhalten zur weiteren Bearbeitung, z.B. Indexierung und Suche in XML-Repository • Generierung von Extraktions-Programmen per Point & Klick • Instrumentierte Wysiwyg Ansicht der Quell-Dokumente • XML-Ansicht der Ziel-Informationen • Output-Getrieben
Ziel: Extraktion von Tipps und Tricks aus Seiten Halb-Automatische Erzeugung eines Extraktions-Programms per Point & Klick Anzeige des extrahierten XML. Extraktor anwendbar auf andere Seiten dieser Quelle
neofonie search:purifier – Anwendungen und Recht • Suche nach Schulungen (Ministerium für Wirtschaft und Arbeit NRW) • Zentraler Anlaufpunkt für Schulungs-Suchende • Mehr als 150 Web- und Datenbank-basierte Quellen • Rechtliches: Einwilligung der Schulungs-Anbieter Voraussetzung • Suche nach Jobs (Online-Portal sowie Stellenbörse) • Unterstützung der Ziele des “Virtuellen Arbeitsmarkt” • Daten von Bundesagentur für Arbeit, Stellenbörsen und Unternehmens-Websites • Rechtliches: Einwilligung der Quellen Voraussetzung • Suche nach Nachrichten und Pressemeldungen (vgl. :newsexpress) • Mehrere hundert Web-basierte News-Quellen • Treffer verlinken auf Original-Artikel, somit Zuführung von Traffic für News-Quellen • Rechtliches: Deep-Linking für Nachrichten-Suche gemäß BGH-Urteil erlaubt • Weitere Anwendungen • Preisvergleiche, Markt- und Konkurrenzbeobachtung • Automatisierung Quellen-übergreifender Rechercheprozesse in Unternehmen • Vernetzung von kommunualen Einrichtungen, z.B. Rechtsämter, Schulen u.v.m.
neofonie search:purifier – Spider und Betrieb • Integrierter Webspider (neofonie search:robot) • Verarbeitung aller Dokument-Formate • Anwendungsspezifische Filterung, Zusammenfassung und Anreicherung extrahierter Informationen mit Metadaten • Bereitstellung von :purifier als Application Service • Vollständig Web-basierte Oberfläche für Anbindung neuer Quellen • Überwachung und Pflege existierender Quellenanbindungen • Hochverfügbares Web-Hosting und Betrieb • http://www.neofonie.de/loesungen/search/purifier.csp
Innovation in der neofonie • Internet-Pioniere in 1997: Gründer der neofonie realisieren Internet-Suchmaschine FIREBALL • Seit Gründung 1998: Innovative und kostengünstige Lösungen für Kunden • Hoher Forschungsanteil (30%) Innovation und Kompetenzvorsprung • Unterstützung durch öffentliche Förderung (BMBF, Berliner Senat, EU)
Forschungsthemen 2005 bis 2007 • Schnelles Web Mining und Werkzeug-unterstützte Ontologie-basierte Web-Applikations-Integration (PINK) • Fehlertolerantes Webmining durch genetische Optimierung der Extraktoren • Einsatz von Webmining für Web Application Wrapping als Basis für das Semantic Web • Proaktive intelligente Such-Netzwerke auf Grundlage föderierter Suche und verteiltem Workflow Management(PINK) • Einsetzbarkeit von XML-Repositories auf GRID-basierten Systemen • Integration von lokaler, GRID-basierter und föderierter Suche • Integration von verteilter Suche und verteiltem Workflow Management • P2P-basiertes Organisations-übergreifendes Wissensmanagement (WikoR) • ff. • http://www.neofonie.de/unternehmen/forschung/...
Wissenschafts-Portal Science-To-Science • Forschungsprojekt DFN S2S • Förderung: DFN-Verein, Bundesministerium für Bildung und Forschung (BMBF) • Gemischter P2P und Grid-Ansatz für Veröffentlichung, Recherche und Austausch wissenschaftlicher Dokumente • Verbesserung der Infrastruktur für kooperatives Wissenschaftliches Arbeiten in Kommunikationsnetzen • Untersuchung technologischer Aspekte von P2P-Netzwerken • Wissenschafts-Portal Science-To-Science • Integration der Ergebnisse Projekt DFN S2S und <xmlcity:berlin> • Suche, Wissenschafts-Nachrichten und interaktive Bearbeitung wissenschaftlicher Fragestellungen • Untersuchung der Übertragbarkeit auf Unternehmens-Anwendungen
http://s2s.neofonie.de • S2S Suche:P2P-basierte Suche in wissenschaftlichen Dokumenten • S2S News:Quellenübergreifende Suche in Pressemeldungen und Nachrichten aus dem wissenschaftlichen Umfeld • S2S Interaktiv:P2P-basierte interaktive Bearbeitung wissenschaftlicher Fragestellungen
S2S Suche – P2P-basierte Suche • Zielsetzung: Präzise und 100%ig aktuelle Suche in aggregiertem Bestand wissenschaftlicher Dokumente • Veröffentlichung • Download und Insallation des S2S Provider Peer • Automatische Sammlung von Dokumenten in freigegebenen Bereichen auf Arbeitsplatzrechner und im Intranet (Fileserver, Webserver, FTP-Server) • Automatische Indexierung in lokalem XML-Repository (:engine) • Automatische Verbindung zu S2S-Netzwerk (Peer-To-Peer) zur Beantwortung von Suchanfragen und Downloads, Einsatz P2P-Standard Sun JXTA • Recherche und Download • Suche im S2S-Portal • Suchfeatures: Einfache und Erweiterte Suche, Metadaten (Dublin Core), Highlighting, Sortierung, Aktualisierung, integrierte Web-Suche • Community Features: Status S2S-Netzwerk, Provider Info, Kontaktaufnahme, Voting • Alternativ: Mobiler S2S Consumer Peer • Technische Basis: P2P-basiertes Such-Netzwerk
S2S Interaktiv - P2P-basierte Vorgangsbearbeitung • Zielsetzung: Interaktive Beantwortung wissenschaftlicher Fragestellungen • Frage stellen • Web-basiert im S2S-Portal, Bereich Interaktiv • Inhalts-basiertes Routing von Fragen zu Experten • Interaktive Beantwortung • Download und Installation S2S Interaktiv Peer • Benachrichtigung und Beantwortung direkt auf Windows oder Linux-Desktop • Antworten einsehen • Benachrichtigung per Email • Web-basiertes Lesen der Antworten im S2S-Portal • Archivierung und Recherche • Automatische strukturierte Archivierung von Fragen & Antworten • Volltext- und parametrische Suche in Archiv • Technische Basis: P2P-basiertes Workflow Management System
! ? !
Einsatz in kommunalen Einrichtungen • Zielsetzungen / Motivation • Unterstützung organisationsübergreifender Abläufe in Kommunen, z.B. Bürgerämter (Call-Center), Rechtsämter • Etablierung einer verteilten Wissensdatenbank: Vernetzung von lokalen Beständen, Identifizierung expliziter und impliziter Querbezüge in Dokumenten, Integration externer Bestände • Schnellere Umsetzbarkeit und bessere Akzeptanz relativ zu zentralen Ansätzen durch Weiternutzung/Anbindung von Alt-Systemen in P2P-Netzwerk • Technischer Ansatz • Integration von P2P-basierter Suche und Workflow Management • Webmining in Dokumenten der öffentlichen Hand • Ontologien (Semantic Web) als Bindeglied zwischen Dokumenten und Abläufen • Geschlossene Benutzergruppen für virtuelle Teams • Sicherheit: Verschüsselung in P2P-Netzwerken, Anbindung an Public Key Infrastructure (PKI)
Projekt WikoR • Gefördert vom Bundesministerium für Wirtschaft und Arbeit • Projektmitglieder • regio it aachen: kommunaler IT-Dienstleister, Tochter der Stadt Aachen • Forschungsinstitut für Rationalisierung (FIR) • Rechtsämter der Stadt Aachen • Unterauftragnehmer: neofonie • Zielsetzung • P2P-basiertes Wissensmanagement für Rechtsämter in der Region Aachen • Status • Vorarbeit: Prototypisches Wikor-Portal basierend auf Science-To-Science Portal bereits up-and-running • Projektlaufzeit: November 2004 bis 2007
Diskussion Danke für Ihre Aufmerksamkeit