1 / 18

Guten Morgen, meine Name ist…

Guten Morgen, meine Name ist…. Wer: Matthias Schneider, 34 Jahre, verheiratet. Minilebenslauf: Geburt – Schule - Studium ;-) Um mein Studium finanzieren zu können, arbeitete ich eigenverantwortlich als Webdesigner und Programmierer, sowie als Administrator für kleinere

Download Presentation

Guten Morgen, meine Name ist…

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Guten Morgen, meine Name ist… • Wer: • Matthias Schneider, 34 Jahre, verheiratet. • Minilebenslauf: Geburt – Schule - Studium ;-) • Um mein Studium finanzieren zu können, arbeitete • ich eigenverantwortlich als Webdesigner und • Programmierer, sowie als Administrator für kleinere • Betriebe. Dem folgte eine zweieinhalbjährige Karriere • als Angestellter in einer Würzburger IT-Firma zunächst als Webdesigner und Webmaster, später als Service Manager für Großkunden. Zu meinen Aufgaben dort zählten das Erfüllen von Serviceverträgen, Projektsteuerung, Dokumentation, etc. • Irgendwann erfasste dann auch uns die geplatzte dot.Com Blase und ich wurde wegrationalisiert. • Also startete ich in die Selbstständigkeit und beschäftige mich seitdem mit Online Marketing, • SEO, PHP, Ajax, Blogs, Wikis … und seit 2 Jahren mit der Entwicklung von Semager.

  2. Warum noch eine Suchmaschine? • Was: • Suchmaschinen gibt es viele. Warum noch eine und was könnte den Reiz einer neuen Suchmaschine ausmachen? • Meine Daten sind mir heilig, ich mag es nun mal nicht, wenn meine Suchanfragen und private Daten auf „irgendwelchen“ Servern rumliegen. Und was damit gemacht wird, weiß ich auch nicht (lesen Sie doch mal sorgfältig die AGBs von bekannten Suchmaschinen durch). • Deutschland hinkt in der Suchmaschinenbranche stark hinterher (schade eigentlich, gibt es doch genügend schlaue Köpfe und Ideen in unserem Land). • Das Wissen der Welt gehört der Menschheit • + Sind Sie nicht im Index, existieren Sie auch nicht • = Der Filter von Suchmaschinen entscheidet (kann entscheidend sein)über unser Existenz. • Neue Filter braucht das Land. Filter bei denen Sie auch gefunden werden, wenn Sie nicht gerade eine hochoptimierte Internetseite haben. Suchmaschinen, die eine Alternative zu dem stark amerikanisch diktierten Markt sind und vielleicht hier und dort sogar noch etwas bessere Suchergebnisse liefern können. • Das ist sicherlich nicht ganz einfach, aber es ist machbar (z.B. mit semantischer Suche).

  3. Problem und Lösung der Volltextsuche • Problem • Es werden Internetseiten gefunden in denen die eingegebenen Suchbegriffe (relativ) exakt vorkommen (Volltextsuche). Seiten die Inhaltlich dem gesuchten entsprechen, aber die Suchbegriffe nicht enthalten, werden gefiltert. • Lösung • Es werden Internetseiten gefunden, in denen nicht unbedingt die Suchbegriffe vorkommen müssen, aber doch deren semantische Schnittpunkte. Idealerweise beides in einem ausgewogenem Mischverhältnis. Dazu notwendig: • Berechnung einer Semantik • (bei Semager als Verwandtschaftsgrad zwischen Wörtern) • Erstellung einer „semantischen Landkarte“, dem Beziehungsgeflecht aller Wörter • Berechnung der „gemeinsamen Nenner“ der Suchbegriffe durch • a) der kürzesten Verbindung zwischen den Suchwörtern (ähnlich Routenplaner) oder • b) der stärkste Assoziation (neuronales Netz) und/oder • c) durch Berechnung einer Taxonomie (Vater/Sohn Gruppierung)

  4. Bestehende Ansätze zu semantischen Suche • Thesaurus • Anbindung/Import einer bestehenden Thesaurus Datenbank und vergleich der Suchanfragen mit dieser • + Einfach und schnell • + Bei einzelnen Wörter gute Ergebnisse • - Nur relativ wenig Wörter bekannt • - Keine Komplexen berechnung • Clustern • Indem man z.B. die Wörter in den Titeln der ersten 100 Treffern einfach mathematisch • gruppiert. • + rel. schnell • - Ungenau (da nicht semantisch, sondern eben nur geclustert)

  5. Bestehende Ansätze zu semantischen Suche • Folksonomy • Eine durch Benutzer erzeugte Stichwortsammlung zu einer Internetseite, Bild oder Artikel. • + Sehr genau, da menschlich generiert • - Kein Algorithmus und somit nicht überall anwendbar • Auswertung der Suchanfragen • Man speichere die Suchanfragen von Benutzern einer Suchmaschine. Bei einer genügend hohen Anzahl von Anfragen kann man ein gehäuftes Vorkommen mit gleichen Wörtern messen und Beziehungen darüber herstellen. • + Funktioniert gut bei Namen(z.B. „Georg Bush“) • - Wird stark von aktuellen Ereignissen beeinflusst • - Manchmal semantisch, manchmal nicht

  6. Bestehende Ansätze zu semantischen Suche • LSI (Latent Semantic Indexing) • Man kann feststellen, das in den meisten Dokumenten bei denen es um iPods geht, auch oft MP3 und Player genannt wird. Andere Dokumente in denen diese Begriffe ebenfalls genannt werden sind somit Latent Semantisch Nahe. • + Semantisch Nähe • - Längere Such- und Analysezeiten im Index, Rechenintensiv • - Eben doch nur Latent • PLSI (ProbabilisticLatent Semantic Indexing) • Im Vergleich zu LSI welches auf einer Matrixzerlegung basiert (Singular Value Decomposition), hat die the probabilistische Variante statistische Grundlagen.. • + Exakter als LSI • - Rechenintensiv

  7. Bestehende Ansätze zu semantischen Suche • HAL (Hyperspace Analogue to Language) • Jedes Wort wird durch die Gesamtheit seiner Nachbarschaften im Kontext repräsentiert, oder einfacher ausgedrückt, Wörter mit ähnlicher Bedeutung erscheinen in ähnlichen Sätzen. • + Semantische Nähe • = Ergebnisse ähnlich LSI

  8. Wie grenzt sich Semager ab? Nennen wir es einmal Neuronales routing durch PI-LSI erzeugtem Sprachraum oder kurz Neuronales routing oder lang Neuronales routing via vorsortiert indexierte und inkrementel berechnete HAL & LSI erzeugte Sprachdatenbank PI-LSI = Predefined and Incremental LSI Predefined = vorsortiert Indexiert Im Gegensatz zur zufälligen Indexierung benutze ich zur Berechnung nur Dokumente von denen ich weiß, um was Sie handeln. Incremental = in Addition zu bestehenden Ergebnissen Neue Ergebnisse werden zu bestehenden hinzugefügt und festigen die Semantik.

  9. Wie soll das funktionieren? • Lösungsansatz: • 1) Berechnung von Wortverwandtschaften durch Analyse von (unbegrenzt) vorhandenen und verlinkten Internetseiten. • Besonderheit: • Zeitliche und/oder regionale Eingrenzung der Quellen • Die Ergebnisse können durch aktuelle Ereignisse (weit verbreitete Nachrichten) beeinflusst werden, aber nicht gezielt manipuliert. • 2) Wird eine Wort-Wort Beziehung wiederholt erkannt, erhöht sich die Glaubwürdigkeit dieser Beziehung. Aktuelle Ereignisse können eine Beziehung immer noch Beeinflussen, aber mit jeder wiederholten Berechnung etwas weniger. Eine Beziehung wird „sicherer“. • Besonderheit: • Erkennung von „One-Hit-Wonder“

  10. Wie soll das funktionieren? • Lösungsansatz: • 3) Es wird die Stärke einer Beziehung in Prozent berechnet. Dies ermöglicht eine Aussage über die Nähe zwischen Worten, welches sowohl für „den kürzesten Weg“ (Routing) als auch für ein neuronale Netz Grundlage ist. • Wörtern und Beziehungen aus Lexikas oder importierten Datenbanken wird eine höhere Festigkeit eingeräumt, als selbst gelerntem. • 4) Es wird unterschieden zwischen abgehenden und eingehenden Beziehung - vergleichbar mit eingehenden und ausgehenden Internetlinks. Eine Wort-zu-Wort Beziehung kann auch wechselseitig sein (was natürlich auch häufig der Fall ist), hat aber dann in den allermeisten Fällen zumindest unterschiedlich starke „Links“. • Besonderheit: • „Einbahnstraßen“ und asynchrone Wege • Ähnlich einem Netzwerkrouting (siehe auch BGP, OSPF und Metrik)

  11. Routing-Berechnung des gesuchten • Berechnung: der kürzeste Weg • Mit den bekannten Wortverwandschaften lässt sich eine „Landkarte“ erstellen (mit den Wörtern als Städte, der Stärke der Beziehung als Autobahn oder Landstraße, der Richtung als Einbahnstraße oder beidseitig befahrbar). • Es werden die kürzesten/schnellsten/synchronsten Wege zwischen den Suchbegriffen berechnet (ähnlich einer GPS Navigation, A*-Algorithmus) • Die Wörter welche in der Mitte des Weges sind, werden als größte Gemeinsamkeit angenommen. Bild: Wikipedia

  12. Beispiel: Landkarte/Netzwerk von „Voip“ Die ersten 25 Beziehungen (Nachbarn) von „Voip“ sowie deren Beziehungen untereinander. Je dunkler ein Linie, je stärker die Beziehung. Keine Linie, keine Beziehung. Eine solche lokale „Landkarte“ lässt sich für jedes Wort berechnen. Es entsteht eine „Weltkarte“. Besonderheit: Erkennung von nahe gelegenen Wörtern die jedoch keine Beziehung untereinander haben.

  13. Beispiel: Verknüpfungen von „Voip“

  14. Neuronale Berechnung • Berechnung: die stärkste Assoziation • Mit den bekannten Wortverwandschaften lässt sich ein Neuronales-Netz erstellen (Wörter als Neuronen, Stärke der Beziehung als Synapsen, Richtung als Dendrit oder Axon). • Ausgehenden von den Suchbegriffen „feuern“ die Neuronen und kaskadieren weiter. • Die Wörter welche am meisten feuern, werden als stärkste Assoziation angenommen. • Besonderheit: • Schwellenwert eines „Neurons“ • variable „Konzentrationsenergie“ Bild: Wikipedia

  15. Neuronale Berechnung „Blumen“

  16. Suche des gesuchten • Stichwort: Automatic Query Refinement • Wir schreiben die Suchanfrage des Benutzers einfach um. • Volltext • Wir schreiben die Suchanfrage doch nicht um. Der Benutzer bekommt nur Seiten angezeigt, in denen seine Suchwörter genau so (nämlich 100% genau so) enthalten sind. • Wortstamm • Wir schreiben die Suchanfrage so um, das der Benutzer auch Seiten findet, in denen die Suchwörter auch in ähnlicher Schreibweise geschrieben sein können. • Semantisch • Wir schreiben die Suchanfrage so um, das der Benutzer auch Seiten findet, in denen die Suchwörter noch nicht einmal in ähnlich Schreibweise stehen müssen, sondern Wörter enthalten die im Grunde genommen das gleiche meinen. Bild: Wikipedia

  17. Statistik vom 31.7.2007 zum semantischen Index Deutsch: Wörter und Wortkombinationen: 1.611.907 Beziehungen untereinander: 100.614.760 Englisch: Wörter und Wortkombinationen: 249.440 Beziehungen untereinander: 8.131.394 Pro Tag werden ca. 250.000 Beziehung berechnet.

  18. Schlusswort Danke für Ihre Aufmerksamkeit. Ich hoffe ich konnte Ihnen die Idee einer semantischen Suchmaschine Näher bringen. Ich nur noch ein kleines Problem ;-) Nicht genügend Mittel, um die Suchmaschine mit mehr Rechenkapazität auszustatten, Mitarbeiter einzustellen und Werbung zu machen. Bei Interesse bitte melden! NG-Marketing / Semager Matthias Schneider Sedanstraße 27 97082 Würzburg Tel 0931 . 207 41 07 Mobil 0179 . 273 68 68 Email info@semager.de

More Related