320 likes | 449 Views
Sprachverarbeitung zur Gesprächsauswertung, eine Einführung. OTL a.D. Dipl.-Ing. Johannes Naumann. Verfahren der automatisierten Sprachverarbeitung zur Gesprächsauswertung. OTL a.D. Dipl.-Ing. Johannes Naumann. Johannes Naumann, OTL (a.D.) Dipl. Ing. 38 Jahre Deutsche Luftwaffe
E N D
Sprachverarbeitung zur Gesprächsauswertung, eine Einführung OTL a.D. Dipl.-Ing. Johannes Naumann
Verfahren der automatisierten Sprachverarbeitung zur Gesprächsauswertung OTL a.D. Dipl.-Ing. Johannes Naumann
Johannes Naumann, OTL (a.D.) Dipl. Ing. 38 Jahre Deutsche Luftwaffe Verwendungen EloKa Offz Luftwaffenführungsdienstkommando Leiter der Erfassung FmSkt F, Kötzting Leiter ZBA, Trier (GEWOSC) EloKa St Offz LwA, LFlKdo Leiter Lw-Anteil BwKdo US/CA Sachgebietsleiter Elo beim ANBw,Gelsdorf Streitkräfteamt, Fähigkeitsanalyse NG&A & EloKa
Disclaimer Dieser Vortrag gibt ausschließlich meine eigene Meinung wieder und stützt sich auf unabhängiges Denken gestützt auf 35 Jahre Erfahrung mit fast allen Spielarten der EloKa (EK) IO und auf die Physik, allgemein zugängliches Wissen und die verfügbare wissenschaftliche Information.
Gliederung Motivation (Massendaten) Sprachen - Problem Kapazitäten - Problem Automatisierte Verfahren Netzwerkaufklärung Reach Back Technische Randbedingungen Klassifikatoren Demo
Warum, Wieso, Weshalb ? Massendatenproblem wegen sehr stark gestiegener Funknutzung • bisher: potentieller Gegner war bekannt • seit Bw im Einsatz: potentieller Gegner zivil • JEDER kann es sein und alle reden miteinander
Moderne Aufklärungsmittel hören aber mit ! Problem: Wer hört die 50.000 Gespräche / h ab ? 24 Mio Afghanen, die jeder 2 Stunden täglich telefonieren, belegen jeder 1/10 Kanäle, also 1,2 Mio gleichzeitige Gespräche täglich, macht 50.000 gleichzeitige Gespräche je Stunde Problem: Versteht der überhaupt die Sprache ?
Wo sind die Auswerter, die 40 Sprachen sprechen ? Problem: Kleine Kapazitäten für viel Umfang Problem: Wer findet raus, was relevant ist ? Problem: Handelt es sich überhaupt um Sprache ?
Wie kann automatisierte Sprachverarbeitung helfen ? 1.: Ist das Sprache oder Geräusch ?
Wie kann automatisierte Sprachverarbeitung helfen ? 1.: Ist das Sprache oder Geräusch ?(Sprachdetection)
z.B. durch Computerprogramme: Stochastische Verfahren, die Sprachlaute von Geräusch unterscheiden können Treffgenauigkeit ist begrenzt Es gibt Verfahren, die „trainiert“ werden müssen In unterschiedlichen Scenarien unterschiedliche Treffgenauigkeit
Wie kann automatisierte Sprachverarbeitung helfen ? 1.: Ist das Sprache oder Geräusch ? 2.: Welche Sprache ist das überhaupt ?
Welche Sprache ist das überhaupt ? zunächst: Lautanalyse Jede Sprache hat spezielle Lautkombinationen Sprachmelodie (Frequenzanalyse) Sprachrhythmus, Pausen Konsonanten, Vokale, Diphtonge Phoneme
Wie kann automatisierte Sprachverarbeitung helfen ? 1.: Ist das Sprache, oder Geräusch ? 2.: Welche Sprache ist das überhaupt ? 3.: Erkenne ich den Sprecher?
Wie erkenne ich den Sprecher ? • Frequenzspektrum der Stimme • Sprachraum der Stimme • Eigenheiten bei den verschiedenen Lauten Explosivlaute, Vokale: Klangfarbe Tonfall, Rhythmus Verschleifungen weitere Eigenheiten
Es gilt, irrelevante Gespräche zu ignorieren, um wichtige Hinweise zu finden. Stichworte können ähnlich Sprechern als Bild, Signatur abgelegt werden
Wie kann automatisierte Sprachverarbeitung helfen ? 1.: Ist das Sprache oder Geräusch ? 2.: Welche Sprache ist das überhaupt ? 3.: Erkenne ich den Sprecher ? 4.: Erkenne ich Stichworte ?
Stichworterkennung durch Vergleichen Erstellen von Mustern Vergleich der Muster mit dem Sprachmaterial Aufwendig. Spezielle Software, die nur charakteristische Teilmuster verwendet ist schneller
Wie kann automatisierte Sprachverarbeitung helfen ? 1.: Ist das Sprache oder Geräusch ? 2.: Welche Sprache ist das überhaupt ? 3.: Erkenne ich den Sprecher ? 4.: Erkenne ich Stichworte ? 5.: Erkenne ich Zusammenhänge ?
Wie erkenne ich Zusammenhänge ? • Zusammenhang ergibt sich aus mehreren Stichworten • Kombination aus Stichworten und Ereignissen oder Daten Keywordspotting
Wie kann automatisierte Sprachverarbeitung helfen ? 1.: Ist das Sprache oder Geräusch ? 2.: Welche Sprache ist das überhaupt ? 3.: Erkenne ich den Sprecher ? 4.: Erkenne ich Stichworte ? 5.: Erkenne ich Zusammenhänge ? 6.: Erkenne ich ein geplantes Ereignis ?
Erkenne ich ein geplantes Ereignis ? Sprecher, Stichworte und Zusammenhänge können zu geplanten Ereignissen führen Dabei helfen Informationen aus anderen Diensten, wie z.B. Netzwerkaufklärung
Netzwerkaufklärung Wie findet man heraus, was relevant ist ? IMSI-Catcher liefert ID, Standort, und gestattet das Mithören „IMSI-Catcher für 1500 Euro im Eigenbau.“ Heise-online, 1. August 2010.
IMSI-Catcher: „Das Gerät arbeitet dazu gegenüber dem Mobiltelefon wie eine Funkzelle (Basisstation) und gegenüber dem Netzwerk wie ein Mobiltelefon; alle Mobiltelefone in einem gewissen Umkreis buchen sich bei dieser Funkzelle mit dem stärksten Signal, also dem IMSI-Catcher, ein. Der IMSI-Catcher simuliert also ein Mobilfunknetzwerk.“ (Wikipedia)
Netzwerkaufklärung Datenstrom Statistische Verfahren zur Massendaten-Auswertung Ich erfahre: Wer, Wann, Wo, mit Wem, Wie lange, Wie oft telefoniert (kommuniziert) hat.
Erkenne ich ein geplantes Ereignis ? Sprecher, Stichworte und Zusammenhänge können zu geplanten Ereignissen führen Dabei helfen Informationen aus anderen Aktivitäten, wie z.B. Netzüberwachung Gewonnene Informationen dienen dem gezielten Einsatz der Linguisten
Reach Back Problem: 40 versch. Sprachen im Einsatzgebiet - Aufkommen schwankt - Kapazitäts-Engpässe - Bedrohung, Streß In der Heimat Pool an (ausgeruhten) Linguisten Daten erfassen – ableiten – Ergebnisse zurückschicken
Technische Randbedingungen 1.: Quelle: Funk, Mobilfunk, Glasfaser 2.: Funk: Frequenz beliebig, Zeit unsicher 3.: Mobilfunk: ständiger Datenstrom 4.: Inhalt: unbestimmt, meist wertlos 5.: Charakter: überraschend: manchmal Merkel 6.: Ernüchternd: Normalbürger stört nur
Klassifikatoren Beispiel Boger Beispiel Medav Verschriftungssoftware (nicht OCR)