120 likes | 256 Views
SOFTWARE. ENTWICKLUNG. STX. Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen. Entwickelt am Institut für Schallforschung der Österreichischen Akademie der Wissenschaften Die Software ist auf unserer Homepage verfügbar www.kfs.oeaw.ac.at.
E N D
SOFTWARE ENTWICKLUNG STX Ein Softwarepaket zum Verwalten Analysieren und Annotieren von Schallsignalen Entwickelt am Institut für Schallforschung der Österreichischen Akademie der Wissenschaften Die Software ist auf unserer Homepage verfügbar www.kfs.oeaw.ac.at
Signalanalyse, Segmentierung und Annotierung • Benutzerdefinierte Analyseprofile • Parallele graphische Darstellung von • Wellenform, Spektrogramm (FFT, LPC, • Wavelet, ...) und Parameterverläufen • (rms, f0, Formanten, …) • Annotierungen mit Attributvorlagen • lokales Detailspektrum (Sektion) Analyse Annotierung Echtzeitanalyse Analyse und graphische Darstellung von Signalen in Echtzeit
Verwaltung von Signalen und Einstellungen Workspace - Sammelstelle für Programmeinstellungen und Projektdateien. Hier erfolgt die Auswahl von Signalen, Verarbeitungsprofilen und Benutzerscripts. TCP/IP DCOM (z.B.: ↔ R) DDE (z.B.: ↔ Excel) Clipboard Schnitt- stellen Wave-In Wave-Out Dateien: Wave, XML, Text etc. Recorder Aufnahme von Signalen mit Signalaussteuerung und Tagging. Input Output Verwaltung
Kommandozeile Entwicklungsumgebung Ausführung von Scriptbefehlen für die interaktive Entwicklung von Scripts. Debuggingumgebung Interaktives Debugging von Scripts mit Breakpoints, Funktionsstack, Umgebungsinspektor etc. Entwicklung Anwendungs- programmierung
Spektrogramme – Zeit-Frequenz Signaldarstellungen Vergleich verschiedener Spektrogramme des Sprachsignals „kreidebleich“ Spektrogramm = Signalamplitude als Funktion von Zeit und Frequenz = Zeit-Frequenz Darstellung Kurzzeit-Fouriertransformation (STFT) Konstante, frequenzunabhängige Zeit- und Frequenzauflösung konstante Bandbreite Wavelet-Transformation (Typ: Morlet) Hohe Frequenzauflösung bei niedrigen Frequenzen Hohe Zeitauflösung bei hohen Frequenzen konstantes Verhältnis von Bandbreite zu Mittenfrequenz Frequenz Frequenz Zeit Zeit
Sprachanalyse – Spektrogramm und Sprachparameter Berechnung und Darstellung von Sprachsignalen und grundlegenden Sprachparametern Segmentmarkierung Zeitbereich und Metadaten (z.B. Transkription) Spektrogramm Zeit-Frequenz Analyse = Schalldruck als Funktion von Zeit und Frequenz Formantfrequenzen Resonanzen des Vokaltrakts Grundfrequenz (f0) Tonhöhenverlauf (Prosodie) Wellenform zeitlicher Verlauf des Schalldruckes Die berechneten Parameter können graphisch editiert (korrigiert), zur weiterverarbeitung im Workspace gespeichert und / oder exportiert werden.
MULAC – Frame-Multiplier in Acoucstics Framework für die Entwicklung, Testung und Anwendung von Frame-Multipliern (siehe Projekt „MulAc“) Original (mongolischer Obertongesang) Modifikationsmatrix („Maske“) Modifiziertes Signal x = Frequenz [kHz] Zeit [s] Zeit [s] Zeit [s] Adaptives Kammfilter Auslöschung (0-setzen der Amplitude) Analyse und Resynthese erfolgen derzeit mittels Gaborframes. Andere Methoden mit variabler Zeit / Frequenz-Auflösung (z.B. basierend auf Wavelets) sind geplant. Die Definition von Modifikationen (Masken) erfolgt durch die graphische Auswahl des Zeit-Frequenz-Ausschnitts (Polygon) und die Angabe von Methode und Parametern. Die Erzeugung der Masken kann signalgetrieben (adaptiv) oder signalunabhängig erfolgen. Irrelevanzfilter (Übermaskierung) Schwarz = 1 = keine Änderung Weiss = 0 = Auslöschung
SPExL – Graphisch / Akustisch unterstützte Transkription Benutzerfreundliches, rasches Segmentieren, Transkribieren und Annotieren umfangreicher Tondokumente Anwendungen vor allem in der Phonetik, Phonologie und Forensik Wellenform + Segmentmarkierung Spektrogramm + Transkription + (optional) f0, Formanten; schnelles Umschalten zwischen Schmal- und Breitbandanalyse möglich - Userinterface optimiert für Tastatureingabe (d.h. möglichst wenige Wechsel zwischen Maus und Tastatur) - Graphiklayout, GUI und Signaldarstellungen sind konfigurierbar. - Segmentattribute können anwendungsbezogen definiert werden (Segment-Templates) - Paralleles Arbeiten im Workspace ist möglich (Kontrollhören, Korrektur, Detailanalyse) Scroll + Zoom synchron für Wellenform und Spektrogramm Steuerung auch über Hotkeys und Kontextmenü verfügbar Segmentliste + Editor
RETISIMO – REalTIme SIgnal MOdification Allgemeines Framework für Signalprocessing und Spektrumanalyse von Stereosignalen in Echtzeit (Anwendung der Frame-Multiplier, siehe Projekt „MulAc“) Blockdiagramm: Zeitbereich x(t) Spektrum a(f),φ(f) Zeitbereich y(t) Wave-Out oder Soundfile Processing Modul Wave-In oder Soundfile Input Multiplexer Output Multiplexer Output Postprocessing Analyse Synthese Input Preprocessing Level- meter Grafik (Spektren, PPM und vom Processing- Modul abhänige Funktionen) Implementierte Prozessing Module: Analyse Synthese • Standardfilter (Tiefpass, Hochpass, Bandpass) • Graphisch definierte Filter • HRTF-Rendering mit 3D Quellenpositionierung • Sprachsynthese und 3D Vokaltraktmodell • Rauschunterdrückung (Signalverbesserung) • Irrelevanzfilter (Simultanmaskierung) LAN Files Framework-Modul Framework-Modul; Funktion teilweise abhängig von Processing-Modul Externe 3D Graphik (z.B. für HRTF, Sprachsynthes) Externe Daten (z.B.: HRTFs, Filterspektren Sprachdaten) Processing-Modul; austauschbar Externe Programme und Daten; abhängig von Processing-Modul
RETISIMO Modul – Irrelevanzfilter Entfernung nicht hörbarer („irrelevanter“) Teile von Klängen mittels Simultanmaskierung Blockdiagramm: Irrelevanzfilter Maskierungs- filter Pegel- adaptierung Maskierungs- spektrum Signalspektrum x(f) Irrelevanzspektrum y(f) x(f) für x(f)>m(f) y(f)= 0 für x(f)≤m(f) Maskierungsparameter Adapierungsparameter Signalspektrum • Anwendungen: • In der Signalanalyse • (Informationsreduktion) • Übermaskierung = • Trennung starker • („Vordergrund“) • und schwacher • („Hintergrund“) • Signalteile • In der Signalkodierung; • „perzeptive Coder“ • z.B.: MP3 Psychoakustisches Modell der Simultanmaskierung von Sinustönen Irrelevanzspektrum Maskierungsfunktion abhängig von Frequenz und Amplitude des Maskierungstones Maskierungs- ton Amplitude in dB Testton 1 nicht hörbar („maskiert“) Maskierungsspektrum Testton 2 hörbar Frequenz in Bark (= perzeptive Frequenzskala)
RETISIMO Modul – Sprachsynthese Formant-Synthesizer (Dennis H. Klatt; JASA 67/3, 1980) und Berechnung der Vokaltraktquerschnitte mittels LPC (Linear Prediction Coding) Blockdiagramm: Formant-Synthesizer Sprachsignal Puls Generator Grundfrequenz und Amplitude Vokaltraktfilter LPC Analyse Mix Die Syntheseparameter werden über Dialog und Grafik eingegeben oder von einem Sprachdatenfile gelesen Rausch Generator Vokaltraktmodell Amplitude Formanten (Frequenz, Amplitude, Bandbreite) Filter- spektrum Querschnitts- koeffizienten Formanten Amplituden- spektrum des Sprachsignals
RETISIMO Modul – HRTF-Rendering Simulation einer im Raum positionierbaren Quelle mittels gemessener oder berechneter HRTFs (HRTF = Head Related Transfer Function = individuelle Außenohr-Übertragungsfunktion) Blockdiagramm: HRTF-Rendering Filter links Input (mono) Output links HRTF Datenbasis H(α,β) Filterspektrum- generator Filter rechts Output rechts Position der Quelle (Distanz r, Azimuth α, Elevation β) z.B.: Azimuth=45°, Elevation=0° (Quelle vorne, links in Kopfebene) HRTF links HRTF rechts • Beim Rendering werden • das HRTF-Spektrum, • die Zeitdifferenz zwischen den Ohren und • die Distanz zur Quelle berücksichtigt.