160 likes | 236 Views
ÖSTERREICHISCHE AKADEMIE DER WISSENSCHAFTEN Forschungsstelle für Schallforschung. PSICOMT Psychoakustisches Interface für Computerunterstütztes Musik-Training. Jubiläumsfondsprojekt Nr. 6007 der Oesterreichischen Nationalbank. psicompt1.ppt. PSICOMT:
E N D
ÖSTERREICHISCHE AKADEMIE DER WISSENSCHAFTEN Forschungsstelle für Schallforschung PSICOMTPsychoakustisches Interface für Computerunterstütztes Musik-Training Jubiläumsfondsprojekt Nr. 6007 der Oesterreichischen Nationalbank psicompt1.ppt
PSICOMT: Psychoakustisches Interface für Computerunterstützes Musik-Training INHALTSÜBERSICHT: (1) Allgemeines.................................................................................................... 3 (2) Problemstellung, Psychoakustische Funktionen............................................ 4 (3) Echtzeit-Visualisierung von akustischen Signalen (3.1) Wellenformdarstellungen, Zeitfunktion................................................ 5 (3.2) Darstellungen von Amplitudenspektren............................................... 6 (3.3) Cepstrum-Methode, geglättete Amplitudenspektren........................... 7 (3.4) Spektrale Differenz, Differenzspektren................................................ 8 (3.5) Interpretationsvergleich mittels Spektrogrammen............................... 9 (4) Digitales Schallarchiv und Datenbank...........................................................10 (4.1) Digitale Tonaufnahme, Speicherung und Archivierung......................11 (4.2) Soundfile-Editor, Nachbearbeitung, Signalanalyse (Frequenz und Amplitude), Parameter-, Meßwert- Statistik.............. 12 (4.3) Systemfunktion, Bildschirm des Soundfile-Editors, Sectioner.......... 13 (5) Ausblick und Zusammenfassung................................................................. 14 (6) Danksagung................................................................................................. 15 (7) Literaturhinweise.......................................................................................... 16
PSICOMT: (1) Psychoakustisches Interface für Computerunterstützes Musik-Training: Allgemeines (1) Allgemeines: Computerunterstützte Lernprogramme werden in zunehmendem Ausmaß sowohl an traditionellen Schulen und Ausbildungsstätten als Ergänzung zum Normal-Unterricht als auch in mit Hilfe moderner Telematik-Technologien effektiven Fernkursen eingesetzt. Die Rolle des Fernunterrichts ist in Anbetracht des künftig zu bewältigenden Bildungsaufwandes etwa für ländliche, außerhalb der Kultur- und Bildungszentren gelegene Gebiete von größter Bedeutung. Die Kombination von Lern- und Übungsprozessen unter Aufsicht des Lehrers an den Schulen mit solchen unter programmgesteuerter Kontrolle hat sich für Fähigkeiten, die über Text und Bildinhalte erworben werden können, bestens bewährt. Weitgehend ausgeschlossen waren bisher musikalische und textlich schwer vermittelbare Inhalte bzw. Lern- und Übungsprozesse, die auf nichtverbaler Ebene erfolgen müssen. Dazu zählen u.a. ausgewählte Bereiche des Instrumental- und Gesangsunterrichts. Mit Hilfe moderner digitaler, allerdings kostspieliger Signalprozessorsysteme konnten schon bisher musikalische Singale in Echtzeit analysiert und als Ergebnis eines Lern- oder Übungsdurchganges in einem Feedback-System eingesetzt werden. Primäre Aufgabe des vorliegenden Projektes ist die Entwicklung und Implementierung von Visualisierungsverfahren für akustische Signale, die auf Standard- PC-Systemen lauffähig sind und damit einer breiteren Öffentlichkeit zugänglich werden.
PSICOMT: (2) Problemstellung Psychoakustisches Interface für Computerunterstützes Musik-Training • (2) Problemstellung: Psychoakustische Funktionen • Die akustische Analyse nach Frequenz, Amplitude und Zeit entspricht nicht oder nur teilweise der auditiven Wahrnehmung. Die unmittelbaren Beziehungen zwischen den vom Schüler produzierten akustischen Signalen und den qualitativen Bewertungen eines Musik-Lehrers, sowie den daraus folgenden Anweisungen für weitere Lernfortschritte und Training sind dem Schüler vorerst weitgehend unbekannt. • Zur Lösung dieser Problemstellung bieten sich zwei Hauptlinien an, die eine schrittweise Objektivierung der Lehr- und Lernsituation ermöglichen: • im bottom up approach erfolgt die Umwandlung der technischen Analyseergebnisse in psychoakustisch und psychologisch relevante Informationsparameter, die dem Schüler in akustisch-visueller Form geboten, unmittelbar einsichtig werden, • im top down approach erfolgt die Bereitstellung von technischen Werkzeugen, die den Lehrer in die Lage versetzen, seine Anweisungen zu objektivieren und Routineübungen, Lernerfolgsbeobachtungen usw. unter akustisch-visueller Kontrolle teilweise zu automatisieren.
PSICOMT: (3) Echtzeit-Visualisierung von akustischen Signalen: (3.1) Wellenformdarstellungen, Zeitfunktion • (3.1) Wellenformdarstellungen: • Echtzeitdarstellungen der digitalisierten Wellenform (Zeitfunktion x(t)) erfolgen in zweifacher Weise: • als kontinuierlich laufendes Oszillogramm mit in weitem Bereich wählbarer Zeitbasis von ca. 5 ms bis ca. 185 ms, • als Darstellung der Wellenform-Enveloppe (Spitzenwerte) in Kombination mit Spektrogrammen mit einer Zeitbasis von etwa 2 s bis ca. 10 s und wahlweise beliebig darüber . • Die Abbildungen der Wellenform werden üblicher-weise in Kombination mit einer Spektraldarstellung synchronisiert, können aber auch wahlweise allein vorgenommen werden. Beide Darstellungsarten sind für Kanal A und/oder B verfügbar. Die Amplitude der linearen Wellenformdarstellung ist auf +/-1.0 standardisiert und entspricht im Normalfall einem Dynamikbereich von +/- 215 = ca. 96 dB. An Standard-Sampling-Raten stehen abhängig von der verfügbaren Soundkarte 32 kHz, 44.1 und 48 kHz zur Verfügung.
PSICOMT: (3) Echtzeit-Visualisierung von akustischen Signalen: (3.2) Amplitudenspektrum • (3.2) Darstellung von Amplitudenspektren: • Echtzeitdarstellungen von Amplitudenspektren (Zwei-Kanal Fast Fourier Transformation) erfolgen in zweifacher Weise: • als kontinuierlich laufendes Kurzzeit-Amplituden-spektrum mit in weitem Bereich wählbarer Frequenz-auflösung von 5.3 Hz bei einer Länge des Zeit-fensters (Frame Length) von ca. 185 ms bis ca. 170 Hz bei 5 ms (Sampling-Rate: 44.1 kHz). • als kontinuierlich laufendes, exponentiell gewichte-tes und gemitteltes Amplitudenspektrum mit einstell-barer Abfallkonstante, Mittelung und Überlappung. • Die exponentielle Gewichtung und Mittelung der Amplitudenspektren über die Zeit ergibt eine dem Hörereignis besser entsprechende Darstellung. Im nebenstehenden Beispiel wurde über 4 mit 50% Überlappung berechnete Amplitudenspektren gemittelt. Die Frequenzachse wurde der Verteilung der Frequenzpunkte im Innenohr entsprechend in die Tonheitsskala (Bark) transformiert:
PSICOMT: (3) Echtzeit-Visualisierung von akustischen Signalen: (3.3) Cepstrum-Methode (3.3) Geglättete Amplitudenspektren: Echtzeit-Amplitudenspektren können mit Hilfe der Cepstrum-Methode geglättet werden und repräsen-tieren den von der Grundfrequenz eines Signals un-abhängigen, psychoakustisch relevanten Klangfar-benanteil. Das „Spektrum“ eines log Spektrums wird Cepstrum genannt, seine horizontale Achse wird mit „Quefrenz“ bezeichnet. Das „Cepstrum“ erhält man durch Fourier-Transformation eines log Amplituden-spektrums. Der Grad der Glättung hängt von der Anzahl der im Quefrenz-Bereich zur Rücktransfor-mation in den Frequenzbereich ausgewählten Koeffizienten ab. Der „Filter“-Vorgang im Quefrenz-bereich wird „Lifter“ genannt. Das geglättete Amplitu-denspektrum kann als Enveloppe des Spektrums angesehen werden. Nach dem Modell der homo-morphen Deconvolution entspricht das geglättete Spektrum etwa dem Frequenzgang eines an eine Klangquelle gekoppelten Resonator-Systems. CEPSTRUM FFT LOG INVERSE FFT TIEFPASS FILTER CEPSTRUM KLANGFARBE FFT GEGLÄTTETES SPEKTRUM RESONATOR „LIFTERED“
PSICOMT: (3) Echtzeit-Visualisierung von akustischen Signalen: (3.4) Spektrale Differenz, Differenzspektren (3.4) Differenzspektren: Der Frequenzgang eines beliebigen Systems (Input-Output) oder der Vergleich zwischen zwei beliebigen Klängen kann durch die Subtraktion zweier log Amplitudenspektren (Kanal A - Kanal B) beschrieben werden. Die Berechnung des Differenzspektrums zweier synchronisierter Quellen erfolgt in Echtzeit und kann auch an gemittelten und geglätteten Spektren vorgenommen werden. Auf diese Weise ist der Vergleich von Soll- und Istwerten im Spektral-bereich kontinuierlich verfolgbar. Ein Soll-Spektrum kann iterativ an ein vorgegebenes „Ziel“-Spektrum angenähert werden. Der nebenstehende Vergleich zeigt oben die Lang-zeitspektren eines stationären Tones einer Arie, gesungen von zwei verschiedenen Tenören mit unterschiedlicher Stimmgebung, unten ein ähnlicher Vergleich anhand von geglätteten Spektren. FFT Kanal A LOG + FREQUENZGANG SPEKTRALE DIFFERENZ FFT Kanal B *-1 LOG
PSICOMT: (3) Echtzeit-Visualisierung von akustischen Signalen: (3.5) Spektrogramme (3.5) Interpretations- vergleich mittels Spektrogrammen: Zur Visualisierung von zeitvarianten Signalen werden Spektrogramme he-rangezogen. Das Beispiel zeigt die unterschiedliche Interpretation einer Arie durch zwei Te-nöre in Stimmklang und Timing. Im Ver-gleich zu dem kraft-voll gestalteten Aus-druck der Probe un-ten klingt der Tenor oben deutlich ly-risch. Die unter-schiedliche Stimm-gebung ist auch an der Amplituden-En-veloppe erkennbar.
PSICOMT: (4) Systemfunktion Digitales Schallarchiv und Datenbank (4) Digitales Schallarchiv: Vor dem Einsatz der Digitaltechnik im Tonarchivwesen war das Ergebnis aus zu den in vorgenannten Aktivitäten vergleichbaren Unternehmen, physikalisch gesehen, immer eine gewisse Anzahl von Tonaufnahmen (in analoger Tonbandtechnik oder digitale Audio-Streaming-Aufzeichnungen) mit entsprechend genauer Dokumentation, zumeist schriftlicher Protokollierung und mit angeschlossenem Text- und Bildmaterial. Zunächst entsprachen die Tonaufnahmen in ihrer Chronologie den jeweiligen Aufnahmesituationen und waren häufig nach den Schallquellen orientiert (Instrument, Musiker, Sänger/in, Sprecher/in, Tier, Maschine, schwingendes Objekt). Je nach Applikation waren Musikdarbietungen, einzelne Lieder, Instrumentalklänge, Wortlisten, Sätze, freie Rede, Rufserien von Fröschen, Lärmereig-nisse usw. nur sequentiell vom Tonträger abrufbar. Weder ein auditiver A/B-Vergleich noch vergleichende psychoakustische Analysen waren ohne zeitraubende und qualitätsmindernde Umkopierung möglich. Das Umkopieren zerstörte ferner den Originalkontext, womit die Möglichkeit für spätere, die akustische Umgebung einschließende Abfragen verhindert wurde. Durch die Zerstörung des Originalkontexts wurden die Daten zu erratischen, empirischen Datenblöcken, die bloß einer einmalig aktuellen Fragestellung genügten und nach kurzer Zeit allzuoft nutzlos wurden, nämlich dann, wenn eine neue (z.B. diachrone) Fragestellung entstand, die mit dem zerschnittenen Material nicht mehr beantwortet werden konnte. Im Gegensatz dazu wurde u.a.für das vorliegende Projekt eine speziell entwickelte Segmentie-rungs- und Archivierungsmethode implementiert, die den Kontext der Originalaufnahme erhält. Sie gestattet die enge Transkription von Tonaufnahmen mit Segmenten von wenigen Milli-sekunden aufwärts und ermöglicht den für moderne psychoakustische und lerntheoretische Verfahren unmittelbar notwendigen, völlig frei gestaltbaren Zugriff auf sämtliche in einem Schallarchiv mittlerer Größe (bis ca. 2500 Stunden) verfügbaren Tonsegmente (Schüler- und Lehrerdaten) in beliebiger Sequenz auch über Internet-Zugang.
PSICOMT: (4) Digitales Schallarchiv: (4.1) Digitale Tonaufnahme, Speicherung und Archivierung Aktion: Funktion: Ergebnis: Beginn: Tonaufnahme - Standby, Aussteuerungskontrolle, Echtzeit-FFT-Analyse Tonaufnahme-Menue, Echtzeit-FFT-Analyse, Echtzeit-Spektrogramm, Signal-Ringbuffer. Programm-Start Default START Beginn der Signalspeicherung auf Festplatte, Setzen von Tags und Labels „on the fly“, Record Start, Aussteuerungs- kontrolle, Zeitanzeige, Echtzeit-FFT-Analyse Aufnahme-Taste Tagging Tags generiert, Segmente generiert, Soundfile wird inkrementell geschrieben, Technische und qualitative Beschreibung der Aufnahme, Aufnahmeprotokoll, File(s) geschlossen. Zeitanzeige, Soundfile-Directory Segment-Menue, Attribute Aufnahme STOP Fortsetzung der Tonaufnahme neues Item Soundfile auf Festplatte zur Nachbearbeitung Durch die Einführung von Soundfile-Directories kann jedes einzelne Soundfile eine beliebige Anzahl von Ton- segmenten und Subsegmenten beinhalten, auf die in absoluter oder relativer Adressierung für Wiedergabe oder Analyse der Tonproben zugegriffen werden kann.
PSICOMT: (4.2) Soundfile-Editor, Nachbearbeitung, Signalanalyse (Frequenz und Amplitude), Parameter-, Meßwert- Statistik Aktion: Funktion: Ergebnis: Nachbearbeitung Beginn: Nachbearbeitung, Sectioner, Zeitfunktion, FFT-Analyse Wiedergabe-Menue Editor-Fenster Default Setzen von Tags und Labels „on the fly“ und Off-Line START Interaktiver Spektrogramm- und Wellenform-Editor, Zeitanzeige, Echtzeit-FFT-Analyse Wiedergabe Signalkonditionierung, Tags generiert, Segmente generiert, Technische und qualitative Feinsegmentierung, enge Transkription, Beschreibung der Aufnahme, Aufnahmeprotokoll, Datenbank-Eintragungen, Links zu weiteren Dokumenten, File(s) geschlossen. Tagging Zeitanzeige, Soundfile-Directory Segment-Menue, Attribute Wiedergabe STOP Fortsetzung der Nachbearbeitung neues Item Soundfile(s) auf Festplatte Inkrementeller Update Datenbank und Archiv Textfenster zu Sectioner (Spektrogramm- und Wellenform-Editor) auf der nächsten Seite: t= Position des Cursors (1), f(1) Frequenzwert des Cursors (1) im Amplitudenspektrum-Fenster (rechts oben) berechnet an t, f(2) Frequenzwert des Cursors (2) im Amplitudenspektrum, (d) Differenz zwischen (1) und (2), a(1) a(2) zugehörige Amplitudenwerte, r=Referenz- frequenz (zB. 440 Hz), fx/fy: Verhältniswerte (1/r) (2/r) (1/2), auch in Cents auswertbar, Spectrogram (1) (2) (D) und Waveform (1) (2) (D) referenzieren auf die Cursorpositionen (1) und (2) sowie die Differenz zwischen beiden, die synchron oder nichtsynchron gesetzt werden.
PSICOMT: (4.3) Digitales Schallarchiv: Systemfunktion, Bildschirm des Soundfile-Editors, Sectioner
PSICOMT: (5) Ausblick und Zusammenfassung Die im Rahmen des Projektes entwickelten Softwarekomponenten ermöglichen die Anwendung von Verfahren der digitalen Signalverarbeitung im Musik-Lehr- und Übungsbetrieb. Besondere Sorgfalt wurde auf die Entwicklung der Graphikkomponenten gelegt, die die Echtzeitvisualisie-rung von akustischen Signalen mit ihren Analyseergebnissen bewerkstelligen. Die zeitsynchrone Darstellung von Wellenform und Amplitudenspektrum bzw. Spektrogramm und Wellenform-Enveloppe sind für interaktiven Übungsbetrieb bestens geeignet. Das angestrebte Ziel, die erforderlichen Programme in ein größeres Paket zur akustischen Signalverarbeitung (S_TOOLS) einschließlich Tonarchiv und Datenbank zu integrieren und unter den Betriebssystemen Windows 98 / NT zu implementieren, konnte erreicht werden. Damit ist es gelungen bisher nur auf teuren Workstations verfügbare Signalverarbeitungsalgorithmen einer breiten PC-Öffentlichkeit zugänglich zu machen. Die Software ist im Prinzip auf jedem PC lauffähig, der mit einer Soundkarte ausgestattet ist. Für Echtzeitanwendungen wird eine Hardwarekonfiguration Pentium II, 300 MHz oder schneller mit AGP (Accelerated Graphic Port) empfohlen. Die zum Zeitpunkt dieses Berichts bereits angekündigten 400 MHz-Systeme werden die interakitven Möglichkeiten der Software erhöhen. Eine Testversion des Programmes S_TOOLS X kann vom Server der Forschungsstelle für Schallforschung der ÖAW (http://www.kfs.oeaw.ac.at/S_TOOLS/stx/index.html) geladen werden. Die Benützungsdauer dieser Version ist auf ca. 1Monat begrenzt, es wird gebeten sich nach Ablauf dieser Frist eine neue ver-besserte Version abzuholen. Fehlerberichte, Rückmeldungen über Anwendungen, Kommentare und Ergänzungen sind herzlichst willkommen (wad@kfs.oeaw.ac.at). Benützer, die ein eigenes Tonarchiv anlegen wollen, werden gebeten sich ebenfalls an obige Email-Adresse zu wenden.
PSICOMT: (6) Danksagung Die Forschungsstelle für Schallforschung dankt dem Jubiläumsfonds der Oesterreichischen Nationalbank für die Bereitstellung der Mittel zur Durchführung dieses Projektes. Ferner wird herzlich gedankt: Herrn Univ.Prof.Dr. Erich Vanecek, Abteilung für Musikpsychologie am Institut für Psychologie der Universität Wien für die bereitwillige Kooperation und Unterstützung sowohl in theoretischen Fragen als auch bei praxisbezogenen Testläufen. Frau cand. phil. Cynthia O´Brien für Probespiel (Geige) und Testläufe. Herrn Dr. Helmut Kowar, Phonogrammarchiv der Österrreichischen Akademie der Wissenschaften für wertvolle praktische Hinweise und Probespiel (Geige). Schließlich ist den Urhebern des Quellencodes (C++), Herrn Ing. Anton Noll und Herrn cand. DIng. Patrik Peck, beide Forschungsstelle für Schallforschung, für ihren unermüdlichen Einsatz bei der Entwicklung der Software und bei der Fehlerbeseitigung zu danken, ohne den das Projektziel nicht erreichbar gewesen wäre. Kontaktadresse: Dr. Werner A. Deutsch, Forschungsstelle für Schallforschung der Österrreichischen Akademie der Wissenschaften, Liebiggasse 5, A-1010 Wien, Tel. +43-1/4277 29500, Fax: +43-1/4277 9296, Email: wad@kfs.oeaw.ac.at; http://www.kfs.oeaw.ac.at
PSICOMT: (7) Literaturhinweise Bogert B.P., M.J.R. Healy, and J.W. Tukey (1963): The Frequency Analysis of Time Series for Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum and Shape Cracking. In M. Rosenblatt, (Ed.), Proceedings of the Symposium on Series Analysis. New York: Wiley, 209-243. Deutsch, W.A., R. Vollmann, A. Noll & S. Moosmüller (1998): An Open Systems Approach for an Acoustic-Phonetic Continuous Speech Database: The S_TOOLS Database-Management System (STDBMS). In: Linguistic Databases. John Nerbonne, ed. CSLI Publications, Center for the Study of Language and Information, Stanford; 77-92. Deutsch W.A. (1997): Interaktives Musiktraining zur Optimierung von Isntrumentalklängen - Ein Interdisziplinäres Projekt zwischen Musikpsychologie und Schallforschung. Internationales Symposium: Angewandte Musikpsychologie im Instrumentalunterrricht - „Verwissenschaftlichung“ oder echte Hilfe. Mürzzuschlag; Nov. 14.-16.1997. Födermayr, F. & W.A.Deutsch (1993): „Parmi veder le legrime“: One Aria, three Interpretations. Proceedings of the Stockholm Music Acoustics Conference, July 29-August 1. 1993, 96-107. Noll, A.M. (1964): Short-time Spectrum and Cepstrum Techniques for Vocal Pitch Detection. Journal of the Acoustical Society of America, 36, 296-302. Vanecek E. (1997): Der Körper als wichtigstes Instrument der Instrumentalisten. Internationales Symposium: Angewandte Musikpsychologie im Instrumentalunterrricht - „Verwissenschaftlichung“ oder echte Hilfe. Mürzzuschlag; Nov. 14.-16.1997.