330 likes | 705 Views
Rozpoznawanie głosów ptaków. Dr inż. Robert Wielgat. Państwowa Wyższa Szkoła Zawodowa w Tarnowie Zakład Elektroniki i Telekomunikacji - Dzień otwarty w PWSZ 13 marca 2009. Charakterystyka głosów ptaków.
E N D
Rozpoznawanie głosów ptaków Dr inż. Robert Wielgat Państwowa Wyższa Szkoła Zawodowa w Tarnowie Zakład Elektroniki i Telekomunikacji - Dzień otwarty w PWSZ 13 marca 2009
Charakterystyka głosów ptaków - Dźwięki głównie harmoniczne, zasadniczo brak składowych szumowych- Dwie pary strun głosowych,- W przypadku wielu głosów ptaków występują składowe ultradźwiękowe niesłyszalne dla ucha ludzkiego t rz y Częstotliwość [Hz] Czas [s]
Znaczenie rozpoznawania głosów ptaków • Wykrywanie rzadkich gatunków ptaków w celu ochrony ich siedlisk • Monitoring ptaków i wykrywanie zagrożeń ekologicznych (FBI –Farmland Bird Index) • Ochrona upraw rolnych • Ochrona lotnisk i samolotów
Projekt „BIRDSMOND” • Od czerwca 2008 roku w Państwowej Wyższej Szkole Zawodowej w Tarnowie jest realizowany grant MNiSW Nr N N519 402934pt. „Opracowanie automatycznego systemu akustycznego monitoringu ptaków dla Ciężkowicko-Rożnowskiego Parku Krajobrazowego” we współpracy z: • Zespołem Parków Krajobrazowych Pogórza w Tarnowie, • Uniwersytetem Jagielońskim, • Małopolskim Towarzystwem Ornitologicznym, • Akademią Górniczo-Hutniczą, • Uniwersytetem Rolniczym w Krakowie. • Od września 2008 roku projekt nosi nazwę: • B I R D S M O N D • będącą akronimem od:BIRDSOUND MONITORING DATABASE
System akustycznego monitoringu ptaków Automatyczny Obserwator Stacjonarny rejestrator cyfrowy Program rozpoznający w trybie bez nadzoru Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator
System akustycznego monitoringu ptaków Automatyczny Obserwator Stacjonarny rejestrator cyfrowy Program rozpoznający w trybie bez nadzoru Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator
Stacjonarny rejestrator cyfrowy LCD Klawiatura Bezprzewodowy transceiver Antena Zegar Czasu rzeczy-wistego MIKROKONTROLER FAT32 4 x Szerokopas-mowy mikrofon pojemnościowy Karta pamięci A/C C/A 4 x wzmacniacz mikrofonowy Wzmacniaczmocy Zestaw głośnikowy
System akustycznego monitoringu ptaków Automatyczny Obserwator Stacjonarny rejestrator cyfrowy Program rozpoznający w trybie bez nadzoru Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator
System akustycznego monitoringu ptaków Automatyczny Obserwator Stacjonarny rejestrator cyfrowy Program rozpoznający w trybie bez nadzoru Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator
Przenośny rejestrator cyfrowy LCD Klawiatura GPS Antena Zegar czasu rzeczy-wistego MIKROKONTROLER FAT32 4 x Szerokopas-mowy mikrofon pojemnościowy Karta pamięci Słuchawki A/C C/A Wzmacniacz słuchawkowy 4 x wzmacniacz mikrofonowy
System akustycznego monitoringu ptaków Automatyczny Obserwator Stacjonarny rejestrator cyfrowy Program rozpoznający w trybie bez nadzoru Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator
System akustycznego monitoringu ptaków Automatyczny Obserwator Stacjonarny rejestrator cyfrowy Program rozpoznający w trybie bez nadzoru Gość Przenośny rejestrator cyfrowy Ekspert lub Administrator System informatyczny GPS, filmy, zdjęcia, informacje o pogodzie Stacjonarny rejestrator cyfrowy Przenośny rejestrator cyfrowy Program rozpoznający w trybie z nadzorem Obserwator
Program rozpoznający pracujący w trybie bez nadzoru • Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. • Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: • etap ekstrakcji cech • etap klasyfikacji • Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosującsystem ekspertowywykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.
Program rozpoznający pracujący w trybie bez nadzoru • Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. • Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: • etap ekstrakcji cech • etap klasyfikacji • Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosującsystem ekspertowywykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.
Ekstrakcja cech • Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.: • Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding), • Maksima widmowe (ang. spectral peaks), • Falki (ang. wavelets), • Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), • Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients). • Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.
Ekstrakcja cech • Z sygnału akustycznego będącego głosem ptaka można wyekstrahować różnorodne cechy np.: • Kodowanie sygnału w dziedzinie czasu (ang. TDSC -Time Domain Signal Coding), • Maksima widmowe (ang. spectral peaks), • Falki (ang. wavelets), • Parametry mel-cepstralne (ang. MFCC - Mel Frequency Cepstral Coefficients), • Parametry HFCC (ang. HFCC - Human Factor Cepstral Coefficients). • Etap ekstrakcji cech in jest niekiedy poprzedzany wstępnym przetwarzaniem sygnału jak np. filtracja pasmowo-przepustowa, redukcja szumów itp.
Parametry MFCC (mel-cepstralne) 1)Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFTna zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) PrzeprowadzenieDCTna zlogarytmowanych współczynnikach widmowych: 6)Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Parametry MFCC (mel-cepstralne) 1)Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFTna zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) PrzeprowadzenieDCTna zlogarytmowanych współczynnikach widmowych: 6)Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Dzielenie sygnału na ramki 30 ms t [ms] 20 ms Ramka 5 Ramka 2 Ramka 3 Ramka 4 Ramka 1
Parametry MFCC (mel-cepstralne) 1)Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFTna zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) PrzeprowadzenieDCTna zlogarytmowanych współczynnikach widmowych: 6)Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Parametry MFCC (mel-cepstralne) 1)Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFTna zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) PrzeprowadzenieDCTna zlogarytmowanych współczynnikach widmowych: 6)Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
t t t Okienkowanie sygnału Okienkowanie sygnału polega na przemnożeniu próbek w ramce sygnału przez funkcję okna. Funkcja okna (np. okno Hamminga) x = Sygnał w ramce przemnożony przez funkcję okna Sygnał w ramce
Parametry MFCC (mel-cepstralne) 1)Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFTna zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) PrzeprowadzenieDCTna zlogarytmowanych współczynnikach widmowych: 6)Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Parametry MFCC (mel-cepstralne) 1)Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFTna zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) PrzeprowadzenieDCTna zlogarytmowanych współczynnikach widmowych: 6)Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Mel-FrequencyCepstral Coefficients (MFCC) “Obliczenie mocy FFT w określonych pasmach częstotliwościowych” Częstotliwości środkowe w tych pasmach są równomiernie rozmieszczone względem melowej skali częstotliwościowej. Szerokość pasma jest powiązana z rozmieszczeniem częstotliwości środkowych pasma zachodzą na siebie na połowie swej długości.
Parametry MFCC (mel-cepstralne) 1)Blokowanie sygnału w ramki, okienkowanie oknem Hamminga 2) Przeprowadzenie FFTna zokienkowanych ramkach sygnału 3) Obliczenie mocy FFT w określonych pasmach częstotliwościowych 4) Obliczenie logarytmu zakumulowanych współczynników widmowych 5) PrzeprowadzenieDCTna zlogarytmowanych współczynnikach widmowych: 6)Opcjonalne obliczenie pierwszej i drugiej pochodnej po czasie ze współczynników DCT czyli tzw. współczynników delta oraz delta-delta
Program rozpoznający pracujący w trybie bez nadzoru • Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. • Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: • etap ekstrakcji cech • etap klasyfikacji • Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosującsystem ekspertowywykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.
Program rozpoznający pracujący w trybie bez nadzoru • Program rozpoznający w trybie bez nadzoru automatycznie rozpoznaje gatunek ptaka na podstawie nagrania z głosem ptaka. Proces ten nazywa się w skrócie rozpoznawaniem głosów ptaków. • Rozpoznawanie głosów ptaków jest wykonywane przez program rozpoznający w dwóch etapach: • etap ekstrakcji cech • etap klasyfikacji • Rozpoznawanie głosów ptaków w trybie z nadzorem można usprawnić stosującsystem ekspertowywykorzystujący dodatkowe informacje jak np. prognoza pogody, data i godzina nagrania, pozycja GPS, które zostały zarejestrowane równocześnie z nagraniem głosu ptaka.
a22 a33 a44 iY a12 a23 a34 a45 2 3 4 M BIRD VOICE Y o1 o2 o3 o4 o5 o6 iX b2(o1) b2(o2) b3(o4) b4(o5) b4(o6) b2(o3) 1 1 N BIRD VOICE X 5 1 Klasyfikacja • Najbardziej obiecującymi metodami klasyfikacji w rozpoznawaniu głosów ptaków są: • Wyszukiwanie haseł oparte na Nieliniowej transformacji czasowej(ang. Dynamic Time Warping - DTW) • Metoda niejawnych modeli Markowa (ang. Hidden Markov Models – HMM). HMM DTW
Nieliniowa transformacja czasowa (DTW) Celem algorytmu nieliniowej transformacji czasowej jest znalezienie najniższego zakumulowanego kosztu przejścia między punktami siatki odległości iY M S Ł O W O Y IX - indeksy wektorów cech słowa x IY - indeksy wektorów cech słowa y 1 iX 1 N S Ł O W O X
Nierozwiązane problemy rozpoznawania głosów ptaków • Naśladownictwo • - myszołów- szpak naśladujący myszołowa • Nakładanie się głosów ptaków tzw. efekt „coctail party” • - ptaki śpiewające jednocześnie • Rozpoznawanie w warunkach dużego szumu i hałasu otoczenia • Rozpoznawanie dużej liczby gatunków ptaków
Serdecznie zapraszamy Państwa do odwiedzania strony internetowej projektu BIRDSMOND Trznadel (łac. Emberizza citrinella) Sójka (łac. Garrulus glandarius) Trznadel (łac. Emberizza citrinella) www.birdsmond.pwsztar.edu.pl