420 likes | 609 Views
Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés. Takács György 2. előadás 2014. 02. 14. Tartalom. Az emberi beszéd alapelemei Beszédszervek, beszédszervek működése A beszédérzékelésben résztvevő szervek és működésük Beszéddel kapcsolatos alapfogalmak.
E N D
Beszédfelismerés és beszédszintézisEmberi beszédkeltés és beszédérzékelés Takács György 2. előadás 2014. 02. 14. T.Gy. Beszedfelism es szint. 2014.02.14.
Tartalom • Az emberi beszéd alapelemei • Beszédszervek, beszédszervek működése • A beszédérzékelésben résztvevő szervek és működésük • Beszéddel kapcsolatos alapfogalmak T.Gy. Beszedfelism es szint. 2014.02.14.
Nyelv és beszéd • A nyelv az emberi kommunikáció és az emberi gondolkodás legfőbb eszköze • A kommunikáció a társadalmi élet és a munkamegosztás alapvető feltétele • A nyelv egy jelrendszer, amelynek elemeihez egy nyelvközösségen belül ugyanaz a jelentés tartozik • A beszéd a nyelv elsődleges megnyilvánulása • A beszéd útján közvetíthető információ sebessége 15…20 bit/s értéket érhet el. (Webster, J.C.: Information in simple multidimensional speech messages. J.A. S. A. Vol. 33. pp. 940-944.) T.Gy. Beszedfelism es szint. 2014.02.14.
Az emberi információ-feldolgozás egy általános modellje Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000) T.Gy. Beszedfelism es szint. 2014.02.14.
A természetes beszédlánc T.Gy. Beszedfelism es szint. 2014.02.14.
Beszédhang • A legkisebb olyan egységek, amelyek sorozatával egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük. • A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes. • A beszédhangok a nyelvre jellemzőek! • Egyes nyelvekben a hangmagasság hajlítása is megkülönböztet beszédhangokat. • Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA. T.Gy. Beszedfelism es szint. 2014.02.14.
A beszédhangok folytonos és diszkrét természete T.Gy. Beszedfelism es szint. 2014.02.14.
A beszéd szerkezete • A beszéd egymástól megkülönböztethető elemek szervezett időbeni egymásutánisága – soros szerkezet. • Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang. • Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető. • A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt. T.Gy. Beszedfelism es szint. 2014.02.14.
A fonéma • Egy nyelv fonémakészlete elemek olyan minimális számosságú halmaza, amelyből minden szó jelentéshelyesen, de csak egyféleképpen állítható elő • A fonémakészlet elemei a fonémák. • Az azonos fonémákat képviselő beszédhangok az allofonok. T.Gy. Beszedfelism es szint. 2014.02.14.
Oktatóprogram: • Digitus……takacsgy/mnyba T.Gy. Beszedfelism es szint. 2014.02.14.
A hallás frekvencia és szintfüggése Weber-Fechner:hangosságérzet 40dB+40dB=43dB Fletcher-Stevens:hangosság 40 dB felett igaz csak!!! 40phon=1son 1son+1son=2son Helmholtz rezonátor Fülkagyló hatása Szabad térben (süketszobában) mért görbesereg Létezik diffúz térben és fejhallgatóval mért görbesereg is! T.Gy. Beszedfelism es szint. 2014.02.14.
phon, son, dB • Inger érzet • W-F szerint : logaritmikus, százszoros intenzitású hangot hússzor hangosabbnak hallunk • Fl-St szerint : hatványkitevős (0,3), százszoros intenzitású hangot négyszer hangosabbnak hallunk • Kísérlet: 10 hang 500Hz-től 500 Hz-enként, 60 dB intenzitással szól, mekkora intenzitású 1 kHz-es hangot hallunk ugyanolyan erősnek? • Eredmény: a 93 dB-est! W-F szerint: a 70 dB-est kellene ugyanolyan erősnek hallani! • Milyen átszámítás a jó, hogy a 10 jelet 10-szer olyan hangosnak halljuk? 60 phon=4 son, 10 x 4=40 son=93 dB T.Gy. Beszedfelism es szint. 2014.02.14.
A phon-son átszámítási görbe (Tarnóczy Tamás) T.Gy. Beszedfelism es szint. 2014.02.14.
A hallás kritikus sávjai Bizonyos feltételekkel a W-F törvény igaz! Bizonyos frekvenciasávokon belül az intenzitások összegződnek! Ezek a sávok a kritikus sávok. (Tarnóczy Tamás) Barkhausen tiszteletére „Bark”-ak nevezték el a sávokat, 24 db létezik. Sávszélességük változó, 400 Hz-ig 100 Hz, 1 kHz felett a frekvencia logaritmusával arányosan növekszik. T.Gy. Beszedfelism es szint. 2014.02.14.
Hangelfedés a frekvencia tartományban • Megszólaló színuszos hang, vagy keskenysávú zörej a hallásküszöb görbét módosítja, a jel frekvencia környezetében érzéketlenebb lesz hallásunk. 1) Nagyobb intenzitású elfedő jel szélesebb frekvenciasávban okoz elfedést 2) A fedőgörbe nem szimmetrikus, nagyobb frekvenciák felé szélesebb sávban hat (kórus: basszus, szoprán) A görbe alatti intenzitású hangokat nem halljuk! A hangesemény dinamikusan változó fedőgörbét alakít ki, ami a görbe alatt van energiában, azt nem kell átvinni! (Digitális jelek adatredukciója) T.Gy. Beszedfelism es szint. 2014.02.14.
Hangelfedés az időtartományban Utóelfedés: egy erős hang- inger után, míg az alaphártya rezgései lecsillapodnak, a kisebb intenzitású hang nem hallható! Előelfedés: a korábban meg- Szólaló hangot egy később érkező erős hang elfed! Az idegpályákon az áramimpulzusok sebessége a kiváltó inger nagyságától függ? Az időbeli elfedés jelenségét szintén kihasználjuk a digitális jelek adatredukciójánál! T.Gy. Beszedfelism es szint. 2014.02.14.
Két hang hangosságának összege Figyelembe kell venni a kritikus sávokat és a hangelfedés jelenségét a hang intenzitásának függvényében! Ha a két hang frekvenciában távol van egymástól, és nem túl nagy intenzitású (elfedési görbének nincs szerepe), a son-ok összegződnek. Minél nagyobb energiájú a két hang, annál távolabb kell lenni egymástól frekvenciában, pl. 90 dB esetén 10-12 kritikus sáv távolság szükséges! Kritikus sávon belül az intenzitások összegződnek. Ha az egyik hang sokkal hangosabb, elfedi a másikat! (Nem szimmetrikus az elfedés, mély-magas hang, nem mindegy, melyik az erősebb! Digitális hang adatredukciója: pl. 32 frekvenciasávra bontva a jelet egyszerű összegzési és elfedési törvények érvényesek! T.Gy. Beszedfelism es szint. 2014.02.14.
Dinamikus hallásküszöb kialakulása p(dB) 50 40 30 20 10 0 0,1 0,2 0,5 1 2 5 10 f (kHz) Abszolút hallásküszöb Eredő hallásküszöb T.Gy. Beszedfelism es szint. 2014.02.14.
Hangesemény sávszélessége és a hangosság kapcsolata • Kísérlet: 50 dB-es színuszjel hangossága 2 son Tíz db. 40 dB-es színuszjel összhangossága 7,9 son A két jel energiája azonos, de a nagyobb sávszélesség miatt hangosabbnak halljuk! Rövid ideig tartó hang hangosságának fokozása: kissé torzítva a hangot, több spektrumvonal jelenik meg, az eredeti jelhez hozzáadva,a hangosság nagyobb lesz! (Exciter) T.Gy. Beszedfelism es szint. 2014.02.14.
A hallás időállandói • Hallásunk több rezgőrendszer kapcsolata útján alakul ki • Minden rezgőrendszer rendelkezik feléledési (berezgési) és lecsengési idővel (időállandóval, a végállapot 63 %-a) • Mély hangokra 50 ms, 1000 Hz feletti hangokra 20 ms • A teljes hangérzet kialakulásához kb. 200 ms szükséges, ez idő elteltével kapja meg az agy a teljes információ mennyiséget! • A 200 ms „ablakozás” miatt a hangmagasság érzékelésünk nem pontos! (Megérthető a színuszjel, ill. a kapuzott színuszjel Fourier-transzformáltja alapján!) • - Egy 200 ms időtartamig észlelt színuszjelet 5 Hz pontossággal hallunk • Az 50 ms időállandó miatt több, különböző frekvenciájú mély hangot • azonos magasságúnak érzünk! • - A hangmagasság érzékelése függ az intenzitástól is! T.Gy. Beszedfelism es szint. 2014.02.14.