190 likes | 357 Views
PRATEN MET MENS EN MACHINE. Louis C.W. Pols Leerstoelgroep Fonetische Wetenschappen (IFA) Herengracht 338, 1016 CG Amsterdam Amsterdam Center for Language and Communication (ACLC) / LOT Opleiding Taalwetenschap (Ba/Ma Linguistics) Afdeling / OW-instituut Taal- en Letterkunde
E N D
PRATEN MET MENS EN MACHINE Louis C.W. Pols Leerstoelgroep Fonetische Wetenschappen (IFA) Herengracht 338, 1016 CG Amsterdam Amsterdam Center for Language and Communication (ACLC)/LOT Opleiding Taalwetenschap (Ba/Ma Linguistics) Afdeling/OW-instituut Taal- en Letterkunde Faculteit der Geesteswetenschappen (voorheen Letteren) Universiteit van Amsterdam Lezing TUD, do. 15 april 2004 Jaffalaan 5 Fac. Techniek, Bestuur en Management
Overzicht • praten is communiceren via gesproken taal • pratende computers = spraaksynthese • luisterende computers = spraakherkenning • spraaksignaalanalyse software ‘praat’ • 10 M woorden Corpus Gesproken Nederlands • conclusies • informatie over taal- en spraaktechnologie, zie o.a. http://www.taalunieversum.org/tst/ en http://www.fon.hum.uva.nl/ Fac. TBM - TUD
Praten • praten is communiceren, meestal met anderen, voornamelijk via gesproken taal • klanken, woorden, zinnen, grammatica, taal • spreekstijl, stemkwaliteit, tempo, emotie, dialect, taalvaardigheid, beurtgedrag, aarzelingen, versprekingen • woordklemtoon, zinsaccent, frasering • disambigueren • ga naar/Ghana, koninklijke/koleke, kanon, verspringen • Daan zei de baas is te laat wie is er te laat? Fac. TBM - TUD
luisteraar spreker mens spraaksignaal commun. kanaal spraaksynthese automatische spraakherkenning machine Mens vs. machine menselijke communicatieketen: concept, uiting selecteren, articulatie, spraakgeluid, transmissiekanaal, geluidwaarneming, interpretatie Fac. TBM - TUD
Spraaksynthese • pratende machine = spraaksynthese • database-info, concept, tekst in spraak uit • evt. taalgeneratie, orthografie • tekstanalyse (drs.; §; TUD; € 10,-; herv gem) • grafeem/foneem conversie (lexicon en regels) extra /’Ekstra:/ wegnemen /w’Exne:m@/ • woordklemtoon, zinsaccent, pauzes • prosodie (co-articulatie, F0, duur) • akoestische realisatie (difonen) Fac. TBM - TUD
Demonstratie Fluent Dutch • Fluent Dutch Text-To-Speech • ontwikkeld door A. Dirksen en L. Mehnert • eerst Fluency Speech Technology, Utrecht • toen van Dale Lexicografie, Utrecht o.a. sprekend woordenboek, gesproken e-mail • nu Fluency weer eenmansbedrijf • andere Nederlandse synthesesystemen: IPO, Nijmeegse allofoonsynthese, Polderland, Speechworks RealSpeak, Infovox, NEXTENS Fac. TBM - TUD
Toepassingen spraaksynthese • sprekende computer • info per telefoon (e-mail, banktegoed, koers) • sprekend woordenboek • hulpmiddel voor visueel gehandicapten toetsenbord, polshorloge, thermostaat, etc. • onderdeel van dialoogsysteem (OVIS, IMIX) • miniaturisatie (onleesbare schermpjes) • volledige taal/spraak kennis perfekte synth. Fac. TBM - TUD
Spraakherkenning • luisterende computer = autom. spraakherk. • woorden herkennen vs. spraakverstaan • geluidsinvoer (microfoon, ADC) • kenmerkrepresentatie (filterwaarden/10 ms) • herk. woordsjablonen (templates, DTW), òf • getrapte herkenning (en evt. interpretatie) • fonemen: HMM phone like units (PLU’s) of ANN • woorden: woordmodellen, norm. uitspraak wrd. • zinnen: taalmodellering (n-gram) Fac. TBM - TUD
5 Time (s) 2 0
5-state HMM phone or word model aii = selfloop probability; aij = between state transition prob.; bj(ot ) = observation probability from Wang (1997)
Ranks of words predicted by a trigram language model (from Jelinek, in Furui & Sondhi (1992))
Aspekten van ASH • spreekstijl (woord voor woord, continu) • woordenschat (2 - 60.000 woorden, onbeperkt) • sprekerpopulatie (een, meerdere, dialect, taal) • training (spreker en vocab. (on)afh., spr. adaptief) • dialoogstructuur (simpel pseudo-natuurlijk) • robuustheid in gebruik (spreker, micr., omgeving, leeftijd, taalvaardigheid, gespreksonderwerp) • out-of-vocabulary words (OOV) • foutenscore (substitutie, deletie, insertie; begrip) Fac. TBM - TUD
Demonstratie Dragon Naturally Speaking • ontwikkeld door Dragon Dictate, ook Ned. • opgekocht door (nu zelf failliete) L&H, nu Scansoft • sprekerspecifiek (urenlange training) • vlotte invoer, real-time op snelle PC • taalmodel heel belangrijk, evenals training • tekstinvoer naast commando’s • andere systemen voor het Nederlands: • Philips Freespeech • IBM ViaVoice • Scansoft SpeechWorks VoCon Fac. TBM - TUD
Toepassingen van spraakherkenning • dicteersysteem, tekstverwerker • systeemcontrole (industrie, speelgoed, beveiliging, huishouden) • iedere telefoon een terminal • computer assisted language learning (CALL) • hulpmiddelen voor gehandicapten • onderdeel van een dialoogsysteem (OVIS, tel. 0900-9292; IMIX) • spraak naast andere modaliteiten • miniaturisatie (te kleine knopjes) Fac. TBM - TUD
spraaksignaalanalyse • in-huis ontwikkeld software pakket ‘praat’ • wereldwijd verspreid, open source • mogelijkheden voor opname, generatie, weergave, selectie, analyse (spectrum, duur, toonhoogte), manipulatie, segmentatie en labeling, statistiek, etc. • werken met scripts • uitstekende grafische uitvoermogelijkheden • en nog veel meer, zie site praat.org (demo) Fac. TBM - TUD
Corpus Gesproken Nederlands • Vlaams-Nederlands initiatief • 10 Mƒ, 10 M woorden (ca. 1000 uur spraak) • start juni 1998, 5 jaar, 7 releases (audio + annotaties) • allerlei spreekstijlen ook over telefoon, volwassenen, wel varianten ABN geen dialect • t.b.v. taalkundigen, T/S technologie, en anderen • rechten bij NTU (http://www.taalunie.nl/) • voor informatie zie http://lands.let.kun.nl/cgn/ Fac. TBM - TUD
Onderdelen CGN • corpusontwerp en -opbouw • opname en digitalisering • orthografische transcriptie • lemmatisering en (POS) part-of-speech tagging • lexicologische koppeling (CGN lexicon) • brede fonetische transcriptie • signaalkoppeling • syntactische annotatie • prosodische annotatie • exploitatiesoftware COREX Fac. TBM - TUD
Conclusies • menselijke spraakproduktie en -perceptie minstens zo interessant als machinale • spraaktechnologie is niet alleen synth. / herk. spraakcodering, taalherkenning, sprekerverificatie, keyword spotting, document retrieval, vertalen, web avatars, etc. • zeer interdisciplinair vakgebied • veel potentie in toepassingssfeer, maar… • bedankt voor jullie aandacht Fac. TBM - TUD