260 likes | 359 Views
Kunstig nevrale nett og talesyntese. Av: Henning Kvinnesland Veileder: Terje Kristensen. Tidligere forsøk. Nettalk Finnes mange kommersielle systemer for syntetisk tale. Eksempler:. Hva er målet ved oppgaven?. Å skape et program som lærer å snakke forståelig (naturlig) norsk.
E N D
Kunstig nevrale nett og talesyntese. Av: Henning Kvinnesland Veileder: Terje Kristensen
Tidligere forsøk • Nettalk • Finnes mange kommersielle systemer for syntetisk tale. • Eksempler:
Hva er målet ved oppgaven? • Å skape et program som lærer å snakke forståelig (naturlig) norsk. • Holde mulighetene åpne for utvidning til andre språk samt talegjenkjenning. • Programmet skal være kompilerbart og kjørbart på en standard pc.
Teknologier, verktøy og deres bruksområder • Backpropagation • Counterpropagation • Binary Associative Memory • Visual .NET • VST (lydkosmetikk) • VoiceXML
Backpropagation • Stille rundt Knn etter Minsky og Papert eksponerte perseptronets svakheter med tanke på ikke lineart separerbare problemer (XOR). • Minsky jobber for tiden med No-touch virtuell sex. • Økende interesse på 80 tallet og backpropagation kommer i søkelyset. • Består av tre lag: input, skjult og output. • Overvåket læring. • Det skjulte laget gjør BP i stand til å løse bla XOR.
Counterpropagation • Utviklet av Robert Hecht-Nielsen og ble utgitt i 1987. • Enklere å trene og implementere enn BP. • Har en interpolerende effekt når det møter inputmønstre som ligger mellom to andre kjente inputmønstre. • Brukes gjerne som en midlertidig løsning før et Backpropagation nettverk skal implementeres. • Har blitt brukt til datakompresjon med brukbare resultater selv ved kompresjonsgrader mellom 1:10 og 1:100.
Binary Associative Memory • Gjerne benyttet til tilstandslagring (assosiativt). • Ikke overvåket læring. • Har med hell vært utprøvd til å gjenkjenne mønstre i bilder. • Tenker å benytte det for tilstander/ord som ikke følger noen mønster. For eksempel myk eller hard c problematikken Nettalk møtte.
Visual .NET • Hoveddelen av oppgaven blir skrevet i C#. • Backpropagation er implementert i C++. • Frihet til å programmere i nesten hvilket som helst språk. • Assembly, vb, c, c++, Java etc...
VST • Standard for moduler til lydprosessering. • Utviklet av Steinberg (VST 2 i 1999) • Stor vekt på hurtighet/forsinkelse for sanntidsprosessering av lyd. • Benytter seg av nyere hardware i lydkort for svært høy ytelse.
VoiceXML • Voice Extensible Markup Language. • Benyttes til tagging av en tekst for å formidle følelser eller nyanser som ikke kommer tydelig frem uten at man kjenner konteksten. • Enkelt å validere et dokument da det allerede er en veletablert standard. • Hovedmålet til VoiceXML er å bringe kraften i web utvikling og innholdslevering til applikasjoner som bruker TTS til å interaktere med brukerne. • Minimaliserer client/server kommunikasjon ved å støtte flere interaksjoner per dokument. • Programutviklere slipper å forholde seg til lavnivå kode og plattform spesifikke detaljer.
Komponentene • Tekst til fonem oversetter • Fonem til lydfil tilknytning. • 1. steg av lydkosmetikk. • Setningsparser for toneleie. • 2. steg av lydkosmetikk. • Ferdig tale.
Tekst til fonem oversetter • Hoveddelen i oppgaven. • Vil sannsynligvis bestå av en samling av knn. • Det er her mye av ”forskningen” skjer.
Fonem til lydfil tilknytning • Etter at teksten har blitt oversatt til fonemer kobles fonemene mot faktiske lydfiler som slås sammen til et helt ord.
1. steg av lydkosmetikk • Da det er i overgangene mellom de forskjellige fonemene språkets karakteristikker trer tydeligst frem må overgangene mellom de ulike fonemene manipuleres/interpoleres for at det skal høres naturlig ut. • Dette blir gjort separat for hvert enkelt ord. • Har planer om å teste bruk av difoner for å unngå denne problematikken (mye arbeid).
Setningsparser • Ved å vite hvilken ordklasse ordene hører til, hvilken setningstype det jobbes med, legges det til trykk og toneleie på de riktige stedene. • Dette har med hell blitt utprøvd i andre systemer for å skape et generelt menneskelig, men nøytralt toneleie. • Det kan på dette nivået bli aktuelt med en generell kontekstmodul som erstatter voiceXML hvis det ikke er i bruk.
2. steg av lydkosmetikk • Ved hjelp av informasjonen som setningsparseren gir vil denne delen av programmet gjøre de endringer som er nødvendig for at talen skal høres mest mulig naturlig ut.
Maskinlæring • Genetiske algoritmer (evolusjon). • Selvmodifiserende programmer. • Beslutningstrær (avgjørelser basert på boolske tilstandsvariabler). • Forsterkningslære (prøve og feile).
Vellykkede bruksområder for maskinlæring • Taksere lån og kreditt risiko. • Oppdage kredittkort svindel. • Katalogisere astronomiske bilder. • Avgjøre hvilke blader/reklame som skal bli sendt til ditt hus. • Hjelpe trenere å analysere spillernes prestasjoner. • Personalisere nyheter og web søk. • Styre en automatisk bil i enkelt miljø (knn). • Stemme under valg: basert på topp/stryk, forutsi parti. • Søppelpost: analyserer hver e-post ord for ord, måler frekvensen for gjenbruk av ord, skal kunne skjønne om mailen er søppelpost eller ikke. • Markedsberegninger: Kunne forutsi om en person vil kjøpe en bestemt vare basert på tidligere kjøp, kartlegge kjøpevaner.
Kunstig intelligens • Under 2. verdenskrig trodde USA i en liten periode at en datamaskin skulle være i stand til å legge strategien til rette for seier. • Dette kan nok bli mulig en dag, men det er gjenstår nok litt arbeid.
Nettalk • Ferdig utviklet i 1987. • Nøyaktighet på over 90% • Noe problemer med myk og hard c som er et problem barn gjerne har i begynnelsen. • Krevde 20 000 bits for å lagre nettverket. • Ordlisten ville krevd 2 000 000 bits. • Ved å studere nettet i detalj oppdaget man at nettet hadde gruppert konsonanter og vokaler hver for seg.
Om språk • Fonemer (atomære deler). • Difoner (overgangene mellom fonemene) • Toneleie (trykk 1, trykk 2, (1.5, sunnmøre) • Følelser • Naturlig tale?
Når er vi fornøyd? • Når et hvilket som helst menneske ikke klarer å avgjøre om det er menneske eller maskin som snakker. (Turing testen) • Når språk og dialekter enkelt kan legges til som en eller flere maler. (Engelsk med russisk aksent) • Når en ”intelligens” bak språkmotoren selv forstår innholdet av teksten.
Tale og språkforståelse • Naturlig tale er nært relatert til hva som blir uttalt. • For at et databasert talesystem ikke skal kunne skilles fra et menneske, må det kjenne, eller bli fortalt konteksten. • VoiceXML
Forskjellige teknikker for å oppnå data skapt tale. • Analoge systemer. • Copy paste av forhåndsinnspilte lydsnutter. (kontofonen) • Fonembasert. (slik de fleste er i dag) • Fysikkmodellering av stemmebånd. • Hidden Markov Models.
Tale tilpasset lytteren. • Psykologisk aspekt. • Lytteren foretrekker en stemme som ligner ens egen. • 28 identifiserte variabler som formidler følelser i det engelske språket. • Det har blitt utviklet talemotorer som formidler følelser som lykke, sinne, tristhet, frykt.
Resultatet? • En datamaskin kan lære å snakke. • Forståelig tale? (Ja). • Naturlig tale? (kanskje).