130 likes | 348 Views
WP1 Segmentatie in homogene delen. Objectieven voor eerste 6 maanden Analyse van literatuur Philips, LIMSI, BBN, HTK, IBM, Eurecom Realisatie van basissysteem Spraak / niet-spraaksegmentatie Segmentatie spraak volgens omstandigheden (achtergrond, bandbreedte)
E N D
WP1Segmentatie in homogene delen • Objectieven voor eerste 6 maanden • Analyse van literatuur • Philips, LIMSI, BBN, HTK, IBM, Eurecom • Realisatie van basissysteem • Spraak / niet-spraaksegmentatie • Segmentatie spraak volgens omstandigheden (achtergrond, bandbreedte) • Detectie van sprekerbeurten, maar nog geen sprekerclustering • Tegen maand 12: evaluatie op BN en CGN ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Algemene opzet • Stap 1: eliminatie van niet-spraak • evaluatie: hoeveel spraak is verloren gegaan? • Stap 2: segmentatie van spraakfragmenten • sprekerbeurten • veranderingen akoestische condities • Stap 3: clustering van segmenten • vooral sprekerclustering • Stap 4: classificatie van segmenten • gender en akoestische condities ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Stap 1: eliminatie van niet-spraak • Trainen van GMMs • 3 GMMs voor spraak (zuivere spraak, spraak in muziek (BN), spraak in andere ruis) • 2 GMMs voor achtergrond (muziek (BN), andere) • Combinatie van GMM-scores tot segmenten • HMMs in parallel plaatsen • inter-model kost invoeren • grensposities verfijnen • Eliminatie van niet-spraak • enkel lange segmenten (>1 seconde) elimineren ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Experimenten op CGN • Gevolgde procedure • problemen: chunk-grenzen, weinig niet-spraak (NS), geen spraak-in-ruis-aanduiding • slechts 2 GMMs: een S-GMM en een NS-GMM • S-GMM: getraind op centrale delen van S-chunks • NS-GMM: getraind op alle frames van NS-chunks • HMMs met minimale lengte (200 ms) per segment • Resultaten • clean: 97% NS-frames OK, 15% NS in spraak • alles: 90% NS-frames OK, 18% NS in spraak ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Experimenten op BN • Gevolgde procedure • training van 5 GMMs (HTK) • training in 2 stappen: • selectie van frames op basis van beschikbare labeling • verbetering op basis van forced alignment met HMMs + GMM-labels (e.g. selectie van stiltes in spraak) • a priori negatie van lange niet-getranscribeerde fragmenten op basis van beschikbare labels • Resultaten • nog niet beschikbaar (na terugkeer van Jan) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Stap 2: Segmentatie van spraak • LIMSI,Philips: agglomeratieve clustering • initialisatie: grenzen bij spectrale veranderingen • LL-verlies bij wegnemen van een grens of een model (=classificatie) • extra kost voor aantal grenzen, aantal modellen • minimale segmentduur • IBM, Philips (>98), Eurecom: BIC (Bayesian Information Criterion) • gemotiveerde kost voor modelcomplexiteit • werkt van links-naar-rechts (real-time) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Segmentatie op basis van BIC • Basisprincipes • zoek naar eerste grens in (Tb,Tb+D) (D>1 seconde) • is 1 gaussiaans model voor (Tb,Tb+D) slechter dan 2 : 1 voor (Tb,Tb+t) en 1 voor (Tb+t,Tb+D)? BIC(t) = LLR(t) - c . (#pars/model) . logD • t met BIC(t)>0 grens gevonden, herstart daar. • geen t met BIC(t)>0 verhoog D en herbegin • Aandachtspunten • t niet te dicht bij 0 of D (onnauwkeurige modelpars) • veel rekentijd (vaak herbeginnen) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Segmentatie op basis van BIC • ELIS-strategie (zie ook Eurecom) • definieer afstandsmaat D(t) op basis van vaste vensters (duur Tv) aan weerszijden van t • selecteer significante maxima (>Dmin) in D(t) als mogelijke grenzen • gebruik maxima voor selectie van grens en voor verlenging van vensterlengte D in BIC • Vrije parameters • Tv, Dmin en c (zie vorige slide) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Evaluatie van segmentatie • Nood aan standaard evaluatieprocedure • iedereen doet het anders • resultaten moeilijk te vergelijken • Beschikbare segmentinformatie dezelfde • segmenten met (Tb,Te) • segmentattributen: spreker ID(s), bandbreedte, achtergrond (muziek/overige) • segmenten kunnen overlappen • segmenten dekken niet de gehele file (bij BN!!) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1ELIS-evaluatieprocedure • Stap 1: omvorming van segmentinformatie • sequentie van aaneensluitende delen • selectie van grenzen volgens behoefte • Stap 2: dynamische alignatie van grenzen • grensweglating indien te groot tijdsverschil • pas nu eliminatie van te korte segmenten (<Tmin) • Stap 3: evaluatie van alignaties • Receiver Operation Curves (ROC) • Details over grensafwijkingen, deleties/inserties ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Evaluatieresultaten in globo • ROC (Receiver Operation Curve) • recall: hoeveel procent van de te vinden grenzen werden er gedetecteerd? • precision: hoeveel procent van de gedetecteerde grenzen waren eigenlijk te vinden grenzen? ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Detectie van sprekerveranderingen ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001
WP1Samenvatting en conclusies • Basissegmentatiesysteem • GMM-trainingsprocedure is klaar • integratie van GMMs in HMM-topologie is klaar • BIC-algoritme is klaar • Integratie van beide delen in 1 systeem is lopende • Evaluatie • evaluatieprogramma is klaar • eerste verkennende testen op CGN en BN zijn er • Prognose: in lijn tegen T0+12 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001