1 / 13

WP1 Segmentatie in homogene delen

WP1 Segmentatie in homogene delen. Objectieven voor eerste 6 maanden Analyse van literatuur Philips, LIMSI, BBN, HTK, IBM, Eurecom Realisatie van basissysteem Spraak / niet-spraaksegmentatie Segmentatie spraak volgens omstandigheden (achtergrond, bandbreedte)

ilar
Download Presentation

WP1 Segmentatie in homogene delen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. WP1Segmentatie in homogene delen • Objectieven voor eerste 6 maanden • Analyse van literatuur • Philips, LIMSI, BBN, HTK, IBM, Eurecom • Realisatie van basissysteem • Spraak / niet-spraaksegmentatie • Segmentatie spraak volgens omstandigheden (achtergrond, bandbreedte) • Detectie van sprekerbeurten, maar nog geen sprekerclustering • Tegen maand 12: evaluatie op BN en CGN ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  2. WP1Algemene opzet • Stap 1: eliminatie van niet-spraak • evaluatie: hoeveel spraak is verloren gegaan? • Stap 2: segmentatie van spraakfragmenten • sprekerbeurten • veranderingen akoestische condities • Stap 3: clustering van segmenten • vooral sprekerclustering • Stap 4: classificatie van segmenten • gender en akoestische condities ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  3. WP1Stap 1: eliminatie van niet-spraak • Trainen van GMMs • 3 GMMs voor spraak (zuivere spraak, spraak in muziek (BN), spraak in andere ruis) • 2 GMMs voor achtergrond (muziek (BN), andere) • Combinatie van GMM-scores tot segmenten • HMMs in parallel plaatsen • inter-model kost invoeren • grensposities verfijnen • Eliminatie van niet-spraak • enkel lange segmenten (>1 seconde) elimineren ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  4. WP1Experimenten op CGN • Gevolgde procedure • problemen: chunk-grenzen, weinig niet-spraak (NS), geen spraak-in-ruis-aanduiding • slechts 2 GMMs: een S-GMM en een NS-GMM • S-GMM: getraind op centrale delen van S-chunks • NS-GMM: getraind op alle frames van NS-chunks • HMMs met minimale lengte (200 ms) per segment • Resultaten • clean: 97% NS-frames OK, 15% NS in spraak • alles: 90% NS-frames OK, 18% NS in spraak ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  5. WP1Experimenten op BN • Gevolgde procedure • training van 5 GMMs (HTK) • training in 2 stappen: • selectie van frames op basis van beschikbare labeling • verbetering op basis van forced alignment met HMMs + GMM-labels (e.g. selectie van stiltes in spraak) • a priori negatie van lange niet-getranscribeerde fragmenten op basis van beschikbare labels • Resultaten • nog niet beschikbaar (na terugkeer van Jan) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  6. WP1Stap 2: Segmentatie van spraak • LIMSI,Philips: agglomeratieve clustering • initialisatie: grenzen bij spectrale veranderingen • LL-verlies bij wegnemen van een grens of een model (=classificatie) • extra kost voor aantal grenzen, aantal modellen • minimale segmentduur • IBM, Philips (>98), Eurecom: BIC (Bayesian Information Criterion) • gemotiveerde kost voor modelcomplexiteit • werkt van links-naar-rechts (real-time) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  7. WP1Segmentatie op basis van BIC • Basisprincipes • zoek naar eerste grens in (Tb,Tb+D) (D>1 seconde) • is 1 gaussiaans model voor (Tb,Tb+D) slechter dan 2 : 1 voor (Tb,Tb+t) en 1 voor (Tb+t,Tb+D)? BIC(t) = LLR(t) - c . (#pars/model) . logD •  t met BIC(t)>0  grens gevonden, herstart daar. • geen t met BIC(t)>0  verhoog D en herbegin • Aandachtspunten • t niet te dicht bij 0 of D (onnauwkeurige modelpars) • veel rekentijd (vaak herbeginnen) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  8. WP1Segmentatie op basis van BIC • ELIS-strategie (zie ook Eurecom) • definieer afstandsmaat D(t) op basis van vaste vensters (duur Tv) aan weerszijden van t • selecteer significante maxima (>Dmin) in D(t) als mogelijke grenzen • gebruik maxima voor selectie van grens en voor verlenging van vensterlengte D in BIC • Vrije parameters • Tv, Dmin en c (zie vorige slide) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  9. WP1Evaluatie van segmentatie • Nood aan standaard evaluatieprocedure • iedereen doet het anders • resultaten moeilijk te vergelijken • Beschikbare segmentinformatie dezelfde • segmenten met (Tb,Te) • segmentattributen: spreker ID(s), bandbreedte, achtergrond (muziek/overige) • segmenten kunnen overlappen • segmenten dekken niet de gehele file (bij BN!!) ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  10. WP1ELIS-evaluatieprocedure • Stap 1: omvorming van segmentinformatie • sequentie van aaneensluitende delen • selectie van grenzen volgens behoefte • Stap 2: dynamische alignatie van grenzen • grensweglating indien te groot tijdsverschil • pas nu eliminatie van te korte segmenten (<Tmin) • Stap 3: evaluatie van alignaties • Receiver Operation Curves (ROC) • Details over grensafwijkingen, deleties/inserties ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  11. WP1Evaluatieresultaten in globo • ROC (Receiver Operation Curve) • recall: hoeveel procent van de te vinden grenzen werden er gedetecteerd? • precision: hoeveel procent van de gedetecteerde grenzen waren eigenlijk te vinden grenzen? ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  12. WP1Detectie van sprekerveranderingen ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

  13. WP1Samenvatting en conclusies • Basissegmentatiesysteem • GMM-trainingsprocedure is klaar • integratie van GMMs in HMM-topologie is klaar • BIC-algoritme is klaar • Integratie van beide delen in 1 systeem is lopende • Evaluatie • evaluatieprogramma is klaar • eerste verkennende testen op CGN en BN zijn er • Prognose: in lijn tegen T0+12 ELIS-DSSP Sint-Pietersnieuwstraat 41 B-9000 Gent ATRANOS gebruikersgroep, 11 mei 2001

More Related