310 likes | 413 Views
Síntesi de la parla amb emocions en el domini de les converses virtuals . La problemàtica del text . Yesika Laplaza. Objectius. Presentar les característiques generals de les converses virtuals Plantejar la problemàtica existent a l’hora de tractar amb aquests tipus de textos
E N D
Síntesi de la parla ambemocions en el domini de les converses virtuals. La problemàtica del text.YesikaLaplaza.
Objectius • Presentar les característiques generals de les converses virtuals • Plantejar la problemàtica existent a l’hora de tractar amb aquests tipus de textos • Proposar un mètode per normalitzar aquests textos
Converses virtuals Són híbrids entre la oralitat i l’escriptura. • Oralitat: • Col·loquial • Sintaxi y morfologia simples • La ortografia no segueix la norma • Particularitats fonètiques • Caràcter no planificat, no elaborat i no revisat • Escriptura: • Forma gràfica • Permanència en el temps
Converses virtuals Es caracteritzen per: • La rapidesa exigida a l’hora d’enviar els missatges • To informal i desig de jugar amb el llenguatge • Aproximació a la llengua oral
Rapidesa per enviar missatges • S’eliminen grafies que no representen un fonema concret Hombre > ombre • Unificació de diverses grafies C, Q > K cuando > kuando quieres > kieres • Supressió d’accents i signes de puntuació ¡Vamos! Que estoy más sola que la una > vamos q estoy mas sola q la una • Combinació de xifres i lletres Hola morenito25 • Ús de signes matemàtics Por dios > x dios • Addició de grafies en paraules concretes Sí > sip No > nop
To informal i desig de jugar amb el llenguatge • Pèrdua de la [d] intervocàlica més enllà dels participis Joder > Joer • Supressió d’elements per fonètica sintàctica De eso > deso • Supressió de síl·labes Para > pa Nada > na
Aproximació a la llengua oral • Supressió de sons inicials (Baby talk) buenas > nas • Canvi de grafia vale > fale • Substitució de grafies bueno > weno • Monoftongació pues > pos • Repetició de grafies per simular la prosòdia hhhhhoooolllllaaaa!!!!!
La paradójica historia del virus gripal H1N1, detectado, observado y tratado con unos recursos biomédicos e informativos sin precedente mundial, ha puesto en un compromiso a los gobiernos, a los científicos y a la Organización Mundial de la Salud (OMS), que erraron estrepitosamente al pronosticar su gravedad y actuaron como si la humanidad afrontara un mortífero peligro. A punto de cumplirse un año de la primera alerta, todos se esfuerzan ahora en exponer ante la opinión pública una cierta autocrítica que salve su credibilidad en el futuro. La OMS concluye hoy su análisis sobre lo sucedido, una reflexión que durante tres días han realizado 29 expertos que intentan justificar los errores con la «sorprendente» actuación del desconocido virus de la gripe A. El Periódico, 14 de abril de 2010.
<"Lidia..."/> aun no has acabado examenes? <"manketú”/> no, acabo mañana <"Lidia..."/> ueueee <"manketú"/> ya te digo...mi coco esta ya muerto <"Lidia..."/> jajaja <"Lidia..."/> pobreta <"Lidia..."/> pero ya solo t keda un dia!! :D <"manketú"/> siiiii, y luego vacaciones q me voy a coger <"Lidia..."/> si? <"Lidia..."/> marxes? <"Lidia..."/> o vacaciones d semanita sabatica? <"manketú"/> jajaja, eso eso <"manketú"/> ademas viene alex, asi q estaremos x aki <"Lidia..."/> si? <"Lidia..."/> uale! <"Lidia..."/> s verdad! <"Lidia..."/> cuando venia? <"manketú"/> hoy x la noche <"Lidia..."/> uouoo <"Lidia..."/> tu crees k es bueno? xk si mñn tienes el examen... tututu... 8-) <"Lidia..."/> jajajaj <"manketú"/> jajajajajaj <"manketú"/> ya...pero bueno, q le vamos a hacer <"manketú"/> total, en un principio no me iba a presentar pq ya estoy hasta los huevos, pero me convenciopa q lo hiciera <"manketú"/> y como es el ultimo…
Normalització del text • Actualment els conversors de text a parla només tracten textos normatius i sense errors • Ampliar l’ús dels correctors a textos informals i no normatius
Normalització del text Presa de decisions: • Quines paraules es volen normalitzar i quines es mantindran • Quines necessitats presenta el normalitzador
Què es normalitza? Es normalitzarà tots els “errors” ortogràfics comesos pels usuaris ske (es que) besame (bésame) telo (te lo) b0rrax0s (borrachos) a excepció de les paraules pertanyents a: • Registre oral col·loquial: uni, privi, cumpleañacos, insti, japos, pa’, na, to, dejao • Babytalk: nas, toy, pos
Què es normalitza? Problemes de pragmàtica [david19bcn] bienvenido al maricomio [m_visto_d_mujr] maricomio? [m_visto_d_mujr] eso sera por mi [DDM] por la iglesio o por lo civil? [DDM] iglesio... jajajaj
Necessitats normalitzador • Ha de ser completament AUTOMÀTIC. L’usuari no ha d’intervenir en cap moment • La paraula ‘errònia’ ha de ser substituïda al mateix text • S’ha d’adaptar al sistema del conversor de veu Cereproc
Normalització del text • Analitzar el llenguatge que es fa servir en aquest àmbit • Avaluar el possible ús i adaptació del Corrector del GLiCom • Creació d’un normalitzador propi
Corpus • Format per 46 conversacions: • 7 públiques • 39 privades • Extretes durant el 2008 de: • Messenger (35) • Gmail (4) • Inforchat (7) • Edat dels usuaris: 18-35 anys • Nombre d’intervencions: 8.782 • Nombre de tokens: 40.537
Anàlisi del text Paraules incorrectes*: 7.872 (19,4%) * Paraules que no apareixen al diccionari de treball (959.441 paraules)
Substitució Substitucions sistemàtiques (71.3%) q – que k – que k – qu 0 – o x – ch k – c d – de w – bu Accentuació negativa (23.85%) positiva (0.13%) Dubtes ortogràfics (2.13%) b – v (balorado / beo) g – j (deges / personage) Errors d’escriptura (1.65%) priciosa(preciosa) acuatoriano (ecuatoriano) Proximitat tecles (0.93%) i – u (rebiscar) b-n (ascebder) b – h (bablar)
Eliminació Situacions d’eliminació de vocals i consonants
Eliminació Signes de puntuació • punts suspensius claro amor..yoincluida • coma bueno,mañanatengo q hacer mil cosas • exclamacions crea tu propiobruto!!es gratuito Combinació de diferents elements • preposició + determinant dela alo • verb + pronom metenadie • preposició + pronom anadiedeti
Inserció Todo se creduce a las mates Solo ke eresp esao Yo tengo amigo schilenos No la vcerdad Esto sta aburrrido hoy ee Sip
Repetició • Poden afectar a: • Paraules • Elements paralingüístics • Emoticones • Aporten informació prosòdica i expressiva • Diferenciar quan és una repetició i quan no HolaaaAaroonnn
Repetició • Diferentstipus de repeticions • holaaaa • jajajajajaja • :-))))))) • :-(:-(:-( • Variació en el nombre de grafies • Es miaaaaa • Mmmmmeeeeeaaaaabbbbuuuurrrrooo • Variació de la posició • un besooooo • chavaliiiita • guaaaapaaaa
Normalitzador • Normalitzador basat en regles • Desambigüació mitjançant models de llenguatge
Normalitzador Ampliació del diccionari de treball • Topònims • Antropònims: • Noms • Cognoms • Hipocorístics • Paraules del llenguatge col·loquial • Interjeccions • Emoticones
Normalitzador Delimitar els processos de normalització • Delimitar el nombre de canvis en una mateixa paraula • Reduir el nombre de possibles correccions • Reduir el nombre de normalitzacions incorrectes • Major rapidesa
Normalitzador Delimitar els processos de normalització Pero komo no sali. como domo gomo homo jomo lomo momo nomo pomo romo somo tomo uomokamokobokokokolokonokorokoto