1 / 45

Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise Discrepância

Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC 16o. SINAPE Simpósio Nacional de Probabilidade e Estatística. Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise

marc
Download Presentation

Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise Discrepância

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise de associação, copulas e aplicação a dados lingüísticosVerónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC16o. SINAPE Simpósio Nacional de Probabilidade e Estatística Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise Discrepância Suporte Parcial: VAGL: FAPESP/Brasil-Projeto 01/02576-0 JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1; Acordo USP-COFECUB e CAPES/PICDT Agradecemos a Franck Ramus por ter cedido as frases para este estudo

  2. Geramos x  yx=(x1,...,xn)~Exp(2)y=(y1,...yn)~Exp(10)

  3. Fx=1-exp(-2*x)Fy=1-exp(-10*y) “independência mascarada Pelas marginais” Genest & Boies(2003)

  4. Dependência entre X e Y como composição de:(FX, FY, Copula) • Sklar(1959): FX,Y(x,y)=C(FX(x),FY(y)) f.d.a. conjunta FX,Y f.d.a. marginais FX, FY Copula entre X e Y C (f.d.a. de (U,V)=(FX(x),FY(y)) )

  5. Copulas: f.d.a. em [0,1]2 • Conhecidas FX,Y , FX, FY determinamos C C(u,v)= FX,Y (F-1X(u), F-1Y(v)) Tipos de dependência: • Concordância (TP2, PA, SI) • Discordância (RR2, NA, SD)

  6. Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Italiano(itl), Japonês(jap), Polonês(pol). • Interesse: construir grupos de línguas que apresentam famílias de copulas “semelhantes”. • Fundamento para a existência destes grupos: %V é a proporção de tempo correspondente a vogais ΔC é o desvio padrão dos intervalos consonantais (Ramus, F., Nespor, M., Mehler, J., 1999)

  7. Sinal Acústico frase do Italiano (itl1151) I genitori lasciano Marco senza risorse

  8. Ampliação Local do Sinal Acústico O sinal x(t) representa a pressão do ar no microfone

  9. Sinal Acústico e Espectrograma

  10. O espectrograma • O espectrograma para o tempo t e freqüência f , sx(t,f), pode ser interpretado como a energia que a freqüência f aporta ao sinal acústico no tempo t. • No gráfico do espectrograma as regiões mais obscuras correspondem a valores maiores de energia. f t

  11. Para a regularidade (sonoridade) dividimos o espectrograma em duas regiões: de 80 a 800 hz e de 800 hz a 5000 hz Irregular Regular

  12. Para a energia dividimos o espectrograma em três regiões: de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz Baixa energia Alta energia

  13. Regiões de Interesse no espectrograma 5000 hz 1500 hz 800 hz 80 hz

  14. Variáveis • SL: sonoridade no intervalo de freqüências (80 hz, 800 hz) • SH: sonoridade no intervalo (800 hz, 5000 hz) • δS: variação da sonoridade no intervalo (80 hz, 800 hz) • NmaxL: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 800 hz) • NmaxH: media do máximo da diferencia entre pt e pt-1 no intervalo (800 hz, 5000 hz) • NmaxT: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 5000 hz) • EntrL: media da entropia de pt no intervalo (80 hz, 800 hz) • EntrH: media da entropia de pt no intervalo (800 hz, 5000 hz) • E1: Energia no intervalo de freqüências (80 hz, 800 hz) • E2: Energia no intervalo de freqüências (800 hz, 1500 hz) • E3: Energia no intervalo de freqüências (1500 hz, 5000 hz) • PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz) • PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz) • PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz) • PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências anteriores mas com pesos diferentes

  15. Estrutura dos dados (exemplo: dul) Variável: Sonoridade Baixa (SL) falante 1 falante 2 falante 3 falante 4 0.6550426 0.6135087 0.6117972 0.5730899 0.7323834 0.6992477 0.7009909 0.6487062 0.6542365 0.6234283 0.5932358 0.5971551 0.6874328 0.7043169 0.7221783 0.6267546 ... ... Variável: Sonoridade Alta (SH) falante 1 falante 2 falante 3 falante 4 0.2941877 0.2685418 0.3287807 0.3082171 0.3928520 0.3540849 0.4185050 0.3928807 0.3615761 0.2726972 0.3262655 0.3221294 0.3233377 0.3160166 0.3742268 0.3324148 ... ...

  16. Holandês(dul): SL vs SH por falante

  17. Japonês(jap): SL vs SH por falante

  18. Propósito: • modelar a dependência (copula) entre SL e SH (e outras variáveis), tirando a influência dos falantes. • Usando esta modelagem construir grupos de línguas que apresentam famílias de copulas bi variadas “semelhantes”. • Passos da modelagem: • Ajuste de um modelo de Regressão • Ajuste Copula

  19. Yij=μ+θi+εij , i=1,...,4 (falantes) j=1,...,n (frases) Yij (SL, SH, etc...) Se Yij =SL (por exemplo) μ =SL media θi =SL (contribuição para + ou – de cada falante) εij =erro associado ao falante i na frase j

  20. Sob suposições de independência em Yij, podemos assumir εij ~ d(0,σe2) independentes Estimativas robustas de eij =εij/ σe (Yij-TM(i))/sr • TM(i): M - estimador de posição para o falante i • (sr)2:  - estimador de σe2 Estimativas MV de eij =εij/ σe (Yij-YM(i))/sv • YM(i): media do falante i • (sv)2: estimador de MV de σe2

  21. Holandês e Japonês X=esLij (estimativas para SL) Y=esHij (estimativas para SH)

  22. Variabilidade nas classes de falantes (SL)

  23. Variabilidade nas classes de falantes (SH)

  24. Algoritmo VAGL-NIT • Percorre 7 famílias de copulas bi - variadas e bi - paramétricas, Arquimedianas Generalizadas mais a copula do máximo : CBBi, i=1,...,7 e CMax • Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, normal... • A copula empírica bi – variada baseada em {(uj,vj), j=1,...,m} será comparada com as famílias de copulas disponíveis na biblioteca do algoritmo, usando algum teste de comparação de amostras. Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)

  25. Fx(x)=(#xi: xi≤x)/n Fy(y)=(#yi: yi≤y)/n Croquis da Copula entre X e Y

  26. Outros croquis de copulas

  27. Ajuste Copula por VAGL-NIT para Holandês y Japonês

  28. Ajuste Copula por VAGL-NIT para Holandês y Japonês

  29. Comparação de duas línguas(MV)(Holandês e Japonês): matriz de concordância(M) -copulas entre variável i e variável i+j i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" "BB6" "BB6“ "-" "-" "-" "-" "BB6" [i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" "-" "BB6“ "-" "-" "-" "-" [i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" "-" "-" "-" "-" "-" [i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" "-" "BB6" "-" "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ "-" "BB6" "-" [i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" "BB7“ "-" [i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" "-" [i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-" [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+11] "-" "-" "-" "BB4" "BB6" "-" [i+12] "BB6" "-" "-" "-" "-" [i+13] "-" "BB6" "-" "-" [i+14] "-" "-" "-" [i+15] "BB6" "BB1" [i+16] "-"

  30. Critério de Discrepância (1): soma de indicadores vezes p valor mínimo nas discrepâncias pLi,j =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j) p0 = maxij {min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas diferentes I(Mij) = 1 se Mij=“-”; I =0 em caso contrário N=# total de copulas ajustadas M1(L1,L2)=(1/N)ij I(Mij)min{pL1ij,pL2ij}/p0

  31. Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias M1(MV) cat dul enl esp frl itl jap pol cat 0.000000 0.575451 0.504272 0.477394 0.437538 0.394352 0.473412 0.409204 dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835 enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167 esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931 frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256 jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769 pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000 M1(R) cat dul enl esp frl itl jap pol cat 0.000000 0.512683 0.514699 0.441988 0.451922 0.418509 0.513326 0.428690 dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389 enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599 esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357 frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798 Itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050 jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945 pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000

  32. Cluster Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias

  33. Critério de Discrepância (2): soma de indicadores vezes p valor mínimo nas discrepâncias, ponderada pelas medidas nas caudas pLi,j =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j) LL(i,j)=medida na cauda inferior da copula para (i,j) UL(i,j)=medida na cauda superior da copula para (i,j) definimos para um par de línguas L1 e L2 (i,j)={| LL1(i,j)- LL2(i,j) |+| UL1(i,j)- UL2(i,j)|}/2 t0 = maxij {(i,j)min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas diferentes I(Mij) = 1 se Mij=“-”; I =0 em caso contrário N=# total de copulas ajustadas M2(L1,L2)=(1/N)ij I(Mij) (i,j)min{pL1ij,pL2ij}/t0

  34. Cluster de discrepância: soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudas M2(MV) cat dul enl esp frl itl jap pol Cat 0.000000 0.210499 0.162398 0.169914 0.125045 0.149718 0.148932 0.163315 dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412 enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061 pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000 M2(R) cat dul enl esp frl itl jap pol cat 0.000000 0.170610 0.161725 0.142283 0.176776 0.150295 0.188911 0.159761 dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207 enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733 esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513 frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335 itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588 jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135323 pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135324 0.000000

  35. Cluster de discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudas

  36. Critério: são feitas as comparações (entre idiomas) via teste K-S comparando as empíricas bi dimensionais das variáveis uniformizadas . O critério consiste em considerar o p-valor máximo de todas as comparações

  37. Comparação entre critérios δS SL

  38. Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New York: Springer • Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois bidimensionnelles dont les marges sont données, The Canadian Journal of Statistics, vol 14 # 2, 145-159 • Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The American Statistician, vol 57 # 4 • González-López V. & Tanaka, N. (2003) Bi-variate data modeling through generalized archimedean copula. RT-MAE 2003-03/IME-USP. • Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231. • Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: North-Holland. • Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for rhythmic class discrimination. Speech Prosody 2002. www.lpl.univ-aix.fr/sp2002/pdf/galves-etal.pdf. • Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool for Prosodic Research.Speech Prosody 2002, http:/www.lpl.univ-aix.fr/sp2002/pdf/garcia-gut-galves.pdf • Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.

More Related