450 likes | 588 Views
Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC 16o. SINAPE Simpósio Nacional de Probabilidade e Estatística. Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise
E N D
Análise de associação, copulas e aplicação a dados lingüísticosVerónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC16o. SINAPE Simpósio Nacional de Probabilidade e Estatística Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise Discrepância Suporte Parcial: VAGL: FAPESP/Brasil-Projeto 01/02576-0 JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1; Acordo USP-COFECUB e CAPES/PICDT Agradecemos a Franck Ramus por ter cedido as frases para este estudo
Geramos x yx=(x1,...,xn)~Exp(2)y=(y1,...yn)~Exp(10)
Fx=1-exp(-2*x)Fy=1-exp(-10*y) “independência mascarada Pelas marginais” Genest & Boies(2003)
Dependência entre X e Y como composição de:(FX, FY, Copula) • Sklar(1959): FX,Y(x,y)=C(FX(x),FY(y)) f.d.a. conjunta FX,Y f.d.a. marginais FX, FY Copula entre X e Y C (f.d.a. de (U,V)=(FX(x),FY(y)) )
Copulas: f.d.a. em [0,1]2 • Conhecidas FX,Y , FX, FY determinamos C C(u,v)= FX,Y (F-1X(u), F-1Y(v)) Tipos de dependência: • Concordância (TP2, PA, SI) • Discordância (RR2, NA, SD)
Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Italiano(itl), Japonês(jap), Polonês(pol). • Interesse: construir grupos de línguas que apresentam famílias de copulas “semelhantes”. • Fundamento para a existência destes grupos: %V é a proporção de tempo correspondente a vogais ΔC é o desvio padrão dos intervalos consonantais (Ramus, F., Nespor, M., Mehler, J., 1999)
Sinal Acústico frase do Italiano (itl1151) I genitori lasciano Marco senza risorse
Ampliação Local do Sinal Acústico O sinal x(t) representa a pressão do ar no microfone
O espectrograma • O espectrograma para o tempo t e freqüência f , sx(t,f), pode ser interpretado como a energia que a freqüência f aporta ao sinal acústico no tempo t. • No gráfico do espectrograma as regiões mais obscuras correspondem a valores maiores de energia. f t
Para a regularidade (sonoridade) dividimos o espectrograma em duas regiões: de 80 a 800 hz e de 800 hz a 5000 hz Irregular Regular
Para a energia dividimos o espectrograma em três regiões: de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz Baixa energia Alta energia
Regiões de Interesse no espectrograma 5000 hz 1500 hz 800 hz 80 hz
Variáveis • SL: sonoridade no intervalo de freqüências (80 hz, 800 hz) • SH: sonoridade no intervalo (800 hz, 5000 hz) • δS: variação da sonoridade no intervalo (80 hz, 800 hz) • NmaxL: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 800 hz) • NmaxH: media do máximo da diferencia entre pt e pt-1 no intervalo (800 hz, 5000 hz) • NmaxT: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 5000 hz) • EntrL: media da entropia de pt no intervalo (80 hz, 800 hz) • EntrH: media da entropia de pt no intervalo (800 hz, 5000 hz) • E1: Energia no intervalo de freqüências (80 hz, 800 hz) • E2: Energia no intervalo de freqüências (800 hz, 1500 hz) • E3: Energia no intervalo de freqüências (1500 hz, 5000 hz) • PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz) • PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz) • PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz) • PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências anteriores mas com pesos diferentes
Estrutura dos dados (exemplo: dul) Variável: Sonoridade Baixa (SL) falante 1 falante 2 falante 3 falante 4 0.6550426 0.6135087 0.6117972 0.5730899 0.7323834 0.6992477 0.7009909 0.6487062 0.6542365 0.6234283 0.5932358 0.5971551 0.6874328 0.7043169 0.7221783 0.6267546 ... ... Variável: Sonoridade Alta (SH) falante 1 falante 2 falante 3 falante 4 0.2941877 0.2685418 0.3287807 0.3082171 0.3928520 0.3540849 0.4185050 0.3928807 0.3615761 0.2726972 0.3262655 0.3221294 0.3233377 0.3160166 0.3742268 0.3324148 ... ...
Propósito: • modelar a dependência (copula) entre SL e SH (e outras variáveis), tirando a influência dos falantes. • Usando esta modelagem construir grupos de línguas que apresentam famílias de copulas bi variadas “semelhantes”. • Passos da modelagem: • Ajuste de um modelo de Regressão • Ajuste Copula
Yij=μ+θi+εij , i=1,...,4 (falantes) j=1,...,n (frases) Yij (SL, SH, etc...) Se Yij =SL (por exemplo) μ =SL media θi =SL (contribuição para + ou – de cada falante) εij =erro associado ao falante i na frase j
Sob suposições de independência em Yij, podemos assumir εij ~ d(0,σe2) independentes Estimativas robustas de eij =εij/ σe (Yij-TM(i))/sr • TM(i): M - estimador de posição para o falante i • (sr)2: - estimador de σe2 Estimativas MV de eij =εij/ σe (Yij-YM(i))/sv • YM(i): media do falante i • (sv)2: estimador de MV de σe2
Holandês e Japonês X=esLij (estimativas para SL) Y=esHij (estimativas para SH)
Algoritmo VAGL-NIT • Percorre 7 famílias de copulas bi - variadas e bi - paramétricas, Arquimedianas Generalizadas mais a copula do máximo : CBBi, i=1,...,7 e CMax • Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, normal... • A copula empírica bi – variada baseada em {(uj,vj), j=1,...,m} será comparada com as famílias de copulas disponíveis na biblioteca do algoritmo, usando algum teste de comparação de amostras. Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)
Fx(x)=(#xi: xi≤x)/n Fy(y)=(#yi: yi≤y)/n Croquis da Copula entre X e Y
Comparação de duas línguas(MV)(Holandês e Japonês): matriz de concordância(M) -copulas entre variável i e variável i+j i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" "BB6" "BB6“ "-" "-" "-" "-" "BB6" [i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" "-" "BB6“ "-" "-" "-" "-" [i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" "-" "-" "-" "-" "-" [i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" "-" "BB6" "-" "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ "-" "BB6" "-" [i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" "BB7“ "-" [i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" "-" [i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-" [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+11] "-" "-" "-" "BB4" "BB6" "-" [i+12] "BB6" "-" "-" "-" "-" [i+13] "-" "BB6" "-" "-" [i+14] "-" "-" "-" [i+15] "BB6" "BB1" [i+16] "-"
Critério de Discrepância (1): soma de indicadores vezes p valor mínimo nas discrepâncias pLi,j =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j) p0 = maxij {min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas diferentes I(Mij) = 1 se Mij=“-”; I =0 em caso contrário N=# total de copulas ajustadas M1(L1,L2)=(1/N)ij I(Mij)min{pL1ij,pL2ij}/p0
Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias M1(MV) cat dul enl esp frl itl jap pol cat 0.000000 0.575451 0.504272 0.477394 0.437538 0.394352 0.473412 0.409204 dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835 enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167 esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931 frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256 jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769 pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000 M1(R) cat dul enl esp frl itl jap pol cat 0.000000 0.512683 0.514699 0.441988 0.451922 0.418509 0.513326 0.428690 dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389 enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599 esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357 frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798 Itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050 jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945 pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000
Cluster Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias
Critério de Discrepância (2): soma de indicadores vezes p valor mínimo nas discrepâncias, ponderada pelas medidas nas caudas pLi,j =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j) LL(i,j)=medida na cauda inferior da copula para (i,j) UL(i,j)=medida na cauda superior da copula para (i,j) definimos para um par de línguas L1 e L2 (i,j)={| LL1(i,j)- LL2(i,j) |+| UL1(i,j)- UL2(i,j)|}/2 t0 = maxij {(i,j)min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas diferentes I(Mij) = 1 se Mij=“-”; I =0 em caso contrário N=# total de copulas ajustadas M2(L1,L2)=(1/N)ij I(Mij) (i,j)min{pL1ij,pL2ij}/t0
Cluster de discrepância: soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudas M2(MV) cat dul enl esp frl itl jap pol Cat 0.000000 0.210499 0.162398 0.169914 0.125045 0.149718 0.148932 0.163315 dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412 enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061 pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000 M2(R) cat dul enl esp frl itl jap pol cat 0.000000 0.170610 0.161725 0.142283 0.176776 0.150295 0.188911 0.159761 dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207 enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733 esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513 frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335 itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588 jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135323 pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135324 0.000000
Cluster de discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudas
Critério: são feitas as comparações (entre idiomas) via teste K-S comparando as empíricas bi dimensionais das variáveis uniformizadas . O critério consiste em considerar o p-valor máximo de todas as comparações
Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New York: Springer • Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois bidimensionnelles dont les marges sont données, The Canadian Journal of Statistics, vol 14 # 2, 145-159 • Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The American Statistician, vol 57 # 4 • González-López V. & Tanaka, N. (2003) Bi-variate data modeling through generalized archimedean copula. RT-MAE 2003-03/IME-USP. • Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231. • Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: North-Holland. • Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for rhythmic class discrimination. Speech Prosody 2002. www.lpl.univ-aix.fr/sp2002/pdf/galves-etal.pdf. • Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool for Prosodic Research.Speech Prosody 2002, http:/www.lpl.univ-aix.fr/sp2002/pdf/garcia-gut-galves.pdf • Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.