Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise Discrepância

Análise de associação, copulas e aplicação a dados lingüísticosVerónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC16o. SINAPE Simpósio Nacional de Probabilidade e Estatística Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise Discrepância Suporte Parcial: VAGL: FAPESP/Brasil-Projeto 01/02576-0 JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1; Acordo USP-COFECUB e CAPES/PICDT Agradecemos a Franck Ramus por ter cedido as frases para este estudo

Geramos x  yx=(x1,...,xn)~Exp(2)y=(y1,...yn)~Exp(10)

Fx=1-exp(-2*x)Fy=1-exp(-10*y) “independência mascarada Pelas marginais” Genest & Boies(2003)

Dependência entre X e Y como composição de:(FX, FY, Copula) • Sklar(1959): FX,Y(x,y)=C(FX(x),FY(y)) f.d.a. conjunta FX,Y f.d.a. marginais FX, FY Copula entre X e Y C (f.d.a. de (U,V)=(FX(x),FY(y)) )

Copulas: f.d.a. em [0,1]2 • Conhecidas FX,Y , FX, FY determinamos C C(u,v)= FX,Y (F-1X(u), F-1Y(v)) Tipos de dependência: • Concordância (TP2, PA, SI) • Discordância (RR2, NA, SD)

Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Italiano(itl), Japonês(jap), Polonês(pol). • Interesse: construir grupos de línguas que apresentam famílias de copulas “semelhantes”. • Fundamento para a existência destes grupos: %V é a proporção de tempo correspondente a vogais ΔC é o desvio padrão dos intervalos consonantais (Ramus, F., Nespor, M., Mehler, J., 1999)

Sinal Acústico frase do Italiano (itl1151) I genitori lasciano Marco senza risorse

Ampliação Local do Sinal Acústico O sinal x(t) representa a pressão do ar no microfone

Sinal Acústico e Espectrograma

O espectrograma • O espectrograma para o tempo t e freqüência f , sx(t,f), pode ser interpretado como a energia que a freqüência f aporta ao sinal acústico no tempo t. • No gráfico do espectrograma as regiões mais obscuras correspondem a valores maiores de energia. f t

Para a regularidade (sonoridade) dividimos o espectrograma em duas regiões: de 80 a 800 hz e de 800 hz a 5000 hz Irregular Regular

Para a energia dividimos o espectrograma em três regiões: de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz Baixa energia Alta energia

Regiões de Interesse no espectrograma 5000 hz 1500 hz 800 hz 80 hz

Variáveis • SL: sonoridade no intervalo de freqüências (80 hz, 800 hz) • SH: sonoridade no intervalo (800 hz, 5000 hz) • δS: variação da sonoridade no intervalo (80 hz, 800 hz) • NmaxL: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 800 hz) • NmaxH: media do máximo da diferencia entre pt e pt-1 no intervalo (800 hz, 5000 hz) • NmaxT: media do máximo da diferencia entre pt e pt-1 no intervalo (80 hz, 5000 hz) • EntrL: media da entropia de pt no intervalo (80 hz, 800 hz) • EntrH: media da entropia de pt no intervalo (800 hz, 5000 hz) • E1: Energia no intervalo de freqüências (80 hz, 800 hz) • E2: Energia no intervalo de freqüências (800 hz, 1500 hz) • E3: Energia no intervalo de freqüências (1500 hz, 5000 hz) • PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz) • PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz) • PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz) • PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências anteriores mas com pesos diferentes

Estrutura dos dados (exemplo: dul) Variável: Sonoridade Baixa (SL) falante 1 falante 2 falante 3 falante 4 0.6550426 0.6135087 0.6117972 0.5730899 0.7323834 0.6992477 0.7009909 0.6487062 0.6542365 0.6234283 0.5932358 0.5971551 0.6874328 0.7043169 0.7221783 0.6267546 ... ... Variável: Sonoridade Alta (SH) falante 1 falante 2 falante 3 falante 4 0.2941877 0.2685418 0.3287807 0.3082171 0.3928520 0.3540849 0.4185050 0.3928807 0.3615761 0.2726972 0.3262655 0.3221294 0.3233377 0.3160166 0.3742268 0.3324148 ... ...

Holandês(dul): SL vs SH por falante

Japonês(jap): SL vs SH por falante

Propósito: • modelar a dependência (copula) entre SL e SH (e outras variáveis), tirando a influência dos falantes. • Usando esta modelagem construir grupos de línguas que apresentam famílias de copulas bi variadas “semelhantes”. • Passos da modelagem: • Ajuste de um modelo de Regressão • Ajuste Copula

Yij=μ+θi+εij , i=1,...,4 (falantes) j=1,...,n (frases) Yij (SL, SH, etc...) Se Yij =SL (por exemplo) μ =SL media θi =SL (contribuição para + ou – de cada falante) εij =erro associado ao falante i na frase j

Sob suposições de independência em Yij, podemos assumir εij ~ d(0,σe2) independentes Estimativas robustas de eij =εij/ σe (Yij-TM(i))/sr • TM(i): M - estimador de posição para o falante i • (sr)2:  - estimador de σe2 Estimativas MV de eij =εij/ σe (Yij-YM(i))/sv • YM(i): media do falante i • (sv)2: estimador de MV de σe2

Holandês e Japonês X=esLij (estimativas para SL) Y=esHij (estimativas para SH)

Variabilidade nas classes de falantes (SL)

Variabilidade nas classes de falantes (SH)

Algoritmo VAGL-NIT • Percorre 7 famílias de copulas bi - variadas e bi - paramétricas, Arquimedianas Generalizadas mais a copula do máximo : CBBi, i=1,...,7 e CMax • Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, normal... • A copula empírica bi – variada baseada em {(uj,vj), j=1,...,m} será comparada com as famílias de copulas disponíveis na biblioteca do algoritmo, usando algum teste de comparação de amostras. Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)

Fx(x)=(#xi: xi≤x)/n Fy(y)=(#yi: yi≤y)/n Croquis da Copula entre X e Y

Outros croquis de copulas

Ajuste Copula por VAGL-NIT para Holandês y Japonês

Comparação de duas línguas(MV)(Holandês e Japonês): matriz de concordância(M) -copulas entre variável i e variável i+j i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" "BB6" "BB6“ "-" "-" "-" "-" "BB6" [i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" "-" "BB6“ "-" "-" "-" "-" [i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" "-" "-" "-" "-" "-" [i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" "-" "BB6" "-" "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ "-" "BB6" "-" [i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" "BB7“ "-" [i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" "-" [i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-" [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+11] "-" "-" "-" "BB4" "BB6" "-" [i+12] "BB6" "-" "-" "-" "-" [i+13] "-" "BB6" "-" "-" [i+14] "-" "-" "-" [i+15] "BB6" "BB1" [i+16] "-"

Critério de Discrepância (1): soma de indicadores vezes p valor mínimo nas discrepâncias pLi,j =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j) p0 = maxij {min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas diferentes I(Mij) = 1 se Mij=“-”; I =0 em caso contrário N=# total de copulas ajustadas M1(L1,L2)=(1/N)ij I(Mij)min{pL1ij,pL2ij}/p0

Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias M1(MV) cat dul enl esp frl itl jap pol cat 0.000000 0.575451 0.504272 0.477394 0.437538 0.394352 0.473412 0.409204 dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835 enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167 esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931 frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256 jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769 pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000 M1(R) cat dul enl esp frl itl jap pol cat 0.000000 0.512683 0.514699 0.441988 0.451922 0.418509 0.513326 0.428690 dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389 enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599 esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357 frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798 Itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050 jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945 pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000

Cluster Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias

Critério de Discrepância (2): soma de indicadores vezes p valor mínimo nas discrepâncias, ponderada pelas medidas nas caudas pLi,j =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j) LL(i,j)=medida na cauda inferior da copula para (i,j) UL(i,j)=medida na cauda superior da copula para (i,j) definimos para um par de línguas L1 e L2 (i,j)={| LL1(i,j)- LL2(i,j) |+| UL1(i,j)- UL2(i,j)|}/2 t0 = maxij {(i,j)min{pL1ij, pL2ij}} onde L1 e L2 são duas línguas diferentes I(Mij) = 1 se Mij=“-”; I =0 em caso contrário N=# total de copulas ajustadas M2(L1,L2)=(1/N)ij I(Mij) (i,j)min{pL1ij,pL2ij}/t0

Cluster de discrepância: soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudas M2(MV) cat dul enl esp frl itl jap pol Cat 0.000000 0.210499 0.162398 0.169914 0.125045 0.149718 0.148932 0.163315 dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412 enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061 pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000 M2(R) cat dul enl esp frl itl jap pol cat 0.000000 0.170610 0.161725 0.142283 0.176776 0.150295 0.188911 0.159761 dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207 enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733 esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513 frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335 itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588 jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135323 pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135324 0.000000

Cluster de discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudas

Critério: são feitas as comparações (entre idiomas) via teste K-S comparando as empíricas bi dimensionais das variáveis uniformizadas . O critério consiste em considerar o p-valor máximo de todas as comparações

Comparação entre critérios δS SL

Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New York: Springer • Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois bidimensionnelles dont les marges sont données, The Canadian Journal of Statistics, vol 14 # 2, 145-159 • Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The American Statistician, vol 57 # 4 • González-López V. & Tanaka, N. (2003) Bi-variate data modeling through generalized archimedean copula. RT-MAE 2003-03/IME-USP. • Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231. • Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: North-Holland. • Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for rhythmic class discrimination. Speech Prosody 2002. www.lpl.univ-aix.fr/sp2002/pdf/galves-etal.pdf. • Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool for Prosodic Research.Speech Prosody 2002, http:/www.lpl.univ-aix.fr/sp2002/pdf/garcia-gut-galves.pdf • Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.

Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise Discrepância

Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise Discrepância

Presentation Transcript

ADMINISTRA O ESTRAT GICA An lise SWOT

Banco de Dados Motiva o

AN LISE DE SISTEMAS

ELABORA O E AN LISE DE PROJETOS

An lise de Dados

Metrologia e sua Import ncia na Tomada de Decis o

An lise SWOT

Pastoral Urbana Motiva es para discuss o

An lise Macro Ambiental

MOTIVA O HUMANA

TERMOPL STICOS

PLANEJANDO O BRINCAR NA PRIMEIRA INF NCIA Programa: Primeira Inf ncia Melhor - 2006 -

1-Introdu o a An lise Instrumental

O M todo de An lise de Normas

An lise de Cen rio e An lise de Viabilidade Financeira

Gest o de Dados: Warehousing, An lise, Garimpagem, e Visualiza o

Discrep ncia dos Membros Inferiores

An lise de Situa o de Sa de

An lise de Investimentos

An lise de imagem na caracteriza o microestrutural

Produ o de alertas pela Intelig ncia Competitiva com base em an lise de Cen rios

MOTIVA O E SATISFA O NO TRABALHO