240 likes | 438 Views
Avalia çã o de an á lise sint á ctica. Caroline Hag è ge (Xerox Research Centre Europe, Grenoble – France) Caroline.Hagege@xrce.xerox.com. Avaliação de análise s sintáctica s. Generalidades Avaliação do desempenho Metodologia para a avalição do desempenho
E N D
Avaliação de análise sintáctica Caroline Hagège (Xerox Research Centre Europe, Grenoble – France) Caroline.Hagege@xrce.xerox.com
Avaliação de análises sintácticas • Generalidades • Avaliação do desempenho Metodologia para a avalição do desempenho 3 níveis de informação (formato, representação e conteúdo) - Parentetização e métrica Parseval - Alternativas na parentetização - Parentetização e distância de edição - Representação em dependências ou relações gramaticais • Questões em aberto
Generalidades 3 tipos de avalição • Avaliação de adequação • Avalição diagnóstica (testes de não-regressão) Noção de cobertura de um sistema Criação de “test-suites” • Avaliação do desempenho
Testes de não-regressão Finalidade: Avaliar e verificar a cobertura de um sistema criação de “test-suites” Criar um conjunto de pequenas tarefas (na prática um conjunto de frases contendo fenómenos linguísticos diversos e verificar: • Se o analisador pode cumprir estas pequenas tarefas • Como o analisador evolui no cumprimento destas tarefas
Testes de não-regressão (2) Interesses Para quem desenvolve um analisador sintáctico: Verificar que a criação de novas funcionalidades não vai danificar o comportamento do analisador Mas As test-suites criadas artificialmente reflectem os fenómenos tomados um a um e não dão necessarimente conta da sobreposição de vários fenómenossintácticos
Avaliação do desempenho • Ou: qual é o desempenho dum sistema que faz análise sintáctica ? • COMO ? • COMPARANDO uma análise feita por um analisador (de um texto que não foi visto anteriormente) com uma referência (o mesmo texto inicial, anotado manualmente e, idealmente, por consenso de vários anotadores humanos). • Constituição da referência • Medidas utilizadas
A constituição da referência Que referência ? • Formato • Tipo de representação linguística • Conteúdo informativo
Formato Trata de questões como: Uso, ou não, de XML, Representação horizontal ou vertical, etc. Nenhuma decisão a este nível impede que se chegue facilmente a um consenso...
Representações e métricas • - Fortemente ligadas • - Duas grandes correntes nas representações de análises sintácticas • Análise gramatical em constituinte representada sob a forma de listas parentetizadas (etiquetadas ou não) • Análise sintáctica em dependências
Parentetização sintáctica e medidas • Parentetização sintáctica e métrica “Parseval” • Parentetização sintáctica e medida da distância de edição • Métrica Parseval (Parseval 1991) • Precisão, Recall, F-Measure (Medida-F) e Crossing Brackets (Parêntesis cruzados)
Métrica Parseval (1) Dp : conjunto dos sintagmas encontrados pelo analisador Dr : conjunto dos sintagmas encontrados na referência Precisão = | Dp Dr | / | Dp | Recall = | Dp Dr | / | Dr | F-measure = 2PR/P+R Cb : Número de pares (i,j) com índice i do primeiro segmento do sintagma e índice j do último segmento do sintagma na saída do analisador para o qual existe um par (i’,j’) representando um sintagma na referência tal que: i’< i j’ < j
Métrica Parseval (2) EXEMPLO Referência [ [ [O amigo] [ do [ Pedro] ] ] [ chegou ]] Resultado do analisador1 [ [ O [ amigo do ] Pedro] [chegou] ] 75% Precisão, 1 CB e 50% Recall ( 60% de F-measure) Resultado do analisador2 [ O amigo do Pedro chegou ] 100% Precisão e 0 CB mas 17% Recall (29% de F-measure)
Métrica Parseval (3) PROBLEMAS Penalização múltipla do mesmo erro Um só erro de attachment de SP pode dar origem a vários CB. (Lin 95, Kübler & Telljohann 02 & Bangalore 98) Análises superficiais acabam por ser menos penalizadas do que as análises que tentem resolver problemas de attachment.
Métrica/Representação alternativas para a análise em constituinte • ALTERNATIVA de Gaizauskas (Gaizauskas et al. 98) • Para uma avaliação contrastiva • Utilização duma parentetização menos “profunda” • Medidas em termo de recall e conformance (proporção de de constituintes da referência que não são “atravessados” por constituintes encontrados na resposta).
Medida da distância de edição para a análise em constituinte • Medida da distância de edição (String edit distance) • Sampson & Babarczy 2002, Roark 2002 • Métrica alternativa para análise em constituinte que: • Resolve os problemas da métrica Parseval • Parece corresponder melhor às intuições linguísticas • Parentetização está codificada como uma string. • Calcular a distância de edição entre uma string correspondente ao corpus anotado e uma string correspondente à saída do analisador.
Distância de edição e similaridade Cálculo do custo mínimo das operações de: apagamento, inserção e troca para transformar uma sequência noutra sequência com póssivel ponderação dos diferentes custos. Similaridade entre duas seq. a (proveniente do analisador) e r (proveniente da referência) 1 – ( DE(a,r) / (len(a )+ len(r)) )
Distância de edição (2) EXEMPLO Ref. [S [N1 Two [N1 tax revision] bills] were passed ] Analisador [S [NP Two tax revision bills] were passed ] Two N1 [ S ; NP [ S custo: 1 troca Tax [ N1 N1 S ; NP S custo: 1 troca e 2 insercoes Revision N1 ] N1 S ; NP S custo: 1 troca e 2 insercoes Bills N1 ] S ; NP ] S custo: 1 troca Were S ; S custo: 0 Passed S ] ; S ] custo: 0
Análise sintáctica em dependência LIN 95 Reação aos modos de reprensentação em constituintes associadas à métrica Parseval Conversão da análise em constituinte num conjunto de relações de dependência. Cada relação mostrando: modificador, modificado e opcionalmente uma etiquetagem da relação. Métrica utilizada: Precisão e Recall
Análise sintáctica em relações gramaticais Carroll et al. 1998, 2000 Definição de um conjunto de relações hierárquicas gramaticais. A relação mais geral sendo: Dependência(introdutor, cabeça, dependente) Métrica utilizada: Precisão e Recall.
Conteúdo informativo dum esquema para anotação e avaliação Muitas questões em aberto... Que constituintes considerar numa anotação em constituintes ? Como etiquetar relações de dependência ? Que fazer quando não existe consenso entre anotadores ?
Resumindo… Que representação linguística e que métrica ? Dependência ? Seguir ou não o princípio da projectividade ? Representação em constituintes ? Como conseguir evitar os problemas ligados às métricas utilizadas correntemente ? Avaliação contrastiva ? Encontrar uma representação que subsume todas as saídas dos analisadores e a referência, minimizando o risco de perder informação pertinente.
Resumindo… Que conteúdo linguístico ? Dependências: Como conseguir abstrair a análise em dependências de escolhas prévias (POS tagging) para não penalizar o que não é proveniente da análise sintáctica ? Como comparar analisadores quando a tokenização de referência e do analisador não são idênticas ? Que tipo de fenómenos sintácticos são de esperar (sintaxe profunda com fenómenos de controlo, topicalizações, etc.)