170 likes | 266 Views
HAREM 2.0 Proposta Luís Sarmento e Cristina Mota. Objectivos Pistas Tarefas Constituição das colecções de trabalho Metodologia de avaliação. Objectivos. (Reconhecemos a importância do HAREM para o desenvolvimento na área em português).
E N D
HAREM 2.0PropostaLuís Sarmento e Cristina Mota • Objectivos • Pistas • Tarefas • Constituição das colecções de trabalho • Metodologia de avaliação
Objectivos (Reconhecemos a importância do HAREM para o desenvolvimento na área em português) • Abrir a discussão à comunidade relativamente ao futuro do REM • Estabelecer um roteiro com objectivos em termos de extracção de informação • Propor um conjunto de extensões e de alterações que nos parecem realistas e alcançáveis no prazo de um ano
Pista Robusta 1 • Descrição • Detecção e Classificação de EM em textos sem capitalização • Motivações • Permitir REM sobre texto que não possui originalmente informação acerca da grafia ou a grafia é irregular: • gerado por um reconhecedor de voz • mails, blogs, etc. • Obrigar à definição/caracterização de EM sem recorrer ao uso da capitalização • [m|M]inistro dos Negócios Estrangeiros • [c|C]onstante de Planck
Pista Robusta 1 [Implicações] • Levanta imensos problemas na determinação da delimitação das EM, sendo necessário caracterizar com maior precisão a tarefa • A identificação terá de ser mais inteligente • análise do contexto muito mais importante • utilização de certos recursos lexicais para “identificar” inícios / fins… • Poderá diluir a diferença entre “Identificar” e “Classificar”
Pista Robusta 2 • Descrição • Teste dos sistemas em várias colecções datadas de forma diferente mas do mesmo género e domínio • Motivação • Verificar de que forma os sistemas se comportam quando expostos a variações na dimensão temporal • Ajudar a testar a importância da actualização (ou não) dos almanaques ou das regras
Pista Robusta 2 [Problemas] • Será que a definição actual das tarefas é apropriada à realidade de outras épocas? • Como isolar o impacto prático das variações no eixo tempo? • Como garantir que a colecção permite isolar o factor tempo?
Tarefas • Identificação • Classificação Semântica • Classificação Morfológica • Papel semântico • Extra: Capitalização (Pista Robusta)
Tarefa Extra [Capitalização] • Descrição • Corrigir/uniformizar a capitalização de entidades mencionadas em textos sem capitalização • Motivação • Tarefa essencial de pós-processamento em sistemas de reconhecimento de fala, como por exemplo sistemas de ditado e legendagem
Tarefa “Alargada” • Descrição: • Marcação de todas as menções a uma entidade, sejam, nomes próprios, nominais ou pronominais • Ergónimos, nacionalidades, “categorias”: • … <Diana Santos>, {investigadora portuguesa}… • A {multinacional americana} <Microsoft>… • A <Fundação Oriente> ... porque nesta {instituição} ... • <Pauleta> afirma ... até porque a equipa nao {o} apoiou. • Motivações: • Estes elementos são muito importante para: • Extracção de Informação (factoides, definições) • RAP: a resposta pode não ser uma EM mas algo muito relacionado e “fácil” de marcar • Preparação para uma futura tarefa [Harem 3.0] que inclua a detecção de co-referência • Aguçar o apetite para tarefas de “chunking”
Mas não é complicado? • Em certos casos não, porque pode já estar incluído na regra de classificação da EM: • … <Diana Santos>, {investigadora portuguesa}… • Noutros casos é porque as categorias podem ser abertas… mas pode ser muito interessante começar a produzir corpora com toda esta marcação
Tarefa “3 em 1” • Até agora considerou-se 2 tipos de marcação: • Morfológica • Semântica (2 níveis: classe e tipo) • Durante a discussão das regras houve bastante polémica acerca da filosofia da marcação • Mas pensamos que toda a gente concordará a vantagem de marcar as entidades como elas são “mencionadas” • O HAREM foi mais longe que outras avaliações
Tarefa “3 em 1” • Contudo, houve na nossa opinião uma mistura de dois factores na marcação semântica: • Classificação & Papel Semântico • “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” • Como deve ser marcado semanticamente “Portugal”? • ORG? Segundo as regras do HAREM sim… • Depreende-se que “Portugal” está a substituir “Governo Português” que é uma Organização mas este salto ontológico é “arriscado” • Porque…
Porque… • Qual será a pergunta natural?… • “Quem acusou Bruxelas de ser parcial…?” • “Que país acusou Bruxelas de ser parcial…?” • “Portugal, o país produtor de Vinho do Porto, acusa Bruxelas de ser parcial na atribuição de verbas aos países membros”
Então… • Porque não decompor a classificação semântica em dois eixos: • Classificação semântica “intrínsica” • Papel Semântico • “Portugal acusa Bruxelas de ser parcial na atribuição de verbas aos países membros” • Portugal: • GEOPOL::País (não arrisco dizer LOC ou ORG) • Papel: Agente
Um esclarecimento • Note-se que não há “perda” da noção de “forma de menção”: ainda estamos a falar de “entidades mencionadas” • Pode haver vários papéis: • “agente” • “paciente” / “objecto”… • Podem ser acrescentados / especializados há medida que se torne interessantes
Implicações… • Pode levar a ter que repensar a estrutura de classificação do HAREM • Pode ser que se resolvam algumas “ambiguidades”… e que se criem outras? • Permite olhar para a marcação de uma forma mais rica. • Obriga a uma análise mais profunda, provavelmente implica análise sintáctica e semântica
Metodologia de Avaliação • Várias Colecções Douradas • pretende-se analisar a consitência do resultado de cada em sistema em diversas colecções cujas propriedades são neste momento complexas de caracterizar e que portanto podem ter idiossincrasia especificias • Será que os sistemas apresentam oscilações significativas em diferentes colecções.