1 / 18

Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres .Etiquetas Morfossintácticas Também chamada MWU (Multiword Unit), a UTR com palavras é uma sequência de palavras que corresponde a um nome próprio, a uma frase idiomática ou a uma colocação com categoria gramatical.

umika
Download Presentation

Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres .Etiquetas Morfossintácticas Também chamada MWU (Multiword Unit), a UTR com palavras é uma sequência de palavras que corresponde a um nome próprio, a uma frase idiomática ou a uma colocação com categoria gramatical.

  2. Primeiras experiências: Frequências dos bigramas e tetragramas por ordem decrescente Freq. Bigrama Freq. Tetragrama1528 - O 75 - Notícias breves da891 - A 74 Notícias breves da actualidade348 Estados Unidos 64 - A bolsa de203 05 Jan 60 do Banco de Portugal195 De acordo 59 ministro dos negócios estrangeiros188 Agência Lusa 58 - Notícias breves da 179 Banco de 57 Notícias breves da actualidade 165 Conselho de 54 De acordo com o 51 De acordo com a 40 Libertação Nacional 49 por cento do que 40 Irlanda do 49 disse à Agência Lusa 40 Câmara de 46 na africa do Sul 40 13 - 45 com o objectivo de 39 Nacional de

  3. 15 Câmara dos 20 do campeonato português de 15 Comissão Nacional 20 Ministro dos Negócios Estrangeiros 15 Com o 20 - A Camara Municipal 15 Carvalho da 19 presidente de Camara Municipal 15 Cabo Verde 19 por cento para o 15 Bósnia e 19 face às principais divisas 15 Associação 25 19 disse hoje à Agência 15 As conversações 19 de final da Taça 19 da Santa Casa da 4 Mês Cultural 4 México e 4 visita oficial de dois 4 Mário Tomé 4 visa protestar contra a 4 Municipalizados de 4 vila franca do campo 4 Municipal e 4 vice-ministro dos negócios estrangeiros 4 Mundo dos 4 verde deverá continuar a 4 Ministério de 4 venda e do transkei 4 Minas Gerais 4 valores estavam hoje a Este critério penaliza o comprimento da sequência; e não existe um limiar natural na frequência para decidir quais os n-grams que são unidades.

  4. UTRs obtidas após a inclusão dos filtros de Justeson e Katzf(w1 w2) w1 w2 Padrão f(w1 w2) w1 w2 Padrão 11487 New York A N 2001 Middle East A N 7261 United States A N 1942 Saddam Hussein N N 5412 Los Angeles N N 1867 Soviet Union A N 3301 last year A N 1850 White House A N 3191 Saudi Arabia N N 1633 United Nations A N 2699 last week A N 1337 York City N N 2514 vice president A N 1328 oil prices N N 2378 Persian Gulf A N 1210 next year A N 2161 San Francisco N N 1074 chief executive A N 2106 President Bush N N 1073 real estate A N Este critério necessita de informação morfo-sintáctica. As longas sequências continuam a ser penalizadas pelo critério da frequência . Critério com boa precisão mas muito dependente da língua !

More Related