530 likes | 620 Views
Primeiras experiências: Frequências dos bigramas e tetragramas por ordem decrescente
E N D
Primeiras experiências: Frequências dos bigramas e tetragramas por ordem decrescente Freq. Bigrama Freq. Tetragrama1528 - O 75 - Notícias breves da891 - A 74 Notícias breves da actualidade348 Estados Unidos 64 - A bolsa de203 05 Jan 60 do Banco de Portugal195 De acordo 59 ministro dos negócios estrangeiros188 Agência Lusa 58 - Notícias breves da 179 Banco de 57 Notícias breves da actualidade 165 Conselho de 54 De acordo com o 51 De acordo com a 40 Libertação Nacional 49 por cento do que 40 Irlanda do 49 disse à Agência Lusa 40 Câmara de 46 na africa do Sul 40 13 - 45 com o objectivo de 39 Nacional de 39 Na sua 20 na abertura do mercado 39 Geral de 20 na Assembleia da Republica 39 Campeonato Nacional 20 em conferência de imprensa
20 do que no fecho 15 Câmara dos 20 do campeonato português de 15 Comissão Nacional 20 Ministro dos Negócios Estrangeiros 15 Com o 20 - A Camara Municipal 15 Carvalho da 19 presidente de Camara Municipal 15 Cabo Verde 19 por cento para o 15 Bósnia e 19 face às principais divisas 15 Associação 25 19 disse hoje à Agência 15 As conversações 19 de final da Taça 19 da Santa Casa da 4 Mês Cultural 4 México e 4 visita oficial de dois 4 Mário Tomé 4 visa protestar contra a 4 Municipalizados de 4 vila franca do campo 4 Municipal e 4 vice-ministro dos negócios estrangeiros 4 Mundo dos 4 verde deverá continuar a 4 Ministério de 4 venda e do transkei 4 Minas Gerais 4 valores estavam hoje a Este critério penaliza o comprimento da sequência
Colocações propostas após os filtros de Justeson e Katz f(w1 w2) w1 w2 Padrão f(w1 w2) w1 w2 Padrão 11487 New York A N 2001 Middle East A N 7261 United States A N 1942 Saddam Hussein N N 5412 Los Angeles N N 1867 Soviet Union A N 3301 last year A N 1850 White House A N 3191 Saudi Arabia N N 1633 United Nations A N 2699 last week A N 1337 York City N N 2514 vice president A N 1328 oil prices N N 2378 Persian Gulf A N 1210 next year A N 2161 San Francisco N N 1074 chief executive A N 2106 President Bush N N 1073 real estate A N É necessária informação morfo-sintáctica. As longas sequências continuam a ser penalizadas pelo critério da frequência.
SCP_f(.)0.0009276 Universidade Nova0.0001322 Universidade Nova de 0.0004058 da Universidade Nova 0.00005399 na Universidade Nova 0.0002555 Nova de Lisboa 0.0053873 Universidade Nova de Lisboa0.0001187 Universidade Nova de Lisboa ( 0.00006521 Universidade Nova de Lisboa , 0.00002609 Universidade Nova de Lisboa . 0.0001675 na Universidade Nova de Lisboa 0.0005022 da Universidade Nova de Lisboa 0.02768 Faculdade de Economia da Universidade 0.0001675 de Economia da Universidade Nova 0.004839 reitor da Universidade Nova de Lisboa0.03134 Faculdade de Economia da Universidade Nova0.00004907 , reitor da Universidade Nova de Lisboa 0.0001744 o reitor da Universidade Nova de Lisboa 0.00004893 reitor da Universidade Nova de Lisboa , 0.00007832 reitor da Universidade Nova de Lisboa . 0.0001992 Faculdade de Economia da Universidade Nova , 0.0007259 da Faculdade de Economia da Universidade Nova
Universidade Autodidacta Universidade Nova Universidade Tecnica Universidade Técnica Universidades Portuguesas Associacao de Estudantes da Universidade do Algarve cento dos estudantes da Universidade de Coimbra reitor da Universidade Nova de Lisboa Faculdade de Economia da Universidade Nova académica da Universidade da Beira Interior criação de uma Universidade de Bragança dirigente da associação académica da Universidade reitor da Universidade de Aveiro Associacao de Estudantes da Universidade Associação de Estudantes da Universidade Estudantes da Universidade do Algarve Hospitais da Universidade de Coimbra Reitoria da Universidade de Lisboa cento dos estudantes da Universidade uma Universidade de Bragança Economia da Universidade Nova
Universidade Clássica de Lisboa Universidade Nova de Lisboa Universidade da Beira Interior associação académica da Universidade criação de uma Universidade Estudantes da Universidade Hospitais da Universidade Reitores de Universidades Universidade Católica Portuguesa Universidade de Aveiro Universidade de Coimbra Universidade de Edimburgo Universidade de Evora Universidade do Algarve reitor da Universidade
Universidade Clássica de Lisboa Universidade Nova de Lisboa Universidade da Beira Interior associação académica da Universidade criação de uma Universidade Estudantes da Universidade Hospitais da Universidade Reitores de Universidades Universidade Católica Portuguesa Universidade de Aveiro Universidade de Coimbra Universidade de Edimburgo Universidade de Evora Universidade do Algarve reitor da Universidade
for for
Document Classification • Representing the new Document with k components We need: Where is the value of the document j for the component i
But we have: where is the weighted occurrence of the document l for Relevant Expression (RE) i, and p the number of REs
Translate to So, let with The similarity document matrix, P the eigenvectors matrix, the eigenvalues diagonal matrix, and is a vector of similarities
So, is a vector with n (the number of documents) elements, i.e. Vector has the first k elements (components) of the vector
Results • Average Precision: 93% • Average Recall: 93% • Average Precision on rejection: 91.5% • Average Recall on rejection: 100%
Using Tags as “Words” in LocalMaxs to obtain Preference Selection for relative clauses or other clauses attachments. _PR _ADV _ADV _V que mais tipicamente corresponde freq=2 _PR _ART _N _V que os mesmos derem freq=6 _PR _N _PPOA cujo reexame se freq=4 _PR _N _V _ART cuja realização impliquem a freq=2 _PR _PPOA _V _VIRG _PREP _N que se desdobra , com normalidade freq=2 _PR _V quem vier freq=92 _PR _V _ART _PAR _N _PAR que precedeu a " deliberação " freq=3 _PR _V _CONTR _N _ADJ _PREP _PIND que resultaram da análise sistemática de todo freq=2 _PREP _ADJ _N _PTO _V de particular importncia . Vejamos freq=2 _PREP _ART _N _ADJ _ADJ _PREP de os serviços públicos municipais de freq=4 _PREP _ART _N _CONJCOORD _N _ADJ por o município ou municípios concedentes freq=5