180 likes | 270 Vues
Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres .Etiquetas Morfossintácticas Também chamada MWU (Multiword Unit), a UTR com palavras é uma sequência de palavras que corresponde a um nome próprio, a uma frase idiomática ou a uma colocação com categoria gramatical.
E N D
Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres .Etiquetas Morfossintácticas Também chamada MWU (Multiword Unit), a UTR com palavras é uma sequência de palavras que corresponde a um nome próprio, a uma frase idiomática ou a uma colocação com categoria gramatical.
Primeiras experiências: Frequências dos bigramas e tetragramas por ordem decrescente Freq. Bigrama Freq. Tetragrama1528 - O 75 - Notícias breves da891 - A 74 Notícias breves da actualidade348 Estados Unidos 64 - A bolsa de203 05 Jan 60 do Banco de Portugal195 De acordo 59 ministro dos negócios estrangeiros188 Agência Lusa 58 - Notícias breves da 179 Banco de 57 Notícias breves da actualidade 165 Conselho de 54 De acordo com o 51 De acordo com a 40 Libertação Nacional 49 por cento do que 40 Irlanda do 49 disse à Agência Lusa 40 Câmara de 46 na africa do Sul 40 13 - 45 com o objectivo de 39 Nacional de
15 Câmara dos 20 do campeonato português de 15 Comissão Nacional 20 Ministro dos Negócios Estrangeiros 15 Com o 20 - A Camara Municipal 15 Carvalho da 19 presidente de Camara Municipal 15 Cabo Verde 19 por cento para o 15 Bósnia e 19 face às principais divisas 15 Associação 25 19 disse hoje à Agência 15 As conversações 19 de final da Taça 19 da Santa Casa da 4 Mês Cultural 4 México e 4 visita oficial de dois 4 Mário Tomé 4 visa protestar contra a 4 Municipalizados de 4 vila franca do campo 4 Municipal e 4 vice-ministro dos negócios estrangeiros 4 Mundo dos 4 verde deverá continuar a 4 Ministério de 4 venda e do transkei 4 Minas Gerais 4 valores estavam hoje a Este critério penaliza o comprimento da sequência; e não existe um limiar natural na frequência para decidir quais os n-grams que são unidades.
UTRs obtidas após a inclusão dos filtros de Justeson e Katzf(w1 w2) w1 w2 Padrão f(w1 w2) w1 w2 Padrão 11487 New York A N 2001 Middle East A N 7261 United States A N 1942 Saddam Hussein N N 5412 Los Angeles N N 1867 Soviet Union A N 3301 last year A N 1850 White House A N 3191 Saudi Arabia N N 1633 United Nations A N 2699 last week A N 1337 York City N N 2514 vice president A N 1328 oil prices N N 2378 Persian Gulf A N 1210 next year A N 2161 San Francisco N N 1074 chief executive A N 2106 President Bush N N 1073 real estate A N Este critério necessita de informação morfo-sintáctica. As longas sequências continuam a ser penalizadas pelo critério da frequência . Critério com boa precisão mas muito dependente da língua !