Geradores de Texto

Geradores de Texto Ruy Luiz Milidiú

Resumo • Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição • Sumário • Binário • Multinomial • Mistura • HMM

Traços do texto • Ocorrência de palavras binário • Freqüência de palavras multinomial • Seqüência de palavras HMM

Traços do texto • Ocorrência de palavras binário lista de palavras SEM REPETIÇÕES • Freqüência de palavras multinomial lista de FREQUENCIAS DE PALAVRAS • Seqüência de palavras HMM

FORMULA T I ON USE Formulation  Use SYMBOLS EMISSIONS observables hidden INFORMATIONS STATES

Bayes P(y|x1,…,xn)  P(x1,…,xn|y) . P(y) • Classificador P(y|x1,…,xn) = ?

Gerador Ingênuo P(x1,…,xn|y) = P(x1|y) . … . P(xn|y) • Classificador P(y|x1,…,xn) = ?

Tamanho FIXO Exemplos • (x1i,x2i, … , xni, yi) i = 1, … ,N • (x1i,x2i, … , xni) atributos, traços • yi classe Classificador • f: (x1,x2, … , xn)  y funcional • P(Y|X) probabilístico

Aprendizado N  número total de exemplos Ny número total de exemplos classe y • Atributos binários P(y) = (Ny + 1) / (N + 2) • Atributos k-ários P(y) = (Ny + 1) / (N + k) Laplace P(y) = (Ny + c) / (N + k.c) Lidstone

xi 1-xi Atributos Binários xi 1-xi • P(xi|y) = piy.(1- piy) i = 1,…,n • P(x1,…,xn|y) = i piy.(1- piy) • P(x1,…,xn|y) = i [piy/(1- piy)] . (1- piy) P(x1,…,xn|y) = Ky . i [piy/(1- piy)] xi xi

Atributos Binários • Pre-computar Ky • Produtório só para casos positivos • Rápido para poucos casos positivos

Classificador de texto • W  { 1, 2, … , n } léxico • D  { 1, 2, … , N } coleção • C  { 1, 2, … , k } classes • Atributos binários wW , dD • Xwd a palavra w ocorre no documento d P( xwd com wW | c) dD gerador binario

Aprendizado N  número total de exemplos Nc número total de exemplos classe c • Duas classes p(c) = (Nc + 1) / (N + 2) • k classes p(c) = (Nc + 1) / (N + k) Laplace p(c) = (Nc + ) / (N + k.) Lidstone

Aprendizado Nc nº total de palavras na classe c fw|c  freqüência de docs com w em c • Gerador binário p(w|c) = (fw|c + 1) / (Nc + 2)

Tamanho VARIAVEL Exemplos • (x1i,x2i, … , xn(i) i, yi) i = 1, … ,N • (x1i,x2i, … , xn(i) i) atributos, traços • yi classe Classificador • f: (x1,x2, … , xn)  y funcional • P(Y|X) probabilístico

Atributos observáveis • l Tamanho do documento • nw freqüência de ocorrência para cada palavra

O Gerador Multinomial • nw número de ocorrências de w no doc p(l, {nw , com w ocorrendo no doc} | c) = ? p(l | c) . p({nw , com w ocorrendo no doc} | c) • p({nw , com w ocorrendo no doc} | c) = C(l,{nw , com w ocorrendo no doc})  w ocorrendo no doc p(w|c)nw

O modelo p(l, {nw , com w ocorrendo no doc} | c) = ? p(l | c)  (l!) / w ocorrendo no doc (nw!)  w ocorrendo no doc p(w|c)nw gerador multinomial

Aprendizado • Binário • p(w|c) P[palavra w ocorrer no documento | c] alguma ocorrência • Estimar pelo número de docs de c com w

Aprendizado • Multinomial • pi(w|c) P[palavra w ocorrer na i-ésima posição do documento | c] • pi(w|c)= p(w|c) • uma ocorrência na posição • Estimar pelo número total de w’s nos docs de c

Geradores de Texto

Geradores de Texto

Presentation Transcript

Comentario de texto

Manejo de Texto

TEXTO DE LATÍN

Geradores e Receptores

Comentario de texto

MOTORES E GERADORES

Geradores e Receptores

Editor de texto

PRODUÇÃO DE TEXTO

Processamento de Texto

Tipos de texto

Tipos de texto

GERADORES

Seleção de texto

Texto de Opinião

GERADORES DE

Comentario de texto

Libro de texto

Tipos de texto El texto descriptivo

COMENTARIO DE TEXTO

Geradores Síncronos

Avaliação de Desempenho de Sistemas Geradores de Números Aleatórios