240 likes | 335 Vues
Geradores de Texto. Ruy Luiz Milidiú. Resumo. Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição Sumário Binário Multinomial Mistura HMM. Traços do texto. Ocorrência de palavras binário Freqüência de palavras multinomial
E N D
Geradores de Texto Ruy Luiz Milidiú
Resumo • Objetivo Apresentar modelos Geradores de Texto e seus algoritmos de aprendizado e predição • Sumário • Binário • Multinomial • Mistura • HMM
Traços do texto • Ocorrência de palavras binário • Freqüência de palavras multinomial • Seqüência de palavras HMM
Traços do texto • Ocorrência de palavras binário lista de palavras SEM REPETIÇÕES • Freqüência de palavras multinomial lista de FREQUENCIAS DE PALAVRAS • Seqüência de palavras HMM
FORMULA T I ON USE Formulation Use SYMBOLS EMISSIONS observables hidden INFORMATIONS STATES
Bayes P(y|x1,…,xn) P(x1,…,xn|y) . P(y) • Classificador P(y|x1,…,xn) = ?
Gerador Ingênuo P(x1,…,xn|y) = P(x1|y) . … . P(xn|y) • Classificador P(y|x1,…,xn) = ?
Bayes Ingênuo P(y|x1,…,xn) P(x1|y) . … . P(xn|y).P(y) • Aprendizado A partir dos exemplos, estimar P(x1|y) , … , P(xn|y) , P(y)
Tamanho FIXO Exemplos • (x1i,x2i, … , xni, yi) i = 1, … ,N • (x1i,x2i, … , xni) atributos, traços • yi classe Classificador • f: (x1,x2, … , xn) y funcional • P(Y|X) probabilístico
Aprendizado N número total de exemplos Ny número total de exemplos classe y • Atributos binários P(y) = (Ny + 1) / (N + 2) • Atributos k-ários P(y) = (Ny + 1) / (N + k) Laplace P(y) = (Ny + c) / (N + k.c) Lidstone
Aprendizado Ny número total de exemplos classe y fx|y freqüência observada de x dado y • Atributos binários P(x|y) = (fx|y + 1) / (Ny + 2) • Atributos k-ários P(x|y) = (fx|y + 1) / (Ny + k) Laplace P(x|y) = (fx|y + c) / (Ny + k.c) Lidstone
xi 1-xi Atributos Binários xi 1-xi • P(xi|y) = piy.(1- piy) i = 1,…,n • P(x1,…,xn|y) = i piy.(1- piy) • P(x1,…,xn|y) = i [piy/(1- piy)] . (1- piy) P(x1,…,xn|y) = Ky . i [piy/(1- piy)] xi xi
Atributos Binários • Pre-computar Ky • Produtório só para casos positivos • Rápido para poucos casos positivos
Classificador de texto • W { 1, 2, … , n } léxico • D { 1, 2, … , N } coleção • C { 1, 2, … , k } classes • Atributos binários wW , dD • Xwd a palavra w ocorre no documento d P( xwd com wW | c) dD gerador binario
Aprendizado N número total de exemplos Nc número total de exemplos classe c • Duas classes p(c) = (Nc + 1) / (N + 2) • k classes p(c) = (Nc + 1) / (N + k) Laplace p(c) = (Nc + ) / (N + k.) Lidstone
Aprendizado Nc nº total de palavras na classe c fw|c freqüência de docs com w em c • Gerador binário p(w|c) = (fw|c + 1) / (Nc + 2)
Tamanho VARIAVEL Exemplos • (x1i,x2i, … , xn(i) i, yi) i = 1, … ,N • (x1i,x2i, … , xn(i) i) atributos, traços • yi classe Classificador • f: (x1,x2, … , xn) y funcional • P(Y|X) probabilístico
Atributos observáveis • l Tamanho do documento • nw freqüência de ocorrência para cada palavra
A geração… • Escolher a classe c do documento • Gerar tamanho do documento • L tamanho do documento • p(l|c) P[L=l | c] • Gerar as palavras do texto • Independentemente do tamanho • pi(w|c) P[palavra w ocorrer na i-ésima posição do documento | c] • pi(w|c)= p(w|c)independe da posição
O Gerador Multinomial • nw número de ocorrências de w no doc p(l, {nw , com w ocorrendo no doc} | c) = ? p(l | c) . p({nw , com w ocorrendo no doc} | c) • p({nw , com w ocorrendo no doc} | c) = C(l,{nw , com w ocorrendo no doc}) w ocorrendo no doc p(w|c)nw
O modelo p(l, {nw , com w ocorrendo no doc} | c) = ? p(l | c) (l!) / w ocorrendo no doc (nw!) w ocorrendo no doc p(w|c)nw gerador multinomial
Aprendizado • Binário • p(w|c) P[palavra w ocorrer no documento | c] alguma ocorrência • Estimar pelo número de docs de c com w
Aprendizado • Multinomial • pi(w|c) P[palavra w ocorrer na i-ésima posição do documento | c] • pi(w|c)= p(w|c) • uma ocorrência na posição • Estimar pelo número total de w’s nos docs de c
Suavização Lc número total de palavras na classe c fw|c estimativa apropriada de w em c • Multinomial p(w|c) = (fw|c + 1) / (Lc + n) Laplace p(w|c) = (fw|c + c) / (Lc + n.c) Lidstone