360 likes | 472 Vues
Noções de Inferência Estatística. AULA 21 – Parte I Data Mining Sandra de Amo. Como inferir a qualidade de um classificador a partir de sua performance sobre uma amostra ?. Classificadores são avaliados sobre uma amostra de dados e não sobre o conjunto total de dados.
E N D
Noções de Inferência Estatística AULA 21 – Parte I Data Mining Sandra de Amo
Como inferir a qualidade de um classificador a partir de sua performance sobreumaamostra ? Classificadores são avaliados sobre uma amostra de dados e não sobre o conjunto total de dados. • Seja D um conjunto de N amostras de teste; • Seja M um modelo de classificação • Acurácia Empírica de M = K/N, onde K = número de amostras classificadas corretamente em N tentativas. • Se a acurácia empírica é alta podemos dizer que M é um bom classificador ?
Exemplo • MA foi testado em um conjunto de 30 amostras • Acc(MA) = 85% • MB foi testado em um conjunto de 5000 amostras • Acc(MA) = 75% • Podemos concluir que MA é melhor do que MB ? • Perguntas importantes: • Qual o intervalo de confiança da acurácia obtida por MA ? • Qual o intervalo de confiança da acurácia obtida por MB ? • Os conjuntos de dados de testes seguem uma mesma distribuição ?
Inferência Estatística Inferência Estatística = Processo de obter conclusões confiáveis sobre uma populaçãogeral, baseando-se em uma amostragem de dados. Estatísticas: medidas extraídas de uma amostragem de dados através das quais se quer derivar resultados para a população geral.
Média e Variância de uma Amostragem Algumas estatísticas importantes: Seja X uma variável aleatória (Por exemplo Altura) Consideremos N observações X1,..., XN extraídas aleatoriamente de uma população com distribuição de probabilidade com média Por exemplo: X1 = 1.55, X2 = 1.59, X3 = 1.65,... Xi é o evento X = altura do indivíduo sorteado. • Média da amostragem • Variância da amostragem
Valor esperado da Média da amostragem • Valor esperadoda média da amostragem • Logo: as médias das amostragens se aproximam da média geral da população, sobretudo para valores grandes de N • A estatística “média” é chamada de estimador não-tendencioso da população.
Valor esperado da Variância da Amostragem • Teorema: Valor esperado da variância da média da amostragem é dado por: ondeσX é a variância da população geral SeσX for desconhecido será aproximado pela variância da amostragemsX • = desvio padrão da média das amostragens
Teorema do Limite Central Seja uma população X com distribuição de probabilidade com média μX e variância σ2X. Considere uma amostragem de tamanho N extraída aleatoriamente da população X. Se é a média da amostragem , então a distribuição de se aproxima de uma distribuição normal com média μX e variância (σ2X )/N quando N é grande. Distribuição normal (ou de Gauss). Vários fenômenos aleatórios seguem uma distribuição normal (ou de Gaus) de probabilidade. Muito importante. Tabelas disponíveis. Fácil de avaliar. x x
Intervalo de Confiança Estimativa dos parâmetros de uma população (ex: média, variância): muito importante indicar a confiabilidade da estimativa. Exemplo 1: suponha que queiramos estimar o quanto um grupo de 10000 pessoas do sexo masculino representam a população masculina brasileira em termos de altura. Isto é, o quanto podemos confiar que a altura média destes 10.000 indivíduos representam a altura média da população masculina brasileira, com um grau de confiança de 95% Este é um exemplo do seguinte problema: Conhece-se a média REAL e deseja-se saber o quanto uma amostra considerada aleatoriamente está perto desta média REAL
Distribuição Normal 0,95 Area abaixo do gráfico entre -2 e 2 = 0,95 Média real
Intervalo de confiança • Considera-se a tabela de distribuição normal com média μXevariância (σ2X )/N, onde N = 10.000 • Intervalo de confiança (θ1 , θ2 ) com grau de confiança = 0.95 • Considera-se as extremidades do intervalo em torno da média da distribuição • Θ1 = μX - k • Θ2 = μX + k • Tal que: P[θ1 < X < θ2 ] = 0.95
Exemplo1 : Continuação • Seleciona-se aleatoriamente um grupo de 10000 homens • A probabilidade que a média da altura destes 10.000 homens esteja no intervalo [μX - k, μX + k] é 95% onde θ1 = μX - k e Θ2 = μX + k
A distribuição normal padrão Z • Toda distribuição normal de média μX e variância σ2X pode ser transformada em uma distribuição padrão de média 0 e variância 1. Distribuição normal (μX, σ2X ) distribuição padrão Z (1,0) • A partir da distribuição padrão Z (tabelada), encontra-se a distribuição normal específica X : • P[X = x] = P[Z = z] onde z = (x – μX)/ σX
Exemplo 2 • Suponha que não conhecemos a média (real)μX da altura da população masculina brasileira. • Queremos estimar esta média a partir de uma amostra de uma amostra X de 10.000 homens considerada aleatoriamente, com uma confiança de 68% • De acordo com o Teorema do Limite Central: a média das amostras se aproxima de uma distribuição normal com média μX e variânciaσ2X/N Média da altura da amostragem (N = 10000)
Exemplo 2 (continuação) Procurando na tabela de probabilidade de Z, o intervalo [-a,a] onde P[-a < Z < a] = 0.68 obtemos a = 1 Portanto: o intervalo de confiança para a amostra X considerada é de [ , ] com grau de confiança de 68% Isto é, temos 68% de certeza de que a média REAL da população encontra-se dentro deste intervalo.
Como calcular σx Método 1: Considera-se diversas amostras de N = 10.000 homens (por exemplo 100 amostras) • Para cada amostra calcula-se sua média. • Calcula-se a média de todas as 100 médias • σx = desvio padrão das 100 médias Método 2: • Na prática, pode-se aproximar σx pelo desvio padrão da amostragem sX considerada, onde:
Comparação de Classificadores AULA 21 – Parte II Data Mining Sandra de Amo
Acurácia Empírica e Acurácia Real • Acurácia empírica de um modelo de classificação é obtida sobre um conjunto Teste com N amostras • Acurácia empírica = X/N, onde • X = número de amostras preditas corretamente • Acurácia Real = p = acurácia “hipotética” que seria medida sobre o conjunto de todas as amostras possíveis. • Dada uma amostra qualquer, a probabilidade de que o classificador acerte a predição é p.
Relação entre Acurácia Empirica e Acurácia Real • Medir a acurácia empirica sobre um conjunto T de N amostras = experimento binomial, consistindo em N tentativas. • X = variável aleatória • X = número de acertos em N tentativas • P[X = v] = probabilidade de haver v acertos em N tentativas, sabendo que a probabilidade de acerto em cada tentativa é p. • Distribuição de probabilidade binomial • Média = Np, Variância = Np(1-p)
Distribuição da Acurácia Empírica • Acurácia empírica: variável aleatória X/N • Distribuição de probabilidade de X/N também é binomial com: • Média = p • Variância = p(1-p)/N • Distribuição binomial pode ser aproximada por uma distribuição normal quando N é grande • Logo: distribuição de probabilidade da Acurácia Empírica pode ser considerada uma distribuição NORMAL com Média p e Variância p(p-1)/N • Lembrando relação entre distribuição normal e distribuição padrão Z: acc = p Média do número de acertos em N tentativas = acurácia empírica p(p-1)/N
Cálculos • Seja a = grau de confiança • Procura-se na tabela de Z o intervalo [-b,b] para o qual P[-b < Z < b ] = a • Usando-se a equação acc p p(p-1)/N Média do número de acertos em N tentativas = acurácia empírica Obtém-se o seguinte intervalo de confiança para p: [θ1, θ2 ] onde θ1 = (2N.acc +b2 – b (b2 + 4N.acc – 4N.acc2) )/ 2(N+b2) θ2 = (2N.acc +b2 + b (b2 + 4N.acc – 4N.acc2) )/ 2(N+b2)
Suponha um modelo de classificação que tem uma acurácia de 80% quando calculado sobre um conjunto de teste de 100 amostras. Qual o intervalo de confiança de sua acurácia REAL com um grau de confiança de 95% ? Acc = 0.80, N = 100, a = 0.95 Tabela de Z Exemplo a b Fazendo-se os cálculos temos: θ1 = 71.1% e θ2 = 86,7% θ2 θ1 Variação do intervalo de confiança quando o número de amostras aumenta
Comparando a performance de dois modelos • M1 = modelo de um classificador C extraido de um conjunto de treinamento T1 • Testado sobre D1, com n1 elementos • e1 = taxa de erro = 1 – acc1 • M2 = modelo de um classificador C extraido de um conjunto de treinamento T2 • Testado sobre D2, com n2 elementos • e2 = taxa de erro = 1 – acc2 • A diferença entre e1 e e2 é estatisticamente significante ?
Método • d = |e1 – e2| = |acc1 – acc2| • d obedece uma distribuição normal com • média dt = diferença real |e1 – e2| e • variância σd2 • σd2 pode ser aproximada por σd2 = e1(1-e1)/n1 + e2(1-e2)/n2 • Intervalo de confiança de dt com a% de grau de confiança dt = d±b σd Variância estimada Desvio padrão estimado = sd b = valor encontrado na distribuição Z correspondente a a% Exercício: deduzir esta fórmula a partir da relação entre a distribuição padrão Z e a distribuição normal d (ver slide 15)
Exemplo • M1 = modelo de um classificador C extraido de um conjunto de treinamento T1 • Testado sobre D1, com 30 elementos • e1 = taxa de erro = 1 – acc1 = 0.15 • M2 = modelo de um classificador C extraido de um conjunto de treinamento T2 • Testado sobre D2, com 5000 elementos • e2 = taxa de erro = 1 – acc2 = 0.25 • d = |e1 – e2| = 0.1 • Variância estimada = 0.15(1-0.15)/30 + 0.25(1-0.25)/5000= 0.0043 • Desvio padrão estimado = 0.0043 = 0.0655
Exemplo (continuação) Qual o significado do intervalo de confiança [θ1, θ2 ] ? Estamos testando 2 hipóteses: Hipótese Nula: dt = 0 a diferença real entre os erros é nula Hipótese alternativa: dt < > 0 a diferença real entre os erros NÃO é nula (pode ser < 0 ou > 0 )
Exemplo (continuação) Queremos encontrar b na tabela da distribuição padrão Z tal que: P[-b < (d – dt)/sd < b] = a A interpretação do intervalo [θ1, θ2] é a seguinte: Se dt = 0 está em [θ1, θ2] então a d (que está em [θ1, θ2] ) não tem significância estatistica Se dt = 0não está em [θ1, θ2] (está em uma das duas regiões caudais) então d tem significância estatistica. a dt dt θ1 dt θ2 d d – dt < 0 d – dt > 0
O valor b na tabela Z A tabela Z envolve duas tabelas: Unicaudal Duplamente caudal Para cada valor de a, pode-se encontrar dois valores de b: um para o caso unicaudal e outro para o caso duplamente caudal.
Exemplo (continuação) No exemplo : b = 1,96 (duplamente caudal) Como o valor nulo (dt = 0) está no intervalo (0.1 – 0.128; 0.1 + 1.28) então a diferença de performance entre os dois modelos não tem significância estatística.
Variando o grau de confiança • Quanto deveria ser o grau de confiança para que a diferença de performance d = 0.1 tivesse significância estatística ? • 0.1 > b.0,0655 ? • b < 0.1/0.655 = 1.527 • Procurando o valor de a na tabela duplamente caudal correspondente a b = 1.527: • a = 93.6% • Logo, a hipótese nula pode ser rejeitada com um grau de confiança 93.6%
L1 = técnica de classificação L2 = técnica de classificação Os testes de L1 e L2 foram feitos sobre um mesmo banco de dados D utilizando k-cross validation. M1i = modelo de L1 obtido durante a i-ésima iteração M2i = modelo de L2 obtido durante a i-ésima iteração. Os modelos M1i e M2i são testados sobre o mesmo conjunto de teste (correspondente a i-ésima iteração) e1i = taxa de erro de M1i e e2i = taxa de erro de M2i di = e1j – e2j = diferença das taxas de erro na i-ésima iteração Se k é suficientemente grande (o número de vezes que o experimento é realizado é grande) então di segue uma distribuição normal Média δt = média das diferenças das taxas de erro “verdadeiras” Variância σ2 Comparando a performance de dois classificadores
Estimativa do variância σ2 d = média estimada da diferença dos erros δt σ Grau de liberdade (degree of freedom)
Suponha que a média das diferenças estimadas é 0.05 com desvio padrão de 0.002 Os testes são feitos utilizando 30-cross validation Com um grau de confiança a = 95% a diferença real dos erros (ou da acurácia) é: Exemplo δt = Intervalo de confiança = [0.05 – 0.00408; 0.05 + 0.00408] = = [0.04592; 005408]
Distribuição t com graus de liberdade. k – 1 = 29 Como o valor zero (hipótese nula) não está contido no intervalo de confiança [0.04592; 005408] então podemos concluir que a diferença de performances entre as duas técnicas de classificação é estatisticamente significante.