1 / 36

Aproximação de Funções usando MLPs, RBFs e SVM

Aproximação de Funções usando MLPs, RBFs e SVM. Prof. Júlio Cesar Nievola PPGIA PUCPR. Aproximação de Funções. Regressão : representar o relacionamento entre os dados de entrada e saída

lynton
Télécharger la présentation

Aproximação de Funções usando MLPs, RBFs e SVM

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aproximação de Funções usando MLPs, RBFs e SVM Prof. Júlio Cesar Nievola PPGIA PUCPR

  2. Aproximação de Funções • Regressão: representar o relacionamento entre os dados de entrada e saída • Classificação: considera-se a entrada como sendo pertencendo a várias classses e o objetivo é separá-la nas classes tão corretamente quanto possível • Aproximação de funções(AF): regressão linear é AF com topologias lineares e classificação é AF com funções especiais chamadas funções indicadoras Prof. Júlio Cesar Nievola

  3. Mapeamento Entrada-Saída como Aproximação de Funções • Objetivo da Aprendizagem: descobrir a função f() dado um número finito (desejável pequeno) de pares entrada-saída (x,d) • RNAs são úteis para aproximação de funções porque: • elas são aproximadores universais • elas são aproximadores eficientes • elas podem ser implementadas como máquinas de aprendizagem Prof. Júlio Cesar Nievola

  4. Treinamento supervisionado como aproximação de funções Prof. Júlio Cesar Nievola

  5. Teorema da Projeção Linear • Objetivo da aproximação de funções: em uma área compacta S do espaço de entrada descrever uma função f(x), pela combinação de funções i(x) mais simples onde wi são elementos reais do vetor w=[w1,…,wN] tais que e  pode ser arbitrariamente pequeno. A função é chamada de aproximante e as funções {i(x)} são chamadas de funções elementares Prof. Júlio Cesar Nievola

  6. Implementação do Teorema da Projeção Prof. Júlio Cesar Nievola

  7. Aproximação de Funções • Decisões básicas na aproximação de funções • escolha das funções elementares {i(x)} • como calcular os pesos wi • seleção do número de funções elementares • Se o número de vetores de entrada xi é igual ao número de funções elementares {i(x)} a solução torna-se • Condição importante: a inversa de  deve existir Prof. Júlio Cesar Nievola

  8. Interpretação Geométrica do Teorema da Projeção • Quando f(x) é externo ao espaço de projeção, o erro diminui fazendo mais próximo de f(x) • Isto pode ser feito aumentando o número de funções elementares Prof. Júlio Cesar Nievola

  9. Escolhas para as funções elementares • Requisito: -1(x) deve existir. Isto é obtido se as funções elementares constituírem uma base, isto é, elas forem linearmente independentes, ou seja, • Hipótese simplificadora: impor que as funções elementares usem bases ortonormais: onde (x) é a função delta de Dirac Prof. Júlio Cesar Nievola

  10. Função Elementar: sinc Exemplo 01 Prof. Júlio Cesar Nievola

  11. Função elementar: série de Fourier Exemplo 02 Prof. Júlio Cesar Nievola

  12. Função elementar: wavelet • A partir da wavelet mãe (x) obtém-se bases através de translação e escalamento: Prof. Júlio Cesar Nievola

  13. Bases para Aproximação de Funções na Rede MLP • As funções elementares podem ser • globais, quando respondem a todo o espaço de entrada • locais, quando respondem de maneira especial a uma área limitada do espaço de entrada • Uma rede MLP com uma camada escondida com um PE de saída linear pode ser considerado como uma implementação de um sistema para aproximação de funções, onde as bases são os PEs escondidos • O PE sigmoidal responde a todo o espaço de entrada, ou seja, a MLP implementa uma aproximação com funções elementares globais Exemplo 03 Prof. Júlio Cesar Nievola

  14. Aproximação de Funções usando Rede MLP • A rede MLPrealiza aproximação de funções com um conjunto adaptativo de bases, determinados a partir dos dados entrada-saída • As bases são alteradas em função dos dados, ou seja, o espaço de projeção é dependente dos dados • O treinamento é mais difícil pois não somente a projeção como também a base está sendo alterada • As representações são mais compactas • Devido à alta conectividade e natureza global das funções elementares, bom ajuste é obtido com poucas bases, isto é, com poucos PEs escondidos Prof. Júlio Cesar Nievola

  15. Aproximação de Funções usando Rede MLP • O treinamento é mais difícil, pois as bases não são ortogonais • MLPs são mais eficientes que polinômios para aproximação de funções em espaços de alta dimensão Aproximação de funções usando função logística Exemplo 04 Prof. Júlio Cesar Nievola

  16. MLP: Classificação x Aproximação de funções • Elemento de saída • Aproximação de funções: PE linear • Classificação: PE não-linear • Ponto de operação dos PEs escondidos • Aproximação de funções: longe da saturação para que mapeamento seja suave • Classificação: PEs operam na região de saturação, já que as saídas devem tender para 1 ou 0 Exemplo 05 Prof. Júlio Cesar Nievola

  17. Base alternativa para sistemas não-lineares: rede RBF • Para as funções de base radial (RBF) tem-se onde () é normalmente uma função gaussiana: com variância 2 ou covariância = 2I. • Gaussiana centrada em xi com variância 2, ou seja, é uma função elementar local Prof. Júlio Cesar Nievola

  18. Aproximação de RBFs em uma dimensão Exemplo 06 Prof. Júlio Cesar Nievola

  19. Redes RBF • Aproximação de funções em área limitada do espaço de entrada requer • posicionamento das gaussianas localizadas para cobrir o espaço • controle da largura de cada gaussiana • ajuste da amplitude de cada gaussiana • Como as bases RBF são locais, alteração em uma delas não perturba a aproximação em outras áreas do espaço Prof. Júlio Cesar Nievola

  20. Redes RBF • Necessita-se exponencialmente de mais RBFs para cobrir espaços de alta dimensão • Com os centros já determinados, as RBFs treinam eficientemente, já que o erro é linear nos pesos • Se os centros forem otimamente ajustados, isto garante a convergência para o mínimo global • Redes RBF possuem a propriedade de melhor aproximação como definido por Chebyshev Exemplo 07 Prof. Júlio Cesar Nievola

  21. Interpretação probabilística do mapeamento • Redes MLP e RBF realizam regressão não-linear, generalizando o Adaline • Capazes de descobrir qualquer relação entrada-saída determinista com ruído aditivo de média zero • Requisitos • convergência para mínimo global • número graus de liberdade suficiente • dados suficientes para treinamento • Estas conclusões são válidas desde que se use o critério MSE no treinamento Exemplo 08 Prof. Júlio Cesar Nievola

  22. Adaptação do centro e da variância das gaussianas • Método simples: distribuir uniformemente os centros das gaussianas • Para funções que cobrem todo o espaço OK • Para clusters de dados não é indicado • Métodos supervisionado e auto-organizado • Backpropagation pode ser usado para treinar RBFs • Treinamento lento • Variâncias se tornam muito grandes e RBF perde a sua natureza de processo local Prof. Júlio Cesar Nievola

  23. Método auto-organizado de treinamento de RBFs • Treinamento em dois passos • Adaptação independente dos pesos da primeira camada: os clusters de dados atuam como atratores para os centros das gaussianas e as variâncias são estimadas para cobrir a distribuição dos dados de entrada • Adaptação dos pesos de saída, usando o algoritmo LMS já que o problema de adaptação é linear nos pesos, mantendo a primeira camada “congelada” Exemplo 09 Prof. Júlio Cesar Nievola

  24. Seleção do número de bases • Com poucas bases a aproximação é fraca • Depende do tamanho da rede e dos valores dos coeficientes • Polinômio de grau muito baixo: bias do modelo • Polinômio de grau muito alto: grande oscilação, ou seja, variância do modelo • Compromisso entre baixo bias e baixa variância ao longo do domínio Prof. Júlio Cesar Nievola

  25. Sub- e sobre-ajuste do polinômio Exemplo 10 Prof. Júlio Cesar Nievola

  26. Dilema Bias-Variância • Problema da generalização: • Pontos fiduciais são os exemplos de treinamento • O domínio representa todos possíveis dados de teste para a máquina de aprendizagem • O polinômio é representado pelo mapa funcional entrada-saída da máquina de aprendizagem • Os pesos da máquina de aprendizagem são equivalentes aos coeficientes do polinômio • O tamanho do polinômio é o número de pesos Prof. Júlio Cesar Nievola

  27. Dilema Bias-Variância • Com poucos parâmetros o desempenho no conjunto de treinamento (e de teste) é ruim, pois as superfícies de separação não são adequadamente colocadas • Com muitos parâmetros, há um ajuste exato (memorização) ao conjunto de treinamento, mas o resultado no conjunto de teste não é aceitável • A diferença entre o desempenho sobre os conjuntos de treinamento e teste é uma medida da variância do modelo • O objetivo da aprendizagem não deve ser o erro igual a zero no conjunto de treinamento Prof. Júlio Cesar Nievola

  28. Penalizando o erro de treinamento • Generalização pode ser vista como encontrar um critério geral para a determinação da ordem do modelo para um problema • Erro de ajuste não é um critério do ótimo • O critério MDL (minimum description length) [Rissanen, 89] considera o comprimento do código do modelo e dos erros • O melhor compromisso em termos de comprimento de código reside entre máquinas menores e erros aceitáveis Prof. Júlio Cesar Nievola

  29. Critério de Informação de Akaike • Penaliza o erro médio quadrático no treinamento incluindo um termo que aumenta com o tamanho do modelo onde J(k) é o MSE do conjunto de treinamento, k é o número de parâmetros livres do modelo e N é o número de amostras de dados • Funciona bem para sistemas de uma camada, especialmente lineares. Para várias camadas há problemas, pois o tamanho do modelo não é somente função do número de pesos Prof. Júlio Cesar Nievola

  30. Critério de Informação de Akaike • Ponto positivo: usar todos os dados disponíveis para treinamento • Foi demonstrado que a validação cruzada é assintoticamente equivalente ao critério de informação de Akaike Melhor modelo segundo o critério de Akaike Exemplo 11 Prof. Júlio Cesar Nievola

  31. Regularização • A teoria da regularização adiciona um termo extra ao custo da função: , onde Jc é a função custo, Jr é o regularizador e  é o parâmetro que indica a influência do regulador versus o custo • Um regularizador é • Decaimento de pesos é um regulador: •  deve ser selecionado experimentalmente Exemplo 12 Prof. Júlio Cesar Nievola

  32. RBF como regressor: A rede neural probabilística • Pode-se utilizar a RBF para estimar a função de regressão de dados ruidosos seguindo as idéias de núcleo de regressão • Busca-se estimar a função densidade de probabilidade p(x,d) de pares entrada-saída (xi,di) usando o método da janela de Parzen:  é a largura da gaussiana e deve ser determinada experimentalmente Exemplo 13 Exemplo 14 Exemplo 15 Prof. Júlio Cesar Nievola

  33. SVM – Support Vector Machine • Idéias básicas • Transformar os dados para um espaço de alta dimensionalidade para tornar as funções discriminantes lineares práticas • Treinamento usando classificadores de margem larga • Quando usada como uma SVM, a RBF coloca uma gaussiana em cada amostra de dados de maneira tal que o espaço de características torna-se tão grande quanto o número de amostras • Treinar uma RBF para margem larga desacopla a capacidade do classificador do espaço de entrada e simultaneamente fornece boa generalização Prof. Júlio Cesar Nievola

  34. Extensão do Adatron para Máquinas de Núcleo • Escreve-se a função discriminante da RBF em termos da representação dependente dos dados onde G(x,2) representa a função gaussiana, L é o número de PEs na RBF, wk são os pesos, N é o número de amostras e i são conjuntos de multiplicadores (um para cada amostra) • Este algoritmo, chamado Adatron de núcleo pode adaptar uma RBF para ter uma margem ótima, sendo a versão “online” da abordagem de otimização quadrática utilizada para SVM e pode encontrar as mesmas soluções que o algoritmo original de Vapnik Prof. Júlio Cesar Nievola

  35. Topologia de uma máquina SVM com núcleo RBF Exemplo 16 Prof. Júlio Cesar Nievola

  36. Adatron com núcleo e margem suave • Existem espaços de características em que os padrões não são linearmente separáveis • Introduz-se então uma margem suave e obtém-se novas funções g(xi) que podem ser implementadas como algoritmo iterativo • Grandes conjuntos de entrada produzem RBFs muito grandes, com uma gaussiana por amostra de dados • Como a camada de entrada não tem parâmetros livres o mapeamento pode realmente ser calculado uma vez e salvo em memória Exemplo 17 Prof. Júlio Cesar Nievola

More Related