1 / 66

TOMADA DE DECISÕES SIMPLES cap 16 - Russel

TOMADA DE DECISÕES SIMPLES cap 16 - Russel. Centro Universitario da FEI. AGENTES BASEADOS EM OBJETIVOS E BASEADOS EM UTILIDADE fonte IA Russell . Agentes baseados em objetivos

chevelier
Télécharger la présentation

TOMADA DE DECISÕES SIMPLES cap 16 - Russel

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TOMADA DE DECISÕES SIMPLEScap 16 - Russel Centro Universitario da FEI

  2. AGENTES BASEADOS EM OBJETIVOS E BASEADOS EM UTILIDADE fonte IA Russell Agentes baseados em objetivos Distinção binária entre estados bons (objetivos) e estados ruins ( não-objetivos) estados felizes e infelizes. Agentes baseados em utilidade Tem uma medida continua da qualidade dos estados uma medida de desempenho mais geral deve permitir uma comparação entre os diferentes estados do mundo de acordo com o grau exato de felicidade que proporcionariam ao agente se fossem adotadas.

  3. ESCOPO

  4. diferentemente de um agente lógico ele pode... • Pode tomar decisões em ambientes com incertezas e objetivos conflitantes (especifica o compromisso adequado) • Possui uma escala contínua de medida de qualidade sobre os estados • Valores associados a cada estado (utilidade ou desirability) indicando a “felicidade” do agente. • No caso de vários objetivos desejados não puderem ser atingidos com certeza, a utilidade fornece um meio pelo qual a probabilidade de sucesso pode ser ponderada em relação a importância dos objetivos.

  5. No texto Port-Royal Logic, escrito em 1662, o filósofo francês Arnauld declarou: Para julgar o que se deve fazer para obter um bem ou evitar um mal, é necessário considerar não apenas o bem e o mal em si, mas também a probabilidade de ele acontecer ou não acontecer, e ainda visualizar geometricamente a proporção que todos esses itens têm em conjunto.

  6. associam um valor a um estado Tal valor Indica o “desejo” por estar nesse estado U(S) – utilidade do estado S de acordo com o agente Ex.: s1 = {rico, famoso}, s2 = {pobre, famoso} U(s1) = 10 U(s2) = 5 Funções de utilidade

  7. Uma ação não determinística A terá estados resultantes possíveis Resultadoi(A)ondeivaria sobre os diferentes resultados.Para cada saída possível está associada uma probabilidade

  8. Antes da execução de A o agente atribui a probabilidade P(Resultadoi(A) | Fazer (A), E)a cada resultado onde,Eresume a evidência disponível ao agente sobre o mundoFazer (A)é a proposição de que a ação A seja executada no estado atual Pode-se calcular a utilidade esperada da ação EU(A|E) dada a evidencia E usando-se:EU(A |E) = iP(Resultadoi(A) | Fazer(A),E) * U(Resultadoi(A))probabilidade utilidade

  9. Princípio da Utilidade Máxima Esperada (UME) Afirma que um agente racional deve escolher uma ação que maximize a utilidade esperada do agente; Relaciona-se com a idéia de medida de desempenho; É um modo razoável de tomar decisões. ou seja: O agente usa um modelo do mundo em conjunto com a função utilidade (que mede suas preferências entre os estados do mundo), em seguida escolhe a ação que leva à melhor utilidade esperada.

  10. Princípio da Utilidade Máxima Esperada (UME) action = argmaxa EU(a|e) • Basicamente: o agente deve fazer “o que é certo” • Computar P(Result(a)|a,e) requer um modelo causal completo do mundo e inferências sobre Redes Bayesianas muito grandes • Calcular U(s) requer planejamento e/ou busca, para descobrir o quão “bom” é um estado (i.e. para onde se pode ir a partir dele) 10

  11. O principio é simples mas o que está por trás não : • Computações podem ser proibitivas e até ser difícil de formular o problema completo • Deve-se conhecer o estado inicial do ambiente percepção, aprendizado, representação do conhecimento e inferência são necessários. • Definição de um modelo causal completo do ambiente e atualização das redes de crença para calcular P(Resultadoi(A) | Fazer(A)) pesquisa e planejamento são necessários • Buscar valor da utilidade associada a cada estado para determinar U(Resultadoi(A))

  12. UME versus Medidas de desempenho lembrando que: • AGENTE é tudo que pode ser considerado capaz de perceber seu ambiente por meio de sensores e de agir sobre esse ambiente por intermedio de atuadores. • AGENTES RACIONAIS “Para cada sequência de percepções possível, um agente racional deve selecionar uma ação que venha a maximizar sua medida de desempenho, dada a evidência fornecida pela sequência de percepções e por qualquer conhecimento interno do agente.”

  13. UME versus Medidas de desempenho Considerando: os ambientes que poderiam levar um agente a ter um dado histórico de percepções e os diferentes agentes que podem ser projetados. “Se um agente maximizar uma função de utilidade que reflita corretamente a medida de desempenho pela qual seu comportamento está sendo julgado, ele alcançará a mais alta pontuação de desempenho possível, se tomarmos a média sobre os ambientes em que o agente poderia ser colocado.” Porém, em tomada de decisões simples, preocupa-se apenas com decisões isoladas ou instantâneas e não medidas de desempenho sobre históricos de ambientes.

  14. Base da teoria da utilidade • Por que maximizar a utilidade média é tão especial? • Por que não tentar maximizar a soma dos cubos das utilidades possíveis ou, • Tentar minimizar a pior perda possível? • Um agente não poderia agir racionalmente apenas expressando preferências entre estados, sem lhes atribuir valores numéricos • Talvez um agente racional possa ter uma estrutura de preferências complexa demais para ser captada por um único numero real, dado pela função de utilidade.

  15. Restrições requeridas sobre as preferências de um agente racional • Assumimos o conjunto de saídas de cada ação como uma loteria • Loteriaé em essência, uma distribuição de probabilidades sobre um conjunto de resultados reais (os prêmios da loteria). Uma loteria L com resultados possiveis C1,.......,Cnque pode ocorrer com as probabilidades p1,......,pné escrita como: L = [p1, C1;....pn, Cn] • Cada resultado de uma loteria pode ser um estado ou outra loteria.

  16. Preferências • As preferências entre os prêmios pagos são utilizadas para determinar preferências entre loterias ou estados, ou seja: • AB : A é preferível a B • AB : o agente está indiferente entre A e B • AB : O agente prefere A a B ou está indiferente onde A e B são estados.

  17. Exemplo: escolhendo entre loterias

  18. Para a compreensão de como as preferências entre loterias complexas estão relacionadas a preferências entre os estados subjacentes nessas loterias impõe-se restrições razoáveis sobre a relação de preferência a fim de obter os axiomas da teoria da utilidade.

  19. Axiomas da teoria da utilidade • ordenabilidade Dados dois estados quaisquer, um agente racional deve preferir um ao outro ou então classificar os dois como igualmente preferíveis. Ou seja, o agente não pode evitar a decisão. Recusar-se a apostar é como recusar-se a permitir a passagem do tempo. • transitividade Dados três estados quaisquer, se um agente preferir A a B e preferir B a C, então o agente deverá preferir A a C.

  20. continuidade se algum estado B estiver entre A e C em preferência, então haverá alguma probabilidade p de que o agente racional fique indiferente entre escolher B por garantia ou escolher a loteria que produza A com probabilidade p e C com probabilidade 1-p. A BC   p [ p, A; 1 – p, C] ~ B • substitutibilidade se um agente está indiferente entre duas loterias A e B, então o agente está indiferente entre duas outras loterias complexas que são a mesma loteria, exceto pelo fato de A ser substituido por B em uma delas. Isso é válido independentemente das probabilidades e do(s) outro(s) resultado(s) das loterias. A B   p [ p, A; 1 – p, C] ~ [ p, B; 1 – p, C]

  21. monotonicidade suponha que existam duas loterias que tenham os mesmos dois resultados, A e B. Se um agente prefere A a B, então o agente deve preferir a loteria que tem uma probabilidade mais alta para A (e vice-versa) A B  (p > q↔ [p, A; 1 – p, B] [q, A; 1 – q, B] ) • decomponibilidade As loterias compostas podem ser reduzidas a loterias mais simples com o uso das leis da probabilidade. Isto se chama regra de “nada de diversão no jogo” (no fun in gambling), porque afirma que duas loterias consecutivas podem ser compactadas em uma única loteria equivalente. [p, A; 1 – p, [q, B; 1 – q, C] ] ~ [p, A; (1 – p)q, B; (1 – p), (1 – q), C] (imagine um cassino que calcula a probabilidade de vc ganhar ou perder durante a noite e a coloque em um dado)

  22. Estes são os axiomas da teoria da utilidade • A violação de quaisquer desses axiomas acarreta em uma tomada de ações irracional!

  23. Violar restrições leva a irracionalidade Exemplo: se um agente viola a restrição de transitividade, seria possível induzí-lo a gastar todo o seu dinheiro. Suponha A B C A • Se o agente possui A, entao podemos oferecer a ele C, por A +1c. O agente prefere C então ele faria a transação. Podemos então oferecer B por C+1c, e depois A por B+1c, recaindo no estado inicial. • Isso pode ser feito até que o agente gaste todo o seu dinheiro.

  24. Os axiomas da teoria da utilizade versam sobre preferências.... • ... porem são consequências desses axiomas os seguintes teoremas: • existência da função de utilidade; • utilidade esperada de uma loteria.

  25. Existência da função utilidade: • Se as preferências de um agente obedecem aos axiomas de utilidade então existe uma função de valores reais U que opera sobre estados tais que U(A) > U(B) se e somente se A é preferivel em relação a B, e U(A) = U(B) se e somente se o agente está indiferente entre A e B. • Utilidade esperada de uma loteria:é a soma das probabilidades de cada possibilidade vezes a sua utilizade

  26. Utilidade é uma função que mapeia loterias à números reais Um agente pode ter quaisquer preferências que desejar: preferir um corcel surrado 73 ao invés de um Mercedes novo preferir saldos de conta bancaria apenas em números primos, abrindo mão do excedente Porém, em geral as preferências de agentes reais são mais sistemáticas

  27. escalas de utilidade e avaliação de utilizade • objetivo: criar sistemas de decisão que ajudem um agente a tomar decisões racionais. • Para tal precisamos definir a função de utilidade do agente • “dedução da preferência” (preference elicidation): apresentar escolhas para o agente e, usando as escolhas observadas, definir a sua função de utilidade.

  28. Escalas de utilidade • Uma escala pode ser definida a partir de dois pontos. Para a função de utilidade: • “melhos prêmio possível” : U(S) = uT • “pior catastrofe possível”: U(S) = u • Utilidade normalizada: u = 0 e uT = 1.

  29. Escalas de utilidade • Dada uma escala de utilidade entre u e uT, as utilidades dos estados intermediários são avaliadas pedindo-se que o agente indique uma preferência entre S e uma loteria padrão [p, uT; (1-p) u]. • A probabilidade p é ajustada até o agente ficar indiferente entre S e a loteria padrão. • Uma vez que isso seja feito para cada prêmio, temos a utilidade de todas as loterias envolvendo estes prêmios (para um agente específico).

  30. Escalas de utilidade • Ex.:em problemas de decisão na área médica, de transporte e ambiental a utilidade é avaliada com relação à probabilidade associada ao valor de utilidade de morte imediata (u) • aviões recebem uma revisão completa a partir de intervalos entre viagens e tempo de vôo (o valor desse intervalo esta relacionado a u); • carros são produzidos assumindo um compromisso do custo sobre taxa de sobrevida em acidentes.

  31. Escalas de utilidade • Escalas possíveis: • 1 micromorte: uma chance de morte em um milhão • Qualy: quality-ajusted life year • Grana, bufunfa, dinheiro

  32. Utilidade do dinheiro • agentes preferem mais dinheiro do que menos (mantidas todas as condições iguais) • agentes racionais possuem uma preferência monotônica para mais dinheiro • porém não é uma função de utilidade pois não diz nada sobre preferências a respeito de loterias envolvendo dinheiro.

  33. Utilidade do dinheiro - exemplo • Um jogador ganhou um prêmio de R$ 1.000.000 em um programa de TV • Apresentador oferece uma proposta: • Se ele jogar a moeda e aparecer cara  jogador perde tudo; • Se aparecer coroa  jogador ganha R$ 3.000.000; • Supondo que a moeda é justa o Valor Monetário Esperado (VME) de aceitarproposta é: VME = 0.5 (R$ 0) + 0.5 (R$ 3.000.000) = R$ 1.500.000 • O Valor Monetário Esperado de recusar a proposta é de R$ 1.000.000(menor) Isso indica que seria melhor aceitar a aposta ?

  34. Utilidade do dinheiro – exemplo (cont.) • AUtilidade Esperada (EU)para cada uma das duas ações, Sk = riqueza atual do jogador é: • EU (Aceitar) = 0.5 U(Sk) + 0.5 U(Sk+3.000.000) • EU (Rejeitar) = U(Sk+1.000.000) • Deve-se atribuir valores de utilidade para cada estado de saída: • Sk = 5 • Sk+3.000.000 = 9 • Sk+1.000.000 = 8 Utilidade esperada: EU(aceitar) = 0.5x5 + 0.5x8 = 7.5 < 8 Ação racional: rejeitar ! • Calculando aUtilidade Esperada (EU)para cada uma das duas ações temos que a decisão depende do estado de riqueza atual do jogador, uma vez que a utilidade (mudança no estilo de vida) para o primeiro R$ 1.000.000 é muito alta. Portanto a utilidade não é diretamente proporcional ao valor monetário (pois a utilidade do seu primeiro milhão é maior do que a do seu segundo milhão).

  35. Utilidade do Dinheiro • Não é uma função linear: conforme aumenta a quantidade de dinheiro, a taxa de crescimento da utilidade diminui. • ou seja, as pessoas ficam mais avessas a risco conforme aumentam os valores • Do lado da dívida a tendência é ser favorável ao risco. 35

  36. Utilidade do dinheiro • Grayson (1960) deduziu que a utilidade do dinheiro é proporcional ao logaritmo da quantia

  37. A utilidade do dinheiro é proporcional ao logaritmo da quantia entre -$150.000 e 800.000 (Mr. Beard) U(L) < U(Seml(L)) Risk-averse U(L) > U(Seml(L)) Risk-seeking Alguém que já deve 10.000 pode muito bem aceitar um lançamento de moeda justo para um ganho de $10.000 (caras) e uma perda de $20000 para coroas. Tal comportamento poderia ser chamado de desesperado, mas é racional se alguém já está em uma situação desesperada.

  38. Utilidade esperada e desapontamento pós decisão • a forma racional de escolher uma ação a*é: a* = argmaxa EU(a|e) • se EU for calculado corretamente, de acordo com o modelo probabilístico, se as probabilidades realmente corresponderem os processos estocasticos subjacentes aos eventos, então em média obteremos o resultado esperado....

  39. Optimizer’s curse • Porem o que realmente temos é uma estimativa (~EU(a|e)) da utilidade esperada. • Em geral o valor esperado real é pior do que o estimado • Eg. considere um problema de decisão com k escolhas, cada uma das quais tem utilidade estimada = 0 • Suponhamos que o erro de cada estimativa tenha média 0 e desvio padrao de 1

  40. Como selecionamos a ação com a maior estimativa de utilidade, estamos favorecendo estimativas ultra-otimistas, causando um comportamento tendencioso

  41. A curva para k = 3 possui média em torno de 0.85, portanto o desapontamento médio será de 85% do desvio padrão na estimativa de utilidade • (exercício 16.11)

  42. Funções de utilidade multi-atributo • Existem problemas em que resultados são caracterizados por dois ou mais atributos. • Como tratar funções de utilidades com várias variáveis X1, ..., Xn ? Ex.: Construir aeroporto - U(Morte, ruído, Custo) • Existem basicamente dois casos: • Decisões podem ser tomadas sem combinar os valores dos atributos em um único valor da utilidade (Dominância); • A utilidade resultante da combinação dos valores dos atributos pode ser especificada concisamente (Estrutura de Preferência e Utilidade multi-atributo);

  43. Dominância • Se um estado S1possui valores melhores em todos seus atributos do que S2, então existe uma dominância total de S1sobre S2; • Exemplo: Local S1 para Aeroporto custa menos, gera menos poluição sonora e é mais seguro que S2 (S1 domina totalmente S2 ); • Dominância total raramente acontece na prática;

  44. P S1 S2 $ - 2,8 -5.2 • Exemplo: Custo de construir aeroporto , vamos supor : • Em S1 valor uniformemente distribuído entre $2,8 e $4,8 bilhões; • Em S2valor uniformemente distribuído entre $3 e $5,2 bilhões; • Dada a informação que utilidade decresce com custo: • S1domina estocasticamente S2  Isso não decorre da comparação entre custos esperados (e.g. se soubermos que S1 custa exatamente $3.8 bilhões, não saberiamos resolver sem info adicionais!)

  45. Na prática, dominância estocástica pode geralmente ser definida usando apenas raciocínio qualitativo; • Existem algoritmos envolvendo “redes probabilísticas qualitativas” permitindo sistemas de tomada de decisão baseado em dominância estocástica sem usar valor; • Ex.: custo de construção aumenta com a distância para a cidade: • S1 é mais próximo da cidade do que S2 S1 domina S2estocasticamente sobre o custo

  46. Estrutura de preferências e utilidade multi-atributo • Vamos supor que temos n atributos, cada um dos quais com d valores possíveis. • para especificar uma função de utilidade completa U(x1, ..., xn) precisamos de dn valores • Preferências de agentes típicos possuem estruturas/regularidades que reduzem a complexidade desta definição: • U(x1, ..., xn) = f[ f1(x1), ..., fn(xn)]

  47. Preferências sem incerteza • A regularidade básica que surge em estruturas de preferências determinísticas é chamada Independência de Preferências; • X1 e X2 são preferencialmente independentes de X3: • Se a preferência entre resultados {x1, x2, x3} e {x1’, x2’, x3}não depende do valor específico x3 para o atributo X3 • Ex.: {ruído, custo, morte} a) 20.000 sofrem; $4,0 bilhões; 0,06 mortes/milhão de milhas versus b) 70.000 sofrem, $3,7 bilhões; 0,06 mortes/milhão de milhas prefiro a) a b) independente do fator risco de morte

  48. Independência preferencial mútua (MPI): todos os pares de atributos são preferencialmente independentes com relação aos demais; • Ex.: {custo e morte} são preferencialmente independentes de ruído {ruído e morte} são preferencialmente independentes de custo • (Debreu, 1960) Com MPI, o comportamento preferencial do agente pode ser descrito como uma maximização da função: V (x1 ... xn) = i Vi(xi) Em que Vi é uma função definida somente sobre o atributo xi • Ex.:V(barulho,custo,morte ) = - barulho x 10⁴ - custo - morte x 10¹² (função valor aditiva)

  49. Para entender MPI, melhor olhar para casos em que ela falha: • Suponha que vc seja um caçador medieval e precisa comprar no mercado cães de caça, galinhas vivas e gaiolas para as galinhas. Os cães são muito valiosos, mas se voce não tiver gaiolas suficientes para as galinhas, os cães as comerão; assim o número de cães vs galinhas vai depender do número de gaiolas • Neste caso a MPI é violada • A existência deste tipo de interação entre os atributos torna difícil a criação de uma função de utilidade multi-atributo.

  50. Preferências com incerteza • Deve-se levar em consideração estruturas a respeito de preferências sobre loterias; • A noção básica de independência de utilidade estende a noção de independência de preferências sobre loterias: • Conjunto de atributo X é independente de utilidadecom relação ao conjunto de atributo Y : Se a preferência sobre loterias em X não depende dos valores dos atributos em Y • Independência de utilidade mútua (MUI) Um conjuto de atributos é mutuamente independente da utilidade se cada um dos seus subconjuntos de atributos é independente de utilidade dos atributos restantes; • (Keeney, 1974 ) Existe MUI então, comportamento do agente pode ser descrito usando a função de utilidade multiplicativa: U = k1U1 + k2U2 + k3U3 + k1 k2U1U2 + k2 k3U2U3 + k3 k1U3U1 + k1k2k3U1U2U3

More Related