1 / 22

Outros tópicos na análise de regressão

Outros tópicos na análise de regressão. Regressão passando pela origem.

mateja
Télécharger la présentation

Outros tópicos na análise de regressão

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Outros tópicos na análise de regressão Regressão passando pela origem Exemplo: X são as unidades produzidas e Y é o custo, assim Y é zero por definição quando X=0. Outro exemplo: X é o número de marcas de cervejas armazenada em um supermercado num experimento (incluindo alguns supermercados sem cerveja armazenada (?? Não é no Brasil) e Y é o volume de cervejas vendidas no supermercado. Modelo O modelo com erros normais é o mesmo que (3) exceto que 0=0, assim, temos: Onde: 1 é o parâmetro a estimar; Xisão constantes conhecidas e i são os erros aleatórios, independentes, normalmente distribuídos com média zero e variância 2. A função de regressão para o modelo (5) é dada por:

  2. Inferência O estimador de mínimos quadrados de 1 (que também é o estimador de máxima verossimilhança para o modelo de regressão com erros normais), no modelo (5), é obtido minimizando-se o critério: com relação ao parâmetro 1. A equação normal resultante é dada por: É um valor específico Resolvendo para b1obtemos o estimador por ponto: Os valores ajustados e os resíduos são dados por:

  3. Um estimador não tendencioso para 2 é dado por: Perde-se 1 grau de liberdade para estimar o parâmetro 1 Os limites de confiança para 1, E(Yh) e para uma nova observação Yh(novo)para o modelo (5) são dados por: O valor de t tem n-1 graus de liberdade associado (os do resíduo). No modelo (3), com intercepto, tínhamos termos da forma: No modelo (5), como a equação passa pela origem, temos termos X2i e X2h.

  4. Exemplo: uma companhia opera 12 depósitos (armazéns). Com o objetivo de encontrar um procedimento mais eficiente de planejamento e controle, foi estudado a relação entre o número de horas trabalhadas (X) e o custo total do serviço (Y) nos depósitos durante um período de teste. Os dados e alguns resultados são apresentados na tabela a seguir:

  5. O parâmetro 1 é estimado por: Assim, a função de regressão estimada é dada por:

  6. O intervalo para 1, com confiança de 95% é dado por: Interpretação: com 95% de confiança, estima-se que a média da variável custo aumenta alguma coisa entre $4,61 e $4,76 para cada unidade adicional de trabalho. Cuidados com o uso da regressão pela origem • geralmente, a soma dos resíduos não é igual a zero (Verifique este fato no exemplo em estudo; também na equação normal(restrição)). Assim, num gráfico de resíduos, os mesmos não estarão aleatoriamente distribuídos ao redor de zero; • pode ocorrer que: (ocorrência: dados apresentam comportamento curvilíneo ou linear com intercepto). Neste caso, o coeficiente de determinação (r2), dado por: Portanto, o r2, neste caso de regressão, não tem uma clara interpretação.

  7. Exercício: construa a tabela da análise de variância da regressão, faça o teste F e conclua, utilizando as seguintes somas de quadrados. Onde SQTNC é a soma de quadrados total não corrigido; SQRNC é a soma de quadrados da regressão não corrigido e SQE é a soma de quadrados do erro. Verifique numericamente que SQTNC=SQRNC+SQE.

  8. Exemplo (referência: SAS System for Regression). Neste exemplo iremos ilustrar o fato de que o uso de um modelo sem intercepto pode fornecer resultados imprecisos mesmo nos casos em que o verdadeiro valor do coeficiente linear é próximo de zero. Uma amostra de tamanho 8 foi gerada usando o modelo y=x+, com o termo do erro com distribuição normal, média zero e variância l.

  9. Observa-se imediatamente que tanto o valor o teste F para o modelo, como o valor R2 são muito maiores para o modelo sem o coeficiente linear. Observe (isto é importante) que os quadrados médios são praticamente iguais, a rigor, o quadrado médio do modelo sem o coeficiente linear é maior do que o modelo com o coeficiente angular. Na realidade, os dois modelos estimam equações de regressão muito similares; a estimativa do coeficiente linear (-0,963) é bastante próxima de zero, além disso, a hipótese de que 0=0 não pode ser rejeitada (valor p=0,3436); as estimativas dos coeficientes angulares: 1=1,09 e 1=0,916, para os modelos com e sem coeficiente linear, respectivamente, são muito próximos.

  10. Observe, também, que a soma dos resíduos vale -1,5865, diferente de zero, mesmo o coeficiente linear sendo próximo de zero. Como o verdadeiro coeficiente linear é zero, as somas de quadrados do erro são próximas, quais sejam: 8,68 para o modelo com intercepto e 10,21 para o modelo sem o intercepto, porém, as somas de quadrado total são muito diferentes, sendo igual a 181,27 para o modelo sem o coeficiente linear e 58,19 para o modelo com coeficiente linear. Como o r2é uma estatística baseada na diferença entre a soma de quadrados do erro e total, ela é muito maior para o modelo sem o coeficiente linear.

  11. Efeitos de erros de medidas Erros de medida em Y Exemplo: Y: tempo necessário para completar uma tarefa X: complexidade da tarefa As tomadas de tempo podem ser feitas de forma imprecisa. Porém, se esses erros podem ser considerados aleatórios, não correlacionados e não tendenciosos, não temos problemas com a modelagem adotada até aqui. A parte aleatória do modelo () absorve estas variações. Erros de medida em X Suponha que estejamos interessados na seguinte relação: ganhos por tarefa dos trabalhadores e idades dos mesmos. Sejam: Xi = a idade verdadeira do i-ésimo trabalhador Xi* = a idade relatada pelo i-ésimo trabalhador

  12. Define-se o erro de medida como sendo: O modelo de regressão que gostaríamos estudar é: Como observamos Xi*, o modelo fica: Termo do erro Variável preditora Para que os resultados padrões da análise de regressão sejam válidas, a variável preditora deve ser independente do erro. Aqui, a variável preditora é correlacionada com o erro, dada a restrição: Portanto, os resultados padrões de regressão não são válidos para o modelo (6).

  13. Demonstração: covariância entre Xi*e os erros (i- 1i) no modelo (6) Inicialmente, temos: (Erros de medidas, i não sejam correlacionados com os erros do modelo, i.) A covariância fica: Usando (a) e (b), a covariância fica: Grandes dificuldades são encontradas na obtenção de estimadores não tendenciosos quando existe erros de medida em X. Para soluções consultar textos especializados .

  14. Predição inversa (Calibração) Em muitos estudos, uma regressão de Y sobre X é usada para estimar o valor de X o qual originou um novo valor de Y. Exemplos: 1) um analista de uma associação de comércio fez uma regressão entre preços de venda de um produto (Y), e os seus custos (X) para 15 membros da associação. O preço de venda de uma firma não pertencente à associação, Yh(novo), é conhecido e, deseja-se, conhecer o custo, Xh(novo), para esta firma. 2) foi realizada uma análise de regressão da diminuição do nível de colesterol (Y) e a dosagem de uma nova droga (X), para 50 pacientes. Um pesquisador está tratando um novo paciente para o qual o nível de colesterol deveria diminuir uma quantidade Yh(novo). Deseja-se estimar a dose necessária, Xh(novo),a ser administrada para se conseguir a quantidade Yh(novo). Vamos assumir o modelo (3):

  15. A função de regressão estimada é dada por: Temos uma nova observação, Yh(novo) e desejamos estimar o nível Xh(novo) que origina esta nova observação. Resolvendo (7) para X, dado Yh(novo, temos o estimador: Estimador pontual para o novo valor Xh(novo). (Estimador de máxima verossimilhança) Veja figura na próxima página. Exemplo: um médico está estudando um novo método (mais rápido) para medir baixas concentrações de açúcar no sangue. Doze (n=12) amostras foram usadas com concentrações conhecidas (X: método exato), divididas em 3 amostras para cada um de 4 diferentes níveis. A concentração de açúcar medida pelo método rápido (Y) foi então observada para cada uma das amostras. A equação de regressão estimada é dada por:

  16. Y • • • • • • Yh(novo) • • • • • • X Figura: exemplo de calibração. Outros resultados: Verificar se existe uma relação linear entre X e Y. Portanto, rejeitamos H0:1=0.

  17. O pesquisador deseja estimar a concentração real Xh(novo) para um novo paciente para o qual o método rápido (novo) resultou numa concentração de Yh(novo)=6,52. Intervalo de confiança aproximado para Xh(novo) O intervalo de confiança é dado por: Para o exemplo, temos: Concluímos com 95% de confiança que a verdadeira concentração de açúcar para o paciente está entre 6,13 e 6,89. Portanto, o erro é de aproximadamente 6%, o qual é considerado razoável para o pesquisador.

  18. Comentário: em problemas de calibração geralmente temos medidas (Y), rápidas, mais baratas e aproximadas, relacionadas com medidas (X), precisas, caras e demoradas sobre n observações. O modelo de regressão resultante é, então, utilizado para estimar uma medida precisa, Xh(novo), para uma medida aproximada nova Yh(novo). Escolha dos níveis de X Questões que o pesquisador deve considerar: • Quantos níveis de X deveriam ser pesquisados? • Quais devem ser os dois níveis extremos? • Qual deve ser o espaçamento entre os níveis? • Quantas observações devem ser feitas para cada nível de X?

  19. Objetivos de uma análise de regressão: Não existe uma resposta única para todas as questões formuladas, pois existem diferentes objetivos numa análise de regressão os quais levam a diferentes respostas. • estimar o coeficiente angular de uma regressão linear ; • estimar o coeficiente linear da regressão linear; • fazer predições de novas observações; • estimar uma ou mais respostas médias; • para regressão curvilínea, localizar a resposta máxima ou mínima; • determinar a natureza da função de regressão. Para ilustrar como os objetivos afetam o delineamento (projeto), considere as variâncias:

  20. Se o propósito da análise de regressão é estimar o coeficiente angular, 1, a variância de b1é minimizada se o denominador de (8) for maximizado. Isto é conseguido usando 2 níveis de X, nos dois extremos da região de estudo, e colocando metade das observações em cada dos dois níveis. Devemos estar certos da linearidade da regressão, caso contrário, com 2 níveis não temos informação sobre desvios da linearidade. Se o objetivo é estimar o intercepto, 0, o número e a distribuição dos níveis não afetam a variância de b0, contando que a média (X barra) seja 0 (zero).

  21. Para estimar a resposta média ou predizer uma nova observação no nível Xh, a variância é minimizada usando níveis de X de tal forma que: Sugestões (D.R.Cox): • Num experimento exploratório, em que o objetivo é verificar se uma variável preditora, tem ou não um efeito significativo e qual a direção, use apenas dois níveis. • Se acharmos que a resposta apresenta a forma de parábola, devemos usar três (3) níveis. Este é o caso mais corriqueiro. • Se o objetivo é estudar a forma da curva de resposta, então, devemos usar quatro (4) níveis. • Usar mais do que quatro (4) níveis para: a) quando é necessário estimar detalhes da curva de resposta; b) quando a curva de resposta apresenta uma assíntota; c) quando a curva de resposta não é adequadamente descrita pelo coeficiente angular e de curvatura. • Com exceção do último caso, geralmente é satisfatório usar-se níveis igualmente espaçados e com o mesmo número de repetições por nível. Nota: fazer lista de exercícios número 4.

More Related