Variáveis instrumentais e estimação GMM

Variáveis instrumentais e estimação GMM Henrique Dantas Neder Universidade Federal de Uberlândia

Variáveis Instrumentais • O que são métodos de variáveis instrumentais (IV)? Mais conhecidos como uma solução para regressores endógenos: variáveis explicativas correlacionadas com o termo de erro da regressão, os métodos de variáveis instrumentais são uma maneira de obter estimativas de parâmetros consistentes. • A hipótese fundamental para a consistência dos estimadores OLS é que o termo de erro do modelo é não correlacionado com os regressores.

Variáveis Instrumentais • Esta hipótese, também conhecida como hipótese da esperança condicional nula, pode ser expressa por E[u|x] = 0 • Podemos entender isto de uma forma concreta: quando quisermos regredir rendimentos com anos de estudo e soubermos que uma variável latente (não observada) também determina os rendimentos. Neste caso, esta variável latente, por exemplo a habilidade do trabalhador não deve ter sua esperança condicionada ao número de anos de estudo igual a zero. Para cada valor de anos de estudo (por exemplo, 3 anos de estudo e 5 anos de estudo) temos um valor médio da variável latente diferente. • Esta condição também pode ser representada pela independência entre u e X, ou seja, covariância(u,x)=0

Vamosprimeiro considerar um diagrama de causalidade para ilustrar o problema colocado por variáveis instrumentais. Podemos usar mínimos quadrados ordinários (MQO) para estimar consistentemente o seguinte modelo: regressão: y = xb + u (1) Nenhuma associação entre x e u; MQO é consistente. y X u

Entretanto, a regressão falha na seguinte circunstancia: Endogeneidade: y = xb + u Correlação entre x e u; MQO não é consistente. x y u A correlação entre x e u (ou a falha na hipótese de média condicional nula E[u|x] = 0) pode ser causada por muitos fatores.

Podemos nos referir ao problema da endogeneidade como duas ou mais variáveis determinadas conjuntamente em um modelo comportamental. Um exemplo é o modelo de equações simultâneas tal como o conhecido sistema de oferta e demanda em economia, no qual o preço e a quantidade são conjuntamente determinados no mercado. • Um choque ou perturbação tanto na oferta como na demanda afetará tanto o preço como a quantidade no mercado de forma que ambas as variáveis estão correlacionadas com uma perturbação no sistema. Regressão por MQO resultará em estimativas inconsistentes de qualquer regressão incluindo preço • e quantidade.

Uma outra situação em que temos que utilizar variáveis instrumentais é quando temos que levar em conta fatores não observáveis relevantes e que são omitidos da equação de regressão. Tanto y como x podem ser afetados por estes fatores latentes, como por exemplo a habilidade. • Considere a regressão de (ln) rendimentos (y) sobre anos de estudo (x). O termo de erro u engloba todos os outros fatores que afetam os rendimentos tais como habilidade inata dos indivíduos ou inteligência. • Mas a habilidade é certamente correlacionada com o grau de escolaridade alcançado, causando uma correlação entre o regressor e o erro, Matematicamente, este é o mesmo problema que aquele causado pela endogeneidade ou erros de medida.

A solução deste problema por variáveis instrumentais pode ser vista como: Regressão de variáveis instrumentais: y = xb + u z não correlacionado com u, correlacionado com x z x y u A variável adicional z é chamada de instrumento para x. Em geral, temos muitas variáveis em x, e mais de uma destas variáveis correlacionada com u. Neste caso, necessitamos no mínimo tantas variáveis em z, quantas forem as variáveis em x correlacionadas com u.

Para tratar do problema de endogeneidade em um sistema de oferta e demanda, um candidato z deve afetar a quantidade ofertada, mas não deve impactar diretamente a demanda do produto. Um exemplo para um produto agrícola pode ser a temperatura ou a precipitação pluviométrica: estes fatores são claramente exógenos ao mercado, mas provavelmente importantes no processo de produção. • Consideremos o seguinte sistema de equações de “equilíbrio” de mercado: • (2)

Se considerarmos a solução algébrica deste sistema de equações estruturais para as variáveis p e q, teremos as equações na forma reduzida, nas quais os fatores exógenos aparecerão em seus lados direitos. • No caso dos fatores latentes da equação de rendimentos, podemos escolher o instrumento z como o número de anos de estudo do pai ou da mãe. Pais com maior escolaridade provavelmente têm filhos com maior escolaridade; ao mesmo tempo, fatores não observáveis que influenciam simultaneamente a renda e o nível educacional dos indivíduos não podem influenciar variáveis cujos valores são definidos no passado, como a escolaridade dos pais.

Mas porque não utilizar sempre variáveis instrumentais? • Pode ser difícil achar variáveis que servem como instrumentos válidos. Muitas variáveis que têm um efeito sobre as variáveis endógenas incluídas, também têm um efeito direto sobre a variável dependente. • Estimadores IV são viesados para pequenas amostras e suas propriedades para amostras finitas são freqüentemente problemáticas. Estes estimadores podem ter resultado ruim em pequenas amostras. • A precisão de estimadores IV é menor do que a de estimadores OLS. Na presença de instrumentos fracos (instrumentos incluídos com baixa correlação com os regressores endógenos) a perda de precisão é muito grande e as estimativas IV podem não compensar a inconsistência dos estimadores OLS. Isto sugere a necessidade de um método para determinar se um dado regressor pode ser tratado como endógeno.

Como saber se os instrumentos são fortes? • Instrumentos podem ser fracos: satisfatoriamente exógenos mas fracamente correlacionados com os regressores endógenos. Neste caso, “a cura pode ser pior do que a doença”. • Alguns autores (ver citação em Baum, 2008), formalizaram a definição de instrumentos fracos: concluem que a estatística F da equação de primeiro estágio deve exceder 10 para que os instrumentos sejam considerados fortes. Mas este critério não é suficiente para considerar que um instrumento não seja fraco. • Outros autores (Stock e Yogo, 2005) estabelecem uma regra de bolso para avaliar a fraqueza de instrumentos. Os comandos STATA ivreg2 e ivregress incorporam tabulações referentes a esta regra.

Simulação de uma variável endógena

Simulação de uma variável endógena – uma nova era no ensino da econometria • O viés para este exemplo com variável endógena, com tamanho de amostra n = 150 e 1000 replicações é de aproximadamente 20% para (Cameron e Trivedi, 2009, pg 143), o erro padrão é cerca de 17 vezes menor e sempre rejeitamos a hipótese nula verdadeira de que . • O erro padrão (parâmetro) de x = raiz(1+.52x1) = 1.1180. 1.1180/0.06580 = 17. Ou seja, a estimativa OLS é também inconsistente para a variância do coeficiente (subestima o valor do parâmetro) • Outros exemplos podem ser testados. Esta possibilidade de simulação computacional do DGP (“data generation process”) nos coloca em uma nova era do ensino da econometria.

Um primeiro exemplo de uso de iv • Utilizaremos um exemplo de Cameron e Trivedi(2009): gastos médicos com um regressor endógeno. • A variável dependente ldrugexp é o logaritmo dos gastos totais em medicamentos. • Os regressores são: um indicador (dummy) se os indivíduos tem seguro por empresa ou por sindicato (hi_empunion), número de condições crônicas (totchr), idade em anos (age), indicador de gênero (female), se é negro ou hispânico (blhisp) e o logaritmo natural da renda domiciliar anual em milhares de dólares (linc).

Um primeiro exemplo de uso de iv • Vamos considerar que a variável hi_empunion é endógena. A justificativa é que os indivíduos escolhem uma ou outra condição baseados na sua expectativa de gasto. • Os instrumentos selecionados são: a relação da rendimentos de seguridade social – rendimentos de todas as fontes (ssiratio), uma variável indicadora qualitativa (dummy) do status de renda reduzida (lowincome), o tamanho da força de trabalho empregada na firma (firmsz) e uma variável dummy indicando se a firma é uma grande operadora com localizações múltiplas.

Um primeiro exemplo de uso de iv • Os primeiros dois instrumentos são relevantes porque espera-se que sejam negativamente correlacionados com ter seguro suplementar. • Para serem instrumentos válidos (sem correlação com o termo de erro da equação de segundo estágio) – vamos admitir que se eles podem ser omitidos desta equação dado que o efeito dos rendimentos já é inteiramente capturado pela variável linc. • Os últimos dois instrumentos podem ser irrelevantes porque muitos indivíduos podem estar aposentados, serem autônomos ou estarem em sistemas de seguro de saúde privados.

um primeiro exemplo de uso de iv – estimação de um modelo exatamente identificado use "C:\cameron stata data files\mus06data.dta", clear global x2list totchr age female blhisp linc ivregress 2sls ldrugexp (hi_empunion = ssiratio) $x2list, vce(robust) first Em modelos com mais de um regressor endógeno, mais de uma regressão de primeiro estágio é mostrada se a opção first é usada. Indivíduos com seguro suplementar tem despesas com remédios que são 90% mais baixas do que as pessoas com este suplemento.

um primeiro exemplo de uso de iv – estimação de um modelo sobre identificado global ivmodel “ldrugexp (hi_empunion=ssiratio multlc) $x2list” quietly ivregress 2sls $ivmodel, vce(robust) estimates store TwoSLS quietly ivregress gmm $ivmodel, wmatrix(robust) estimates store GMM_hat quietly ivregress gmm $ivmodel, wmatrix(robust) igmm estimates store GMM_igmm quietly ivregress gmm $ivmodel, wmatrix(cluster age) estimates store GMM_clu quietly ivregress 2sls $ivmodel estimates store TwoSLS_def estimates table TwoSLS GMM_hat GMM_igmm GMM_clu TwoSLS_def, b(%9.5f) se

Fórmulas derivadas para os estimadores

Teste para endogeneidade do regressor • Se o regressor hi_empunion for exógeno, os estimadores IV (IV, 2SLS ou GMM) são ainda consistentes, mas eles serão muito menos eficientes do que o estimador OLS. • Hausman test: se há pequena diferença entre as estimativas IV e OLS, concluímos que o regressor é exógeno.

H0:ρ=0

Comentários sobre o teste Hausman • O comando estat endogenous implementa o teste Durbin-Wu-Hausman (DWH). • É baseado em uma estatística de teste robusta. • Considere o modelo: Podemos re-escrever esta equação estrutural adicionando uma variável v1 que é o erro da equação de primeiro estágio para y2:

Comentários sobre o teste Hausman • Sob a hipótese nula de que y2i é éxógena • O teste de exogeneidade é o teste de H0:ρ=0 na regressão de y1 sobre y2, x1 e v1. Como v1 não é diretamente observado utiliza-se o vetor de resíduos ajustados da equação de primeiro estágio. • Para erros homocedásticos e independentes, o teste é assintoticamente equivalente ao primeiro teste Hausman. No caso mais realista de erros heterocedáticos, o teste H0:ρ=0 pode ser ainda implementado desde que utilizemos estimativas robustas de variâncias.

Testes de restrições de sobre identificação • a validade de um instrumento não pode ser testada em um modelo exatamente identificado. • mas é possível testar a validade de instrumentos em um modelo sobre identificado desde que os parâmetros do modelo são estimados usando o GMM ótimo. • o mesmo teste tem diversos nomes, incluindo teste de restrições de sobre identificação (OIR), teste de sobre identificação (OID), Teste de Hansen, teste de Sargent e teste Hansen-Sargent.

Testes de restrições de sobre identificação • Consideremos o valor da função de critério para o estimador GMM ótimo: • Se as condições de momento da população estão corretas, então e . • Sob a hipótese nula de que todos os instrumentos são válidos, pode ser demonstrado que tem uma distribuição assintoticamente qui-quadrado com numero de graus de liberdade igual ao número de restrições sobre identificação.

Notação vetorial (matricial) utilizada Portanto: a matriz Z será formada por vetores-coluna constituídos dos instrumentos excluídos e dos instrumentos incluídos.

O método das variáveis instrumentais • Seja . O estimador de variáveis instrumentais de β é: (3) • Apesar deste estimador ser chamado de estimador de variáveis instrumentais em dois estágios, ele pode ser calculado em duas etapas como em apenas uma através da expressão anterior.

O método das variáveis instrumentais • Equação de primeiro estágio: • Equação de segundo estágio:

O método das variáveis instrumentais

O método das variáveis instrumentais • O estimador IV em dois estágios:

O método das variáveis instrumentais

O método das variáveis instrumentais: a estimativa da variância • O estimador da variância dos parâmetros estimados pelo método 2SLS é:

O método das variáveis instrumentais – estimativa da variância

PROPRIEDADES DA IV COM UMA VARIAVEL INSTRUMENTAL POBRE: estimação com apenas uma variável endógena • O viés assintótico de um estimador IV é dado pela seguinte equação: Mesmo se corr(z,u) for pequena, a inconsistência no estimador IV pode ser muito grande se corr(z,x) também for pequena.

PROPRIEDADES DA IV COM UMA VARIAVEL INSTRUMENTAL POBRE: estimação com apenas uma variável endógena • Outra expressão para representar o viés assintótico é dada por: IV é preferível a OLS em termos de viés assintótico quando corr(z,u)/corr(z,x) < corr(x,u)

Estimação IV: “síntese” • Quando temos certeza de que os regressores da nossa equação não estão correlacionados com os erros podemos aplicar o método convencional de OLS. No entanto, mesmo nesse caso temos que verificar se os resíduos da regressão são homocedásticos. Então temos que realizar o teste heterocedasticidade. Caso os resíduos sejam heterocedásticos temos que realizar a regressão robusta. Isto pode ser feito utilizando a opção robust (após a vírgula) no comando regress.

Estimação IV: “síntese” • Caso tenhamos motivos para acreditar que um ou mais regressores sejam endógenos (tenham correlação não nula com termo de erro da equação) temos que aplicar o método das variáveis instrumentais. Então nesse caso utilizaremos o comando ivreg (ou através do menu endogenous covariates) ao invés do comando regress.

Estimação IV: “síntese” • Mas mesmo nesse caso podemos ter uma complicação. Pode acontecer que aplicando o método das variáveis instrumentais os resíduos do modelo não sejam homocedásticos. Nesse caso temos que aplicar o método das variáveis instrumentais articulado com o método dos momentos generalizados (GMM).

Quais são as implicações da heterocedasticidade para o estimador IV? Os resíduos da regressão OLS são homocedásticos? • Os regressores • são todos exógenos? Sim Sim Utilizar estimação OLS Não Não Utilizar estimação OLS com opção robust Os resíduos da regressão IV são homocedásticos? Sim Utilizar estimação IV Não Utilizar estimação GMM

O Método dos Momentos Generalizados (GMM) • Os economistas consideram que o GMM foi uma invenção de Lars Hansen em seu paper de 1982 na revista Econometrica. • Mas o método tem seus antecedentes nos trabalhos de Karl Pearson sobre o método dos momentos datados em 1895 e mais a frente (1928) nos trabalhos de Neyman e Egon Pearson sobre o método MCE que supera a dificuldade do método dos momentos quando temos mais condições de momentos do que parâmetros a serem estimados. • O método tem portanto, como qualquer descoberta cientifica, uma história bem definida.

Variáveis instrumentais e estimação GMM