IBM0288 - 2026.1
\[Y_i = \beta_0 + \beta_1 X_i + u_i\]
O objetivo é estimar o efeito causal \(\beta_1\). Porém, \(X\) é correlacionada com o termo de erro, e não podemos resolver o problema simplesmente incluindo variáveis de controle.
A regressão com variáveis instrumentais (VI) divide \(X\) em duas partes: uma que pode ser correlacionada com \(u\), e outra que não é. Ao isolar a parte não correlacionada com \(u\), é possível estimar \(\beta_1\).
Isso é feito usando uma variável instrumental, \(Z_i\), que é correlacionada com \(X_i\) mas não correlacionada com \(u_i\).
\[Y_i = \beta_0 + \beta_1 X_i + u_i\]
Para que uma variável instrumental Z seja válida, ela deve satisfazer duas condições:
Relevância: a variação do instrumento está relacionada à variação do regressor explicativo.
Exogeneidade: a parte da variação explicada pelo instrumento que é exógena, ou seja, não correlacionada com fatores não observados.
Suponha que \(Z_i\) satisfaça as duas condições para um instrumento válido:
Mínimos Quadrados em Dois Estágios:
Estágio 1: Regrida \(X_i\) em \(Z_i\) por MQO → obtenha \(\hat{X}_i = \hat{\pi}_0 + \hat{\pi}_1 Z_i\)
Estágio 2: Regrida \(Y_i\) em \(\hat{X}_i\) por MQO → obtenha \(\hat{\beta}_1^{MQ2E}\)
Os coeficientes do segundo estágio são os estimadores de MQ2E, mas os erros-padrão estão errados (usar comando único no R).
Até agora consideramos a regressão VI com um único regressor endógeno (X) e um único instrumento (Z).
Precisamos estender isso para:
múltiplos regressores endógenos (\(X_1, \ldots, X_k\))
múltiplas variáveis exógenas incluídas (\(W_1, \ldots, W_r\)) ou variáveis de controle
múltiplos instrumentos (\(Z_1, \ldots, Z_m\)): com mais instrumentos (relevantes) pode-se produzir uma variância menor no MQO2E. Por quê?
Nova terminologia: identificação e sobreidentificação
Em geral, diz-se que um parâmetro é identificado se diferentes valores do parâmetro produzem diferentes distribuições dos dados.
Na regressão VI, se os coeficientes são identificados depende da relação entre o número de instrumentos (m) e o número de regressores endógenos (k).
Intuitivamente, se há menos instrumentos do que regressores endógenos, não podemos estimar \(\beta_1, \ldots, \beta_k\).
Os coeficientes \(\beta_1, \ldots, \beta_k\) são:
Exatamente identificados se \(m = k\).
Sobreidentificados se \(m > k\).
Subidentificados se \(m < k\).
\[Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + \beta_{k+1} W_{1i} + \cdots + \beta_{k+r} W_{ri} + u_i\]
\(Y_i\) é a variável dependente
\(X_{1i}, \ldots, X_{ki}\) são os regressores endógenos (potencialmente correlacionados com \(u_i\))
\(W_{1i}, \ldots, W_{ri}\) são as variáveis exógenas incluídas (não correlacionadas com \(u_i\)) ou variáveis de controle
\(\beta_0, \beta_1, \ldots, \beta_{k+r}\) são os coeficientes de regressão desconhecidos
\(Z_{1i}, \ldots, Z_{mi}\) são os \(m\) instrumentos (variáveis exógenas excluídas)
Os coeficientes são sobreidentificados se \(m > k\); exatamente identificados se \(m = k\); subidentificados se \(m < k\).
\[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 W_{1i} + \cdots + \beta_{1+r} W_{ri} + u_i\]
Com \(m\) instrumentos: \(Z_{1i}, \ldots, Z_{mi}\)
Primeiro estágio: Regrida \(X_1\) em todos os regressores exógenos: regrida \(X_1\) em \(W_1, \ldots, W_r, Z_1, \ldots, Z_m\), e um intercepto, por MQO → obtenha \(\hat{X}_{1i}\)
Segundo estágio: Regrida \(Y_i\) em \(\hat{X}_{1i}, W_{1i}, \ldots, W_{ri}\), e um intercepto, por MQO.
Os coeficientes desse segundo estágio são os estimadores de MQ2E, mas os desvios-padrão precisam ser corrigidos. Para obter os desvios corretos, faça isso em um único passo R.
Suponha que queremos estimar a elasticidade da demanda de cigarros e quea renda seja exógena (plausível — por quê?):
\[\ln Q_i = \beta_0 + \beta_1 \ln P_i + \beta_2 \ln Inc_i + u_i\]
Temos dois instrumentos:
Variável exógena incluída: \(\ln(Inc_i)\) (\(W\))
\(\beta_1\) é sobre-, sub- ou exatamente identificado?
\[Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + \beta_{k+1} W_{1i} + \cdots + \beta_{k+r} W_{ri} + u_i\]
\(E(u_i \mid W_{1i}, \ldots, W_{ri}) = 0\) — “os regressores exógenos são exógenos”
\((Y_i, X_{1i}, \ldots, X_{ki}, W_{1i}, \ldots, W_{ri}, Z_{1i}, \ldots, Z_{mi})\) são i.i.d.
Os X’s, W’s, Z’s e Y têm momentos de 4ª ordem não nulos e finitos.
Os instrumentos \((Z_{1i}, \ldots, Z_{mi})\) são válidos.
Sob as hipóteses 1–4, o MQ2E e sua estatística t são normalmente distribuídos em amostras grandes.
O requisito crítico é que os instrumentos sejam válidos.
Em muitos casos, o propósito de incluir as \(W's\) é controlar por fatores omitidos para que \(Z\) não seja correlacionada com \(u\).
Nesse caso, as \(W's\) não precisam ser exógenas: elas precisam ser variáveis de controle eficazes!
Tecnicamente, a condição para as \(W's\) serem variáveis de controle eficazes é que a média condicional de \(u_i\) não dependa de \(Z_i\), dado \(W_i\):
\[E(u_i \mid W_i,\, Z_i) = E(u_i \mid W_i)\]
Papel das variáveis de controle em VI
A ideia central para inclusão de controles em regressões com variáveis instrumentais é que, em muitas aplicações, controles são essenciais para garantir que os instrumentos sejam plausivelmente exógenos, ou sej, não correlacionados com o resíduo da regressão.
\[Y_i = \beta_0 + \beta_1 X_i + u_i\]
Vocês conseguem pensar em um motivo pelo qual Z pode ser correlacionada com u mesmo sendo designada aleatoriamente?
O que mais entra no termo de erro? quais são os outros determinantes das notas, além do tempo de estudo?
Por que Z poderia ser correlacionada com u? Uma possibilidade: o sexo do estudante:
Colegas de quarto são designados aleatoriamente: exceto sempre homens com homens e mulheres com mulheres.
Mulheres tiram notas melhores do que homens, mantendo constantes as horas de estudo.
Homens têm mais probabilidade de trazer um videogame do que mulheres.
Então \(\text{corr}(Z_i, u_i) < 0\):
homens têm mais probabilidade de ter um colega de quarto [homem] que traz videogame
homens também tendem a ter notas mais baixas, mantendo constante a quantidade de estudo.
Como \(\text{corr}(Z_i, u_i) < 0\), o instrumento não seria válido. A solução é controlar pelo sexo para que \(\text{corr}(Z_i, u_i) = 0\)!
Essa lógica leva a incluir W = sexo do estudante como variável de controle na regressão VI:
\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 W_i + u_i\]
A condição de independência condicional da média para um instrumento exógeno é: \(E(u_i \mid Z_i, W_i) = E(u_i \mid W_i)\).
Em palavras: entre os homens (condicional em W = masculino), os colegas de quarto são designados aleatoriamente, portanto se o seu colega traz um videogame é aleatório. O mesmo vale para as mulheres.
O instrumento não é exógeno se W não está incluída na regressão! Mas quando W é incluída, a condição de independência condicional é atendida e o instrumento é válido.
Lembre-se dos dois requisitos para instrumentos válidos:
Focamos em um único regressor endógeno incluído:
\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 W_{1i} + \cdots + \beta_{1+r} W_{ri} + u_i\]
Regressão do primeiro estágio:
\[X_i = \pi_0 + \pi_1 Z_{1i} + \cdots + \pi_m Z_{mi} + \pi_{m+1} W_{1i} + \cdots + \pi_{m+k} W_{ki} + v_i\]
Os instrumentos são relevantes se pelo menos um dos \(\pi_1, \ldots, \pi_m\) é não nulo.
Os instrumentos são fracos se todos os \(\pi_1, \ldots, \pi_m\) são zero ou próximos de zero.
Instrumentos fracos explicam muito pouca variação em X, além daquela explicada pelas W’s.
Se os instrumentos são fracos, a distribuição amostral do MQ2E e sua estatística t não são normais, mesmo com \(n\) grande.
Considere o caso mais simples de um X, um Z e sem variáveis de controle:
\[Y_i = \beta_0 + \beta_1 X_i + u_i, \qquad X_i = \pi_0 + \pi_1 Z_i + v_i\]
Se \(\text{cov}(X, Z)\) é zero ou pequena, então \(s_{XZ}\) será pequena. Com instrumentos fracos, o denominador está próximo de zero:
\[\hat{\beta}_1^{MQ2E} = \frac{s_{YZ}}{s_{XZ}} \Rightarrow \text{denominador} \approx 0 \Rightarrow \text{distribuição altamente não normal}\]
Suponha que em uma amostra você calcule \(s_{XZ} = 0{,}00001\ldots\)
\[\hat{\beta}_1^{MQ2E} = \frac{s_{YZ}}{s_{XZ}} = \frac{s_{YZ}}{0{,}00001}\]
Pequenas variações amostrais em \(s_{YZ}\) produzem enormes variações em \(\hat{\beta}_1^{MQ2E}\)!
Se os instrumentos são fracos, os métodos usuais de inferência são não confiáveis
Calcule a estatística F do primeiro estágio.
Regra prática: Se a estatística F do primeiro estágio for menor que 10, então o conjunto de instrumentos é fraco.
Se for o caso, o estimador de MQ2E será viesado, e as inferências estatísticas (erros-padrão, testes de hipótese, intervalos de confiança) podem ser enganosas.
Por que comparar a estatística F do primeiro estágio com 10?
Simplesmente rejeitar a hipótese nula de que os coeficientes dos Z’s são zero não é suficiente: é necessário um conteúdo preditivo substancial para que a aproximação normal seja boa.
Comparar a F do primeiro estágio com 10 testa se o viés do MQ2E, relativo ao MQO, é menor que 10%. Se F < 10, o viés relativo supera 10%, ou seja, o MQ2E pode ter viés substancial (ver Apêndice 12.5 de SW).
Obtenha melhores instrumentos (muitas vezes mais fácil falar do que fazer!).
Se você tem muitos instrumentos, alguns provavelmente são mais fracos que outros — é uma boa ideia descartar os mais fracos:
Se você tem poucos instrumentos, e todos são fracos, então é necessário fazer uma análise VI diferente do MQ2E:
Separe o problema de estimação de \(\beta_1\) e a construção de intervalos de confiança.
Isso parece estranho, mas se o MQ2E não é normalmente distribuído, faz sentido (certo?).
Exogeneidade dos instrumentos: todos os instrumentos são não correlacionados com o termo de erro: \(\text{corr}(Z_{1i}, u_i) = 0, \ldots, \text{corr}(Z_{mi}, u_i) = 0\)
Se há mais instrumentos do que regressores endógenos, é possível testar — parcialmente — a exogeneidade dos instrumentos.
Considere o caso mais simples:
\[Y_i = \beta_0 + \beta_1 X_i + u_i\]
Suponha que existam dois instrumentos válidos: \(Z_{1i}\), \(Z_{2i}\). Então seria possível calcular duas estimativas de MQ2E separadas.
Intuitivamente, se essas 2 estimativas de MQ2E forem muito diferentes entre si, algo deve estar errado: um ou ambos os instrumentos devem ser inválidos.
O Teste J de restrições de sobreidentificação faz essa comparação de maneira estatisticamente precisa.
Isso só pode ser feito se \(\#Z > \#X\) (sobreidentificado).
Suponha \(= m > k\) (sobreidentificado):
\[Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + \beta_{k+1} W_{1i} + \cdots + \beta_{k+r} W_{ri} + u_i\] Passos:
Regrida \(\hat{u}_i\) em \(Z_{1i}, \ldots, Z_{mi}, W_{1i}, \ldots, W_{ri}\)
Compute a estatística F testando a hipótese de que os coeficientes de \(Z_{1i}, \ldots, Z_{mi}\) são todos zero
A estatística J é \(J = mF\)
\(J = mF\), onde F = a estatística F testando os coeficientes de \(Z_{1i}, \ldots, Z_{mi}\) numa regressão dos resíduos de MQ2E em \(Z_{1i}, \ldots, Z_{mi}, W_{1i}, \ldots, W_{ri}\).
Distribuição da estatística J:
Sob a hipótese nula de que todos os instrumentos são exógenos, J tem distribuição qui-quadrado com \(m-k\) graus de liberdade.
Se \(m = k\), \(J = 0\) (isso faz sentido?)
Se alguns instrumentos são exógenos e outros são endógenos, a estatística J será grande e a hipótese nula de que todos os instrumentos são exógenos será rejeitada.
Este resumo considera o caso de um único X. Os dois requisitos para instrumentos válidos são:
1. Relevância
Pelo menos um instrumento deve entrar na contraparte populacional da regressão do primeiro estágio.
Se os instrumentos são fracos, o estimador de MQ2E é viesado e a estatística t tem distribuição não normal.
Para verificar instrumentos fracos com um único regressor endógeno incluído, verifique a F do primeiro estágio:
2. Exogeneidade
Todos os instrumentos devem ser não correlacionados com o termo de erro: \(\text{corr}(Z_{1i}, u_i) = 0, \ldots, \text{corr}(Z_{mi}, u_i) = 0\)
Podemos testar parcialmente a exogeneidade: se \(m > 1\), podemos testar a hipótese nula de que todos os instrumentos são exógenos, contra a alternativa de que até \(m-1\) são endógenos (correlacionados com u).
O teste é o Teste J, construído usando os resíduos de MQ2E.
Se o Teste J rejeitar, então pelo menos alguns de seus instrumentos são endógenos — portanto, você deve tomar uma decisão difícil e descartar alguns (ou todos) os seus instrumentos.

O uso de celulares e computadores durante as aulas expositivas não é permitido!