Variável Instrumental

IBM0288 - 2026.1

Prof. Raphael Gouvea

Para reflexão

Aula passada: um X e um Z

\[Y_i = \beta_0 + \beta_1 X_i + u_i\]

  • O objetivo é estimar o efeito causal \(\beta_1\). Porém, \(X\) é correlacionada com o termo de erro, e não podemos resolver o problema simplesmente incluindo variáveis de controle.

  • A regressão com variáveis instrumentais (VI) divide \(X\) em duas partes: uma que pode ser correlacionada com \(u\), e outra que não é. Ao isolar a parte não correlacionada com \(u\), é possível estimar \(\beta_1\).

  • Isso é feito usando uma variável instrumental, \(Z_i\), que é correlacionada com \(X_i\) mas não correlacionada com \(u_i\).

Aula passada: Validade do Instrumento

\[Y_i = \beta_0 + \beta_1 X_i + u_i\]

Para que uma variável instrumental Z seja válida, ela deve satisfazer duas condições:

  1. Relevância do instrumento: \(\text{corr}(Z_i, X_i) \neq 0\)
  2. Exogeneidade do instrumento: \(\text{corr}(Z_i, u_i) = 0\)

Relevância: a variação do instrumento está relacionada à variação do regressor explicativo.

Exogeneidade: a parte da variação explicada pelo instrumento que é exógena, ou seja, não correlacionada com fatores não observados.

Aula passda: resumo MQ2E

Suponha que \(Z_i\) satisfaça as duas condições para um instrumento válido:

  • Relevância: \(\text{corr}(Z_i, X_i) \neq 0\)
  • Exogeneidade: \(\text{corr}(Z_i, u_i) = 0\)

Mínimos Quadrados em Dois Estágios:

Estágio 1: Regrida \(X_i\) em \(Z_i\) por MQO → obtenha \(\hat{X}_i = \hat{\pi}_0 + \hat{\pi}_1 Z_i\)

Estágio 2: Regrida \(Y_i\) em \(\hat{X}_i\) por MQO → obtenha \(\hat{\beta}_1^{MQ2E}\)

Os coeficientes do segundo estágio são os estimadores de MQ2E, mas os erros-padrão estão errados (usar comando único no R).

Aula passada: propriedades MQO2E

  • Para um único regressor \(X\) e um único instrumento \(Z\), o estimador MQ2E possui uma forma simples.
  • O estimador MQ2E de \(\beta_1\) é o quociente entre a covariância amostral entre \(Z\) e \(Y\) e a covariância amostral entre \(Z\) e \(X\): \(\hat{\beta}_1^{\text{MQ2E}} = \dfrac{s_{ZY}}{s_{ZX}}\)
  • Em amostras grandes, \(\hat{\beta}_1^{\text{MQ2E}}\) é consistente e assintoticamente normal: \(\hat{\beta}_1^{\text{MQ2E}} \xrightarrow{p} \beta_1\) \(\hat{\beta}_1^{\text{MQ2E}} \sim \mathcal{N}(\beta_1, \sigma_{\hat{\beta}_1^{\text{MQ2E}}}^2)\) \(\sigma_{\hat{\beta}_1^{\text{MQ2E}}}^2 = \dfrac{1}{n} \dfrac{\operatorname{Var}[(Z_i - \mu_Z)u_i]}{[\operatorname{Cov}(Z_i, X_i)]^2}\)
  • Como \(\hat{\beta}_1^{\text{MQ2E}}\) é normalmente distribuído em grandes amostras, testes de hipótese sobre \(\beta_1\) podem ser realizados utilizando a estatística \(t\).

O Modelo Geral de VI

  • Até agora consideramos a regressão VI com um único regressor endógeno (X) e um único instrumento (Z).

  • Precisamos estender isso para:

    • múltiplos regressores endógenos (\(X_1, \ldots, X_k\))

    • múltiplas variáveis exógenas incluídas (\(W_1, \ldots, W_r\)) ou variáveis de controle

    • múltiplos instrumentos (\(Z_1, \ldots, Z_m\)): com mais instrumentos (relevantes) pode-se produzir uma variância menor no MQO2E. Por quê?

  • Nova terminologia: identificação e sobreidentificação

Identificação

  • Em geral, diz-se que um parâmetro é identificado se diferentes valores do parâmetro produzem diferentes distribuições dos dados.

  • Na regressão VI, se os coeficientes são identificados depende da relação entre o número de instrumentos (m) e o número de regressores endógenos (k).

  • Intuitivamente, se há menos instrumentos do que regressores endógenos, não podemos estimar \(\beta_1, \ldots, \beta_k\).

    • Por exemplo, suponha \(k = 1\) mas \(m = 0\) (sem instrumentos)!

Condições para identificação

Os coeficientes \(\beta_1, \ldots, \beta_k\) são:

  • Exatamente identificados se \(m = k\).

    • Há instrumentos suficientes para estimar \(\beta_1, \ldots, \beta_k\).
  • Sobreidentificados se \(m > k\).

    • Há mais instrumentos do que o necessário. Nesse caso, é possível “testar” a validade dos instrumentos (testes de sobreidentificação).
  • Subidentificados se \(m < k\).

    • Há instrumentos insuficientes para estimar \(\beta_1, \ldots, \beta_k\). É preciso obter mais instrumentos!

Resumo da Terminologia

\[Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + \beta_{k+1} W_{1i} + \cdots + \beta_{k+r} W_{ri} + u_i\]

  • \(Y_i\) é a variável dependente

  • \(X_{1i}, \ldots, X_{ki}\) são os regressores endógenos (potencialmente correlacionados com \(u_i\))

  • \(W_{1i}, \ldots, W_{ri}\) são as variáveis exógenas incluídas (não correlacionadas com \(u_i\)) ou variáveis de controle

  • \(\beta_0, \beta_1, \ldots, \beta_{k+r}\) são os coeficientes de regressão desconhecidos

  • \(Z_{1i}, \ldots, Z_{mi}\) são os \(m\) instrumentos (variáveis exógenas excluídas)

  • Os coeficientes são sobreidentificados se \(m > k\); exatamente identificados se \(m = k\); subidentificados se \(m < k\).

MQ2E com um regressor endógeno

\[Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 W_{1i} + \cdots + \beta_{1+r} W_{ri} + u_i\]

Com \(m\) instrumentos: \(Z_{1i}, \ldots, Z_{mi}\)

Primeiro estágio: Regrida \(X_1\) em todos os regressores exógenos: regrida \(X_1\) em \(W_1, \ldots, W_r, Z_1, \ldots, Z_m\), e um intercepto, por MQO → obtenha \(\hat{X}_{1i}\)

Segundo estágio: Regrida \(Y_i\) em \(\hat{X}_{1i}, W_{1i}, \ldots, W_{ri}\), e um intercepto, por MQO.

Os coeficientes desse segundo estágio são os estimadores de MQ2E, mas os desvios-padrão precisam ser corrigidos. Para obter os desvios corretos, faça isso em um único passo R.

Exemplo: demanda por cigarros

Suponha que queremos estimar a elasticidade da demanda de cigarros e quea renda seja exógena (plausível — por quê?):

\[\ln Q_i = \beta_0 + \beta_1 \ln P_i + \beta_2 \ln Inc_i + u_i\]

Temos dois instrumentos:

  • \(Z_{1i} = \text{imposto geral de vendas}_i\)
  • \(Z_{2i} = \text{imposto específico sobre cigarros}_i\)

Variável exógena incluída: \(\ln(Inc_i)\) (\(W\))

\(\beta_1\) é sobre-, sub- ou exatamente identificado?

Hipóteses para inferência causal

\[Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + \beta_{k+1} W_{1i} + \cdots + \beta_{k+r} W_{ri} + u_i\]

  1. \(E(u_i \mid W_{1i}, \ldots, W_{ri}) = 0\) — “os regressores exógenos são exógenos”

  2. \((Y_i, X_{1i}, \ldots, X_{ki}, W_{1i}, \ldots, W_{ri}, Z_{1i}, \ldots, Z_{mi})\) são i.i.d.

  3. Os X’s, W’s, Z’s e Y têm momentos de 4ª ordem não nulos e finitos.

  4. Os instrumentos \((Z_{1i}, \ldots, Z_{mi})\) são válidos.

Sob as hipóteses 1–4, o MQ2E e sua estatística t são normalmente distribuídos em amostras grandes.

O requisito crítico é que os instrumentos sejam válidos.

Qual o papel das variáveis W?

  • Em muitos casos, o propósito de incluir as \(W's\) é controlar por fatores omitidos para que \(Z\) não seja correlacionada com \(u\).

  • Nesse caso, as \(W's\) não precisam ser exógenas: elas precisam ser variáveis de controle eficazes!

    • Foco agora é em produzir um instrumento exógeno e não aferir causalidade dos \(Ws\)
  • Tecnicamente, a condição para as \(W's\) serem variáveis de controle eficazes é que a média condicional de \(u_i\) não dependa de \(Z_i\), dado \(W_i\):

\[E(u_i \mid W_i,\, Z_i) = E(u_i \mid W_i)\]

Papel das variáveis de controle em VI

A ideia central para inclusão de controles em regressões com variáveis instrumentais é que, em muitas aplicações, controles são essenciais para garantir que os instrumentos sejam plausivelmente exógenos, ou sej, não correlacionados com o resíduo da regressão.

Exemplo: efeito de estudar sobre notas

\[Y_i = \beta_0 + \beta_1 X_i + u_i\]

  • Y = GPA do primeiro semestre
  • X = horas médias de estudo por dia
  • Z = 1 se o colega de quarto trouxe videogame, = 0 caso contrário
  • Colegas de quarto foram designados aleatoriamente

Vocês conseguem pensar em um motivo pelo qual Z pode ser correlacionada com u mesmo sendo designada aleatoriamente?

O que mais entra no termo de erro? quais são os outros determinantes das notas, além do tempo de estudo?

Exemplo: efeito de estudar sobre notas

Por que Z poderia ser correlacionada com u? Uma possibilidade: o sexo do estudante:

  • Colegas de quarto são designados aleatoriamente: exceto sempre homens com homens e mulheres com mulheres.

  • Mulheres tiram notas melhores do que homens, mantendo constantes as horas de estudo.

  • Homens têm mais probabilidade de trazer um videogame do que mulheres.

Então \(\text{corr}(Z_i, u_i) < 0\):

  • homens têm mais probabilidade de ter um colega de quarto [homem] que traz videogame

  • homens também tendem a ter notas mais baixas, mantendo constante a quantidade de estudo.

Como \(\text{corr}(Z_i, u_i) < 0\), o instrumento não seria válido. A solução é controlar pelo sexo para que \(\text{corr}(Z_i, u_i) = 0\)!

Exemplo: efeito de estudar sobre notas

Essa lógica leva a incluir W = sexo do estudante como variável de controle na regressão VI:

\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 W_i + u_i\]

A condição de independência condicional da média para um instrumento exógeno é: \(E(u_i \mid Z_i, W_i) = E(u_i \mid W_i)\).

Em palavras: entre os homens (condicional em W = masculino), os colegas de quarto são designados aleatoriamente, portanto se o seu colega traz um videogame é aleatório. O mesmo vale para as mulheres.

O instrumento não é exógeno se W não está incluída na regressão! Mas quando W é incluída, a condição de independência condicional é atendida e o instrumento é válido.

Verificando a validade dos instrumentos

Lembre-se dos dois requisitos para instrumentos válidos:

  1. Relevância (caso especial de um X)
    • Pelo menos um instrumento deve entrar na contraparte populacional da regressão do primeiro estágio.
  2. Exogeneidade
    • Todos os instrumentos devem ser não correlacionados com o termo de erro: \(\text{corr}(Z_{1i}, u_i) = 0, \ldots, \text{corr}(Z_{mi}, u_i) = 0\)
    • O que acontece se um desses requisitos não é satisfeito? Como verificar? O que fazer?
    • Se você tem múltiplos instrumentos, quais deve usar?

Verificando a Hipótese #1

Focamos em um único regressor endógeno incluído:

\[Y_i = \beta_0 + \beta_1 X_i + \beta_2 W_{1i} + \cdots + \beta_{1+r} W_{ri} + u_i\]

Regressão do primeiro estágio:

\[X_i = \pi_0 + \pi_1 Z_{1i} + \cdots + \pi_m Z_{mi} + \pi_{m+1} W_{1i} + \cdots + \pi_{m+k} W_{ki} + v_i\]

  • Os instrumentos são relevantes se pelo menos um dos \(\pi_1, \ldots, \pi_m\) é não nulo.

  • Os instrumentos são fracos se todos os \(\pi_1, \ldots, \pi_m\) são zero ou próximos de zero.

  • Instrumentos fracos explicam muito pouca variação em X, além daquela explicada pelas W’s.

Quais são as consequências de instrumentos fracos?

Se os instrumentos são fracos, a distribuição amostral do MQ2E e sua estatística t não são normais, mesmo com \(n\) grande.

Considere o caso mais simples de um X, um Z e sem variáveis de controle:

\[Y_i = \beta_0 + \beta_1 X_i + u_i, \qquad X_i = \pi_0 + \pi_1 Z_i + v_i\]

Se \(\text{cov}(X, Z)\) é zero ou pequena, então \(s_{XZ}\) será pequena. Com instrumentos fracos, o denominador está próximo de zero:

\[\hat{\beta}_1^{MQ2E} = \frac{s_{YZ}}{s_{XZ}} \Rightarrow \text{denominador} \approx 0 \Rightarrow \text{distribuição altamente não normal}\]

Simulação distribuição amostral

  • Linha sólida = instrumentos irrelevantes
  • Linha tracejada clara = instrumentos fortes

Por que a aproximação para normal falha?

Suponha que em uma amostra você calcule \(s_{XZ} = 0{,}00001\ldots\)

\[\hat{\beta}_1^{MQ2E} = \frac{s_{YZ}}{s_{XZ}} = \frac{s_{YZ}}{0{,}00001}\]

Pequenas variações amostrais em \(s_{YZ}\) produzem enormes variações em \(\hat{\beta}_1^{MQ2E}\)!

Se os instrumentos são fracos, os métodos usuais de inferência são não confiáveis

Medindo a força dos instrumentos

  • Regressão do primeiro estágio (um X): Regrida X em \(Z_1, \ldots, Z_m, W_1, \ldots, W_k\).
  • Instrumentos totalmente irrelevantes ↔︎ todos os coeficientes de \(Z_1, \ldots, Z_m\) são zero.
  • A estatística F do primeiro estágio testa a hipótese de que \(Z_1, \ldots, Z_m\) não entram na regressão do primeiro estágio.
  • Instrumentos fracos implicam uma estatística F do primeiro estágio pequena.

Verificando instrumentos fracos com um X

  • Calcule a estatística F do primeiro estágio.

  • Regra prática: Se a estatística F do primeiro estágio for menor que 10, então o conjunto de instrumentos é fraco.

  • Se for o caso, o estimador de MQ2E será viesado, e as inferências estatísticas (erros-padrão, testes de hipótese, intervalos de confiança) podem ser enganosas.

Por que 10%?

Por que comparar a estatística F do primeiro estágio com 10?

  • Simplesmente rejeitar a hipótese nula de que os coeficientes dos Z’s são zero não é suficiente: é necessário um conteúdo preditivo substancial para que a aproximação normal seja boa.

  • Comparar a F do primeiro estágio com 10 testa se o viés do MQ2E, relativo ao MQO, é menor que 10%. Se F < 10, o viés relativo supera 10%, ou seja, o MQ2E pode ter viés substancial (ver Apêndice 12.5 de SW).

O que fazer se há instrumentos fracos

  • Obtenha melhores instrumentos (muitas vezes mais fácil falar do que fazer!).

  • Se você tem muitos instrumentos, alguns provavelmente são mais fracos que outros — é uma boa ideia descartar os mais fracos:

    • descartar um instrumento irrelevante aumenta a F do primeiro estágio).
  • Se você tem poucos instrumentos, e todos são fracos, então é necessário fazer uma análise VI diferente do MQ2E:

    • Separe o problema de estimação de \(\beta_1\) e a construção de intervalos de confiança.

    • Isso parece estranho, mas se o MQ2E não é normalmente distribuído, faz sentido (certo?).

Verificando a Hipótese #2

  • Exogeneidade dos instrumentos: todos os instrumentos são não correlacionados com o termo de erro: \(\text{corr}(Z_{1i}, u_i) = 0, \ldots, \text{corr}(Z_{mi}, u_i) = 0\)

  • Se há mais instrumentos do que regressores endógenos, é possível testar — parcialmente — a exogeneidade dos instrumentos.

Testando as Restrições de Sobreidentificação

Considere o caso mais simples:

\[Y_i = \beta_0 + \beta_1 X_i + u_i\]

Suponha que existam dois instrumentos válidos: \(Z_{1i}\), \(Z_{2i}\). Então seria possível calcular duas estimativas de MQ2E separadas.

Intuitivamente, se essas 2 estimativas de MQ2E forem muito diferentes entre si, algo deve estar errado: um ou ambos os instrumentos devem ser inválidos.

O Teste J de restrições de sobreidentificação faz essa comparação de maneira estatisticamente precisa.

Isso só pode ser feito se \(\#Z > \#X\) (sobreidentificado).

O Teste J

Suponha \(= m > k\) (sobreidentificado):

\[Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + \beta_{k+1} W_{1i} + \cdots + \beta_{k+r} W_{ri} + u_i\] Passos:

  1. Calcule os resíduos de MQ2E: \(\hat{u}_i = Y_i - \hat{\beta}_0^{MQ2E} - \hat{\beta}_1^{MQ2E} X_{1i} - \cdots\)
  • Use \(X_i\) ao invés de \(\hat{X}_i\) para obter \(\hat{u}_i\)
  1. Regrida \(\hat{u}_i\) em \(Z_{1i}, \ldots, Z_{mi}, W_{1i}, \ldots, W_{ri}\)

  2. Compute a estatística F testando a hipótese de que os coeficientes de \(Z_{1i}, \ldots, Z_{mi}\) são todos zero

  3. A estatística J é \(J = mF\)

O Teste J

\(J = mF\), onde F = a estatística F testando os coeficientes de \(Z_{1i}, \ldots, Z_{mi}\) numa regressão dos resíduos de MQ2E em \(Z_{1i}, \ldots, Z_{mi}, W_{1i}, \ldots, W_{ri}\).

Distribuição da estatística J:

  • Sob a hipótese nula de que todos os instrumentos são exógenos, J tem distribuição qui-quadrado com \(m-k\) graus de liberdade.

  • Se \(m = k\), \(J = 0\) (isso faz sentido?)

  • Se alguns instrumentos são exógenos e outros são endógenos, a estatística J será grande e a hipótese nula de que todos os instrumentos são exógenos será rejeitada.

Verificando a validade dos Zs: Resumo

Este resumo considera o caso de um único X. Os dois requisitos para instrumentos válidos são:

1. Relevância

  • Pelo menos um instrumento deve entrar na contraparte populacional da regressão do primeiro estágio.

  • Se os instrumentos são fracos, o estimador de MQ2E é viesado e a estatística t tem distribuição não normal.

  • Para verificar instrumentos fracos com um único regressor endógeno incluído, verifique a F do primeiro estágio:

    • Se F > 10, os instrumentos são fortes — use MQ2E.
    • Se F < 10, instrumentos fracos — tome alguma providência.

Verificando a validade dos Zs: Resumo

2. Exogeneidade

  • Todos os instrumentos devem ser não correlacionados com o termo de erro: \(\text{corr}(Z_{1i}, u_i) = 0, \ldots, \text{corr}(Z_{mi}, u_i) = 0\)

  • Podemos testar parcialmente a exogeneidade: se \(m > 1\), podemos testar a hipótese nula de que todos os instrumentos são exógenos, contra a alternativa de que até \(m-1\) são endógenos (correlacionados com u).

  • O teste é o Teste J, construído usando os resíduos de MQ2E.

  • Se o Teste J rejeitar, então pelo menos alguns de seus instrumentos são endógenos — portanto, você deve tomar uma decisão difícil e descartar alguns (ou todos) os seus instrumentos.