
IBM0288 - 2026.1
Viés de seleção: ocorre quando grupos de tratamento e controle não são comparáveis devido a atribuição não aleatória dos participantes em cada grupo, o que causa diferenças sistemáticas entre eles.
Viés de variável omitida (OVB): quando uma variável não incluída no modelo gera correlação entre o resíduo e algum regressor do modelo.
Solução: incluir variável omitida ou trabalhar com estrutura da painel para controlar por efeitos fixos de entidade e tempo.
Observação: painel não permite eliminar todo tipo OVB. Quais não elimina?
Viés de causalidade simultânea: ocorre quando além da causalidade ir dos regressores para a variável dependente (X causa Y), há também causalidade reversa da variável dependente para um ou mais regressores (Y causa X).
Viés de erros nas variáveis: ocorre quando a variável independente X é reportada imprecisamente.
Vieses
Ao se trabalhar com dados observacionais em regressões MQO, a presença de viés de variável omitida, viés de causalidade simultânea ou viés de erros de medida será um problema de validade interna que inviabiliza a obtenção de estimativas causais. Todos três problemas resultam em \(E(u \mid X) \neq 0\)!
A regressão com variáveis instrumentais pode eliminar o viés quando \(E(u \mid X) \neq 0\) (independentemente do tipo)!
\[Y_i = \beta_0 + \beta_1 X_i + u_i\]
O objetivo é estimar o efeito causal \(\beta_1\). Porém, \(X\) é correlacionada com o termo de erro, e não podemos resolver o problema simplesmente incluindo variáveis de controle.
A regressão com variáveis instrumentais (VI) divide \(X\) em duas partes: uma que pode ser correlacionada com \(u\), e outra que não é. Ao isolar a parte não correlacionada com \(u\), é possível estimar \(\beta_1\).
Isso é feito usando uma variável instrumental, \(Z_i\), que é correlacionada com \(X_i\) mas não correlacionada com \(u_i\).


Considere o gráfico de dispersão de \((P,Q)\) de equilíbrio: ajustar uma reta não estima a curva de demanda nem a de oferta!

Para identificar a demanda, precisaríamos fixar a oferta; e vice-versa, para identificar a oferta, precisaríamos fixar a demanda.
Nota terminológica
“Endógena” significa literalmente “determinada dentro do sistema.” Se X é determinada conjuntamente com Y, então a regressão de Y em X está sujeita ao viés de causalidade simultânea. Mas essa definição é muito restrita, pois a regressão VI também pode tratar o viés de variável omitida e de erros nas variáveis. Por isso, utilizamos a definição mais ampla acima.


Considere a variável I, que causa X, mas não causa diretamente Y.
A variável I não possui caminhos de “porta dos fundos” entre ela e \(Y\).
A única forma de chegar a \(Y\) a partir de \(I\) é por meio de \(X\): \(I \rightarrow X \rightarrow Y\)
A variável I é um bom instrumento para \(X\) se satisfizer duas condições:
\[Y_i = \beta_0 + \beta_1 X_i + u_i\]
Para que uma variável instrumental Z seja válida, ela deve satisfazer duas condições:
Relevância: a variação do instrumento está relacionada à variação do regressor explicativo.
Exogeneidade: a parte da variação explicada pelo instrumento que é exógena, ou seja, não correlacionada com fatores não observados.
Explicação #1: Mínimos Quadrados em Dois Estágios (MQ2E)
Como o nome sugere, o MQ2E tem dois estágios, ou seja, duas regressões:
\[X_i = \pi_0 + \pi_1 Z_i + v_i\]
Obtenha os valores ajustados do primeiro estágio:
\[\hat{X}_i = \hat{\pi}_0 + \hat{\pi}_1 Z_i\]
\[Y_i = \beta_0 + \beta_1 \hat{X}_i + u_i\]
Portanto, em amostras grandes, \(\beta_1\) pode ser estimado por MQO usando a regressão (2).
Suponha que \(Z_i\) satisfaça as duas condições para um instrumento válido:
Mínimos Quadrados em Dois Estágios:
Estágio 1: Regrida \(X_i\) em \(Z_i\) por MQO → obtenha \(\hat{X}_i = \hat{\pi}_0 + \hat{\pi}_1 Z_i\)
Estágio 2: Regrida \(Y_i\) em \(\hat{X}_i\) por MQO → obtenha \(\hat{\beta}_1^{MQ2E}\)
Os coeficientes do segundo estágio são os estimadores de MQ2E, mas os erros-padrão estão errados (usar comando único no R).
Explicação #2: Derivação algébrica direta
\(Y_i = \beta_0 + \beta_1 X_i + u_i\)
Assim,
\[ \begin{aligned} \text{cov}(Y_i, Z_i) &= \text{cov}(\beta_0 + \beta_1 X_i + u_i,\, Z_i) \\ &= \text{cov}(\beta_0, Z_i) + \text{cov}(\beta_1 X_i, Z_i) + \text{cov}(u_i, Z_i) \\ &= 0 + \beta_1 \text{cov}(X_i, Z_i) + 0 \\ &= \beta_1 \text{cov}(X_i, Z_i) \end{aligned} \]
onde \(\text{cov}(u_i, Z_i) = 0\) pela exogeneidade do instrumento! Logo:
\[ \beta_1 = \frac{\text{cov}(Y_i, Z_i)}{\text{cov}(X_i, Z_i)} \]
O estimador VI substitui essas covariâncias populacionais por covariâncias amostrais:
\[\hat{\beta}_1^{MQ2E} = \frac{s_{YZ}}{s_{XZ}}\]
onde \(s_{YZ} = \frac{1}{n}\sum_{i=1}^n (Z_i - \bar{Z})(Y_i - \bar{Y})\) e \(s_{XZ} = \frac{1}{n}\sum_{i=1}^n (Z_i - \bar{Z})(X_i - \bar{X})\) são as covariâncias amostrais.
Este é o estimador de MQ2E apenas com uma derivação diferente!
Derivação por forma reduzida
Existe também uma terceira forma de derivar que consiste em resolver a forma reduzida que relaciona Y com Z e X com Z: \(X_i = \pi_0 + \pi_1 Z_i + v_i\) e \(Y_i = \gamma_0 + \gamma_1 Z_i + w_i\), onde \(w_i\) é um termo de erro. Como Z é exógena, Z é não correlacionada com \(v_i\) e \(w_i\). Não será demonstrado por questão de tempo.
Primeira etapa: estimação do preço em função do imposto sobre vendas\[\widehat{\ln(P^{\text{cigarettes}})} = 4{,}62 \,(0{,}03) + 0{,}031 \,(0{,}005)\,\text{SalesTax}\]
Segunda etapa: estimação da demanda de cigarros utilizando o preço previsto \[\widehat{\ln(Q^{\text{cigarettes}})} = 9{,}72 \,(1{,}53) - 1{,}08 \,(0{,}32)\, \widehat{\ln(P^{\text{cigarettes}})}\]
As regressões de nota/tamanho de turma da Califórnia ainda podem ter viés de variável omitida (ex.: envolvimento dos pais).
Em princípio, esse viés pode ser eliminado por regressão IV (MQ2E).
A regressão IV requer um instrumento válido, isto é, um instrumento que seja:
Instrumento hipotético:alguns distritos, atingidos aleatoriamente por um terremoto, “dobram” as salas de aula
\(Z_i = Terremoto_i = 1\) se atingido pelo terremoto, \(= 0\) caso contrário
As duas condições para um instrumento válido são atendidas?
O terremoto torna a situação como se os distritos estivessem num experimento de atribuição aleatória. Assim, a variação em STR decorrente do terremoto é exógena.
O primeiro estágio do MQ2E regride STR em Terremoto, isolando a parte de tamanhos das turmas que é exógena (a parte “como se” fosse aleatoriamente atribuída).

O uso de celulares e computadores durante as aulas expositivas não é permitido!