IBM0288 - 2026.1
Nos modelos de MQO que estudamos anteriormente, a função de regressão populacional é dada por:\[E(Y \mid X_1,X_2,\ldots,X_k)\]
Quando \(Y_i \in \{0,1\}\), o valor esperado de \(Y\) é \(p\), ou seja, a probabilidade de \(Y=1\):\[E(Y) = \color{red}{0 \times Pr(Y=0)} + 1 \times Pr(Y=1) = Pr(Y=1)\]
Portanto, para variável binária \(Y\) temos:\[E(Y \mid X_1,X_2,\ldots,X_k)=Pr(Y=1 \mid X_1,X_2,\ldots,X_k)\]
Um ponto de partida natural é o modelo de regressão linear (Linear Probability Model - LPM) com um único regressor:
\[Y_i = \beta_0 + \beta_1 X_i + u_i\]
o que a reta \(\beta_0 + \beta_1 X\) significa quando \(Y\) é binária?
o que \(\beta_1\) significa quando \(Y\) é binária? \(\beta_1 =\frac{\Delta Y}{\Delta X}\)?
o que o valor predito \(\hat{Y}\) significa quando \(Y\) é binária?
Vantagens:
Desvantagens:
O LPM afirma que a mudança na probabilidade prevista é a mesma para todos os valores de \(X\) (linearidade!)
Probabilidades preditas pelo LPM podem ser \(< 0\) ou \(> 1\)!
\[\Pr(Y=1 \mid X) = \beta_0 + \beta_1 X\]
A ideia é modelar: \[P(Y_i = 1 \mid X_i) = F(\beta_0 + \beta_1 X_i)\] onde \(F(\cdot)\) é uma função de distribuição acumulada.
Assim garantimos que \(0 \leq P \leq 1\).
Duas escolhas principais:
O modelo probit satisfaz essas condições:
\(\Pr(Y=1 \mid X)\) ser crescente em X para \(\beta_1 > 0\), e
\(0 \leq \Pr(Y=1 \mid X) \leq 1\) para todo X
A regressão probit modela a probabilidade de \(Y = 1\) usando a função de distribuição normal padrão acumulada, \(\Phi(z)\), avaliada em \(z = \beta_0 + \beta_1 X\): \[\Pr(Y=1 \mid X) = \Phi(\beta_0 + \beta_1 X)\]
\(z = \beta_0 + \beta_1 X\) é o “valor-z” ou “índice-z” do modelo probit.
Exemplo: Suponha \(\beta_0 = -2\), \(\beta_1 = 3\), \(X = 0{,}4\), portanto
\[\Pr(Y=1 \mid X=0{,}4) = \Phi(-2 + 3 \times 0{,}4) = \Phi(-0{,}8)\]
\(\Pr(z \leq -0{,}8) = 0{,}2119\)
\(P(Y_i=1|X_i) = \Phi(\beta_0 + \beta_1 P/I_i)\)
\(\Phi(\cdot)\): CDF normal padrão.

Interpretação: A probabilidade aumenta lentamente para valores baixos de P/I, cresce rapidamente para valores intermediários, e satura em 1 para valores elevados.
\[\Pr(Y=1 \mid X_1, X_2) = \Phi(\beta_0 + \beta_1 X_1 + \beta_2 X_2)\]
Por que usar a função de distribuição normal acumulada?
A “forma em S” nos dá o que queremos:
Fácil de usar: probabilidades tabeladas e facilmente obtidas no R
Interpretação é relativamente simples:
A regressão logit modela a probabilidade de \(Y = 1\), dado X, como a função de distribuição logística padrão acumulada, \(\Lambda(z)\), avaliada em \(z = \beta_0 + \beta_1 X\):
\[\Pr(Y=1 \mid X) = \Lambda(\beta_0 + \beta_1 X)\]
\[\Lambda(z) = \frac{1}{1 + e^{-z}}\]
Probit vs Logit: valores coeficientes
Como logit e probit utilizam funções de probabilidade diferentes, os coeficientes (\(\beta\)’s) são diferentes nos dois modelos.
\[\Pr(Y=1 \mid X) = \Lambda(\beta_0 + \beta_1 X)\]
Por que usar logit se temos probit?
Na prática, logit e probit são muito semelhantes!
O coeficiente \(\beta_1\) representa a diferença no valor de \(z\) associada ao aumento de \(X_1\) em uma unidade, mantendo as demais variáveis constantes \(X_2, \ldots, X_k\).
Como o modelo é não linear, o impacto sobre a probabilidade prevista não é constante.
Como calcular o efeito marginal aproximado da mudança de um regressor?
A interpretação depende do ponto da curva: o mesmo incremento em \(X_1\) pode gerar efeitos diferentes conforme o valor inicial.
Para variáveis binárias, a verossimilhança é:\[L(\beta) = \prod_{i=1}^{n} [P_i]^{Y_i} [1-P_i]^{1-Y_i}\] com: \(P_i = F(\beta_0 + \beta_1 X_i)\)
Maximizamos o logaritmo:\[\ln L(\beta) = \sum_i \left[ Y_i \ln P_i + (1-Y_i)\ln(1-P_i) \right]\]
Estimação feita numericamente (ex.: algoritmo Newton-Raphson).
Consistente: converge para o valor verdadeiro conforme \(n \to \infty\).
Assintoticamente normal:\[ \sqrt{n}(\hat{\beta} - \beta_0) \to N(0, \sigma) \]
Eficiente: menor variância assintótica entre estimadores consistentes.
Erros-padrão baseados na matriz de informação de Fisher:\(\hat{V}(\hat{\beta}) = (H^{-1})\) onde \(H\) é a matriz Hessiana da log-verossimilhança.
Intervalos de confiança:\(\hat{\beta}_j \pm 1.96 \cdot SE(\hat{\beta}_j)\)
O \(R^2\) tradicional não é aplicável.
Usamos o pseudo-R² de McFadden:\[R^2_{MF} = 1 - \frac{\ln L_{\text{modelo}}}{\ln L_{\text{nulo}}}\]
Fração corretamente prevista
Ver resultados nas Tabelas do livro.
Guia Prático
O cerne deve ser a identificação causal. Forma funcional não salva identificação ruim!
Prática recomendada: reporte LPM com errros-padrão robustos e, se quiser, logit/probit para mostrar robustez dos resultados.
Fonte: Economics Literature Search

O uso de celulares e computadores durante as aulas expositivas não é permitido!