Variável dependente binária: modelos não lineares

IBM0288 - 2026.1

Prof. Raphael Gouvea

Para reflexão

Aula passada: regressão

  • Nos modelos de MQO que estudamos anteriormente, a função de regressão populacional é dada por:\[E(Y \mid X_1,X_2,\ldots,X_k)\]

  • Quando \(Y_i \in \{0,1\}\), o valor esperado de \(Y\) é \(p\), ou seja, a probabilidade de \(Y=1\):\[E(Y) = \color{red}{0 \times Pr(Y=0)} + 1 \times Pr(Y=1) = Pr(Y=1)\]

  • Portanto, para variável binária \(Y\) temos:\[E(Y \mid X_1,X_2,\ldots,X_k)=Pr(Y=1 \mid X_1,X_2,\ldots,X_k)\]

Aula passada: LPM

Um ponto de partida natural é o modelo de regressão linear (Linear Probability Model - LPM) com um único regressor:

\[Y_i = \beta_0 + \beta_1 X_i + u_i\]

  • o que a reta \(\beta_0 + \beta_1 X\) significa quando \(Y\) é binária?

    • \(\Pr(Y=1|X) = \beta_0 + \beta_1 X_i\)
  • o que \(\beta_1\) significa quando \(Y\) é binária? \(\beta_1 =\frac{\Delta Y}{\Delta X}\)?

    • \(\beta_1\) é a mudança nessa probabilidade para uma variação em \(X\)
    • os resultados devem ser interpretados como variação em pontos percentuais (p. p.)
  • o que o valor predito \(\hat{Y}\) significa quando \(Y\) é binária?

    • \(\Pr(\hat{Y}=1|X) = \hat{\beta}_0 + \hat{\beta}_1 X_i\)

Aula passada: vantagens e desvantagens

Vantagens:

  • Simples de estimar e interpretar
  • A inferência é a mesma da regressão múltipla (é necessário usar erros-padrão robustos à heterocedasticidade)
  • Mesmas hipóteses em relação a causalidade e efeitos tratamentos

Desvantagens:

  • O LPM afirma que a mudança na probabilidade prevista é a mesma para todos os valores de \(X\) (linearidade!)

  • Probabilidades preditas pelo LPM podem ser \(< 0\) ou \(> 1\)!

O que precisamos?

  • O problema com o modelo de probabilidade linear é que ele modela a probabilidade de Y = 1 como linear em X:

\[\Pr(Y=1 \mid X) = \beta_0 + \beta_1 X\]

  • Em vez disso, queremos:
  • \(\Pr(Y=1 \mid X)\) ser crescente em X para \(\beta_1 > 0\), e
  • \(0 \leq \Pr(Y=1 \mid X) \leq 1\) para todo X
  • Isso requer o uso de uma forma funcional não linear para a probabilidade.

Introdução aos modelos não lineares

  • A ideia é modelar: \[P(Y_i = 1 \mid X_i) = F(\beta_0 + \beta_1 X_i)\] onde \(F(\cdot)\) é uma função de distribuição acumulada.

  • Assim garantimos que \(0 \leq P \leq 1\).

  • Duas escolhas principais:

    • \(F = \Phi\) (CDF normal padrão): Probit
    • \(F = \Lambda\) (CDF logística): Logit

Regressão Probit

  • O modelo probit satisfaz essas condições:

    • \(\Pr(Y=1 \mid X)\) ser crescente em X para \(\beta_1 > 0\), e

    • \(0 \leq \Pr(Y=1 \mid X) \leq 1\) para todo X

Probit e a Distribuição Normal

  • A regressão probit modela a probabilidade de \(Y = 1\) usando a função de distribuição normal padrão acumulada, \(\Phi(z)\), avaliada em \(z = \beta_0 + \beta_1 X\): \[\Pr(Y=1 \mid X) = \Phi(\beta_0 + \beta_1 X)\]

  • \(z = \beta_0 + \beta_1 X\) é o “valor-z” ou “índice-z” do modelo probit.

  • Exemplo: Suponha \(\beta_0 = -2\), \(\beta_1 = 3\), \(X = 0{,}4\), portanto

\[\Pr(Y=1 \mid X=0{,}4) = \Phi(-2 + 3 \times 0{,}4) = \Phi(-0{,}8)\]

  • \(\Pr(Y=1 \mid X=0{,}4)\) = área sob a curva da densidade normal padrão à esquerda de \(z = -0{,}8\), que é…

Tabela da Normal

\(\Pr(z \leq -0{,}8) = 0{,}2119\)

Probit: o caso das hipotecas

\(P(Y_i=1|X_i) = \Phi(\beta_0 + \beta_1 P/I_i)\)

\(\Phi(\cdot)\): CDF normal padrão.

  • Para \(P/I = 0,2\)\(P(deny =1) \approx 2,1\%\)
  • Para \(P/I = 0,3\)\(P(deny =1) \approx 16,1\%\)
  • Para \(P/I = 0,4\)\(P(deny =1) \approx 51,9\%\)
  • Para \(P/I = 0,6\)\(P(deny =1) \approx 98,3\%\)

Interpretação: A probabilidade aumenta lentamente para valores baixos de P/I, cresce rapidamente para valores intermediários, e satura em 1 para valores elevados.

Regressão probit com múltiplos regressores

\[\Pr(Y=1 \mid X_1, X_2) = \Phi(\beta_0 + \beta_1 X_1 + \beta_2 X_2)\]

  • \(\Phi\) é a função de distribuição normal acumulada.
  • \(z = \beta_0 + \beta_1 X_1 + \beta_2 X_2\) é o “valor-z” ou “índice-z” do modelo probit.
  • \(\beta_1\) é o efeito sobre o escore-z de uma variação unitária em \(X_1\), mantendo \(X_2\) constante (quando uma interpretação causal é justificada)

Regressão Probit: resumo

  • Por que usar a função de distribuição normal acumulada?

  • A “forma em S” nos dá o que queremos:

    • \(\Pr(Y=1 \mid X)\) é crescente em X para \(\beta_1 > 0\)
    • \(0 \leq \Pr(Y=1 \mid X) \leq 1\) para todo X
  • Fácil de usar: probabilidades tabeladas e facilmente obtidas no R

  • Interpretação é relativamente simples:

    • \(\beta_0 + \beta_1 X\) = valor-z
    • \(\beta_1\) é a variação no valor-z para uma variação unitária em X

Regressão Logit

A regressão logit modela a probabilidade de \(Y = 1\), dado X, como a função de distribuição logística padrão acumulada, \(\Lambda(z)\), avaliada em \(z = \beta_0 + \beta_1 X\):

\[\Pr(Y=1 \mid X) = \Lambda(\beta_0 + \beta_1 X)\]

\[\Lambda(z) = \frac{1}{1 + e^{-z}}\]

Probit vs Logit: valores coeficientes

Como logit e probit utilizam funções de probabilidade diferentes, os coeficientes (\(\beta\)’s) são diferentes nos dois modelos.

Exemplo

\[\Pr(Y=1 \mid X) = \Lambda(\beta_0 + \beta_1 X)\]

  • Exemplo: \(\beta_0 = -3\), \(\beta_1 = 2\), \(X = 0{,}4\),
    • portanto \(\beta_0 + \beta_1 X = -3 + 2 \times 0{,}4 = -2{,}2\) logo
    • \(\Pr(Y=1 \mid X=0{,}4) = 1/(1 + e^{-(-2{,}2)}) = 0{,}0998\)

Probit vs Logit

Por que usar logit se temos probit?

  • A razão principal é histórica: o logit é computacionalmente mais rápido e simples, mas isso não importa mais hoje em dia

Na prática, logit e probit são muito semelhantes!

Como interpretar os coeficientes?

  • O coeficiente \(\beta_1\) representa a diferença no valor de \(z\) associada ao aumento de \(X_1\) em uma unidade, mantendo as demais variáveis constantes \(X_2, \ldots, X_k\).

  • Como o modelo é não linear, o impacto sobre a probabilidade prevista não é constante.

  • Como calcular o efeito marginal aproximado da mudança de um regressor?

    1. Calcular a probabilidade predita para os valores iniciais;
    2. Calcular a probabilidade predita para o novo valor do regressor;
    3. Calcular a diferença entre as duas probabilidades preditas.
  • A interpretação depende do ponto da curva: o mesmo incremento em \(X_1\) pode gerar efeitos diferentes conforme o valor inicial.

Estimação por Máxima Verossimilhança: intuição

Estimação por Máxima Verossimilhança: formalização

  • Para variáveis binárias, a verossimilhança é:\[L(\beta) = \prod_{i=1}^{n} [P_i]^{Y_i} [1-P_i]^{1-Y_i}\] com: \(P_i = F(\beta_0 + \beta_1 X_i)\)

  • Maximizamos o logaritmo:\[\ln L(\beta) = \sum_i \left[ Y_i \ln P_i + (1-Y_i)\ln(1-P_i) \right]\]

  • Estimação feita numericamente (ex.: algoritmo Newton-Raphson).

Propriedades do estimador MLE

  • Consistente: converge para o valor verdadeiro conforme \(n \to \infty\).

  • Assintoticamente normal:\[ \sqrt{n}(\hat{\beta} - \beta_0) \to N(0, \sigma) \]

  • Eficiente: menor variância assintótica entre estimadores consistentes.

Erros-padrão e inferência

  • Erros-padrão baseados na matriz de informação de Fisher:\(\hat{V}(\hat{\beta}) = (H^{-1})\) onde \(H\) é a matriz Hessiana da log-verossimilhança.

  • Intervalos de confiança:\(\hat{\beta}_j \pm 1.96 \cdot SE(\hat{\beta}_j)\)

    • Testes:
    • \(z\)-teste individual.
    • Teste de razão de verossimilhança.

Medidas de ajuste

  • O \(R^2\) tradicional não é aplicável.

  • Usamos o pseudo-R² de McFadden:\[R^2_{MF} = 1 - \frac{\ln L_{\text{modelo}}}{\ln L_{\text{nulo}}}\]

  • Fração corretamente prevista

Existe discriminação racial no mercado de crédito imobiliário?

Ver resultados nas Tabelas do livro.

Angrist & Pischke: visão prática sobre Y binário

  • LPM
    • Útil e suficiente para inferência causal;
    • Fácil de estimar, interpretar e combinar com VI, efeitos fixos, dif-in-dif.
    • Use erros-padrão robustos;
    • Previsões fora de \(0,1\) não invalidam a consistência do efeito médio quando há exogeneidade.
  • Logit/Probit
    • Impõem probabilidades entre \(0,1\), mas efeitos marginais geralmente próximos aos do LPM.
    • Escolha da CDF muitas vezes é secundária: foco tem que ser no desenho de pesquisa e na identificação.

Guia Prático

Guia Prático

O cerne deve ser a identificação causal. Forma funcional não salva identificação ruim!

Prática recomendada: reporte LPM com errros-padrão robustos e, se quiser, logit/probit para mostrar robustez dos resultados.

Declínio de modelos probit desde Angrist & Pischke

Fonte: Economics Literature Search