Variável dependente binária: modelo de probabilidade linear

IBM0288 - 2026.1

Prof. Raphael Gouvea

Para reflexão

Empréstimos bancários e raça

Duas pessoas idênticas, exceto pela raça, entram em um banco para solicitar uma hipoteca a fim de comprar casas idênticas.
Por lei, ambas devem receber tratamento igual no processo de solicitação.
A questão central é: o banco realmente as trata da mesma forma? As chances de aprovação são iguais para ambas?
Essa é uma grande preocupação para os reguladores bancários: se a igualdade de tratamento ocorre na prática, e não apenas no papel.

Discriminação ou outros motivos?

Empréstimos são concedidos ou negados por diversas razões legítimas: por exemplo, grau de comprometimento da renda mensal do solicitante.
Erros honestos também ocorrem: a negação de um único solicitante minoritário não comprova discriminação!
Por isso, muitos estudos buscam evidências estatísticas de discriminação.

Como avaliar causalidade?

Uma abordagem inicial é comparar a taxa de negação entre solicitantes brancos e minoritários.
Exemplo: pedidos individuais de hipotecas para imóveis unifamiliares realizados em 1990 em Boston:
- 28% dos solicitantes negros tiveram a hipoteca negada
- Apenas 9% dos solicitantes brancos tiveram a hipoteca negada
No entanto, essa comparação não responde à pergunta central, pois os solicitantes negros e brancos não eram necessariamente idênticos exceto pela raça.
É necessário, portanto, um método que compare as taxas de negação mantendo constantes as demais características dos solicitantes.

Variáveis Dependentes Binárias: o que muda?

Mas não usamos variáveis dummies anteriormente?

Sim, mas elas eram variáveis explicativas e não de interesse. Até agora, a variável dependente (\(Y\)) era contínua: nota média do distrito escolar; taxa de mortalidade no trânsito

E se \(Y\) for binária?

\(Y\) = entrar na faculdade ou não; \(X\) = notas no ensino médio, pontuação no SAT, variáveis demográficas
\(Y\) = a pessoa fuma ou não; \(X\) = imposto sobre cigarro, renda, variáveis demográficas
\(Y\) = pedido de hipoteca aprovado ou não; \(X\) = raça, renda, características do imóvel, estado civil

Revisão Estatística

Seja \(Y\) uma variável aleatória discreta que assume os valores 0 e 1.

\(Y\) é chamada de variável aleatória de Bernoulli.

\[ Y = \begin{cases} 1, & \text{com probabilidade } p,\\[2pt] 0, & \text{com probabilidade } 1-p, \end{cases} \]

Valor Esperado e Variância da Bernoulli

O valor esperado e a variância da distribuição Bernoulli são: \[E(Y) = p \qquad \text{e} \qquad \text{Var}(Y) = p(1-p)\] A variância depende de \(p\): é máxima em \(p = 0{,}5\) e zero nos extremos.

O que acontece com a regressão?

Nos modelos de MQO que estudamos anteriormente, a função de regressão populacional é dada por:\[E(Y \mid X_1,X_2,\ldots,X_k)\]
Quando \(Y_i \in \{0,1\}\), o valor esperado de \(Y\) é \(p\), ou seja, a probabilidade de \(Y=1\):\[E(Y) = \color{red}{0 \times Pr(Y=0)} + 1 \times Pr(Y=1) = Pr(Y=1)\]
Portanto, para variável binária \(Y\) temos:\[E(Y \mid X_1,X_2,\ldots,X_k)=Pr(Y=1 \mid X_1,X_2,\ldots,X_k)\]

O Modelo de Probabilidade Linear

Um ponto de partida natural é o modelo de regressão linear (Linear Probability Model - LPM) com um único regressor:

\[Y_i = \beta_0 + \beta_1 X_i + u_i\]

o que a reta \(\beta_0 + \beta_1 X\) significa quando \(Y\) é binária?
o que \(\beta_1\) significa quando \(Y\) é binária? \(\beta_1 =\frac{\Delta Y}{\Delta X}\)?
o que o valor predito \(\hat{Y}\) significa quando \(Y\) é binária?

O que a reta significa?

Modelo de Probabilidade Linear: \(Y_i = \beta_0 + \beta_1 X_i + u_i\)

Quando \(Y\) é binária: \[E(Y | X) = 1 \cdot \Pr(Y=1|X) + 0 \cdot \Pr(Y=0|X) = \Pr(Y=1|X)\]

Sob a hipótese \(E(u_i|X_i) = 0\):

\[E(Y_i|X_i) = \beta_0 + \beta_1 X_i\]

e assim:

\[\Pr(Y=1|X) = \beta_0 + \beta_1 X_i\]

O que o valor predito significa?

No LPM, o valor predito de \(Y\) é interpretado como a probabilidade prevista de que \(Y = 1\):

\[\Pr(\hat{Y}=1|X) = \hat{\beta}_0 + \hat{\beta}_1 X_i\]

O que \(\beta_1\) significa?

\(\beta_1\) é a mudança nessa probabilidade para uma variação em \(X\):

\[\beta_1 = \frac{\Pr(Y=1|X=x+\Delta x)-\Pr(Y=1|X=x)}{\Delta x}\]

Interpretação

Como \(\beta_1\) é a mudança de uma probabilidade, os resultados devem ser interpretados como variação em pontos percentuais (p. p.). Ou seja, a \(\Pr(Y=1|X)\) dado um aumento de \(\Delta x=1\) varia \(\beta_1\) pontos percentuais.

O caso das hipotecas

Contexto: o agente bancário avalia se o solicitante conseguirá pagar o empréstimo.
Indicador-chave: a razão P/I = pagamento mensal / renda mensal.
Variável dependente: deny = 1 se a solicitação foi negada, 0 se aprovada.
Padrão observado:
- Quando P/I < 0,3, quase ninguém é negado.
- Quando P/I > 0,4, a maioria é negada.

Obs: Gráfico com apenas 127 observações para facilitar visualização

Resultados

Valor predito para razão P/I = 0,3:

\[\hat{Y} = -0{,}080 + 0{,}604 \times 0{,}3 = 0{,}101\]

Calculando efeitos: aumento da razão P/I de 0,3 para 0,4:

\[\Delta\hat{Y} = 0{,}604 \times (0{,}4 - 0{,}3) = 0{,}061\]

O efeito de aumentar a razão P/I de 0,3 para 0,4 é elevar a probabilidade de negação em 0,061 (ou seja, 6,1 pontos percentuais).

Evidências de discriminação?

Probabilidade predita de negação para candidato negro com P/I = 0,3:\[Pr(deny =1)=-0,91+0,559\times 3 + 0,177 \times 1 = 0,254\]
Probabilidade predita de negação para candidato branco com P/I = 0,3: \[Pr(deny =1)=-0,91+0,559\times 3 = 0,077\]
Diferença = 0,177 = 17,7 pontos percentuais
O coeficiente em negro é significativo ao nível de 5%

Qual sua conclusão? Existe evidência de discriminação racial nesse mercado?

Resumo LPM

Vantagens:

Simples de estimar e interpretar
A inferência é a mesma da regressão múltipla (é necessário usar erros-padrão robustos à heterocedasticidade)
Mesmas hipóteses em relação a causalidade e efeitos tratamentos

Desvantagens:

O LPM afirma que a mudança na probabilidade prevista é a mesma para todos os valores de \(X\) (linearidade!)
Probabilidades preditas pelo LPM podem ser \(< 0\) ou \(> 1\)!

Essas desvantagens podem ser superadas por um modelo de probabilidade não linear: Probit e Logit (próxima aula).