Regressão Linear: prever um valor a partir de outro
A regressão linear vai além de identificar se duas variáveis se relacionam — ela quantifica essa relação e permite fazer previsões.
Renato Freitas
Atualizado em 27 de abril de 2026
O que é regressão linear simples
Regressão linear simples é uma técnica estatística que modela a relação entre duas variáveis quantitativas — uma variável explicativa (X) e uma variável resposta (Y) — por meio de uma linha reta. O objetivo é encontrar a reta que melhor representa a tendência dos dados, permitindo descrever e prever valores de Y a partir de X.
Exemplos práticos: prever o consumo de combustível a partir da distância percorrida, estimar o preço de uma casa a partir de sua área, ou calcular o peso esperado de uma criança com base em sua altura. A regressão não se limita à previsão — ela também quantifica o quanto Y muda, em média, para cada unidade de mudança em X.
🧮 Teste você mesmo — CalcSim
Quer mais recursos? Baixar app CalcSim IA
A equação da reta de regressão
A equação da reta de regressão é ŷ = a + bx, onde ŷ (y chapéu) é o valor previsto de Y para um dado X, a é o intercepto (onde a reta cruza o eixo Y) e b é o coeficiente angular (a inclinação da reta).
O coeficiente b é o mais importante para interpretação: indica quanto Y muda, em média, para cada aumento de 1 unidade em X. Se b = 2,5 em um modelo que prevê salário (Y) a partir de anos de experiência (X), significa que cada ano adicional de experiência está associado, em média, a R$ 2,5 mil a mais no salário.
O intercepto a indica o valor previsto de Y quando X = 0. Nem sempre tem interpretação prática — se X é anos de experiência, X = 0 pode ter sentido (recém-formado), mas em outros contextos X = 0 pode ser impossível.
- ŷ = a + bx (equação da reta de regressão)
- b = inclinação: mudança em Y para cada unidade de X
- a = intercepto: valor de Y quando X = 0
- b positivo: relação positiva; b negativo: relação inversa
Como calcular os coeficientes: Mínimos Quadrados
O método dos Mínimos Quadrados Ordinários (MQO) encontra os valores de a e b que minimizam a soma dos quadrados dos resíduos — as diferenças entre os valores reais de Y e os valores previstos ŷ. É por isso que a reta de regressão também é chamada de linha de melhor ajuste.
As fórmulas diretas para calcular b e a são: b = [Σ(xi - x̄)(yi - ȳ)] / Σ(xi - x̄)² e a = ȳ - b × x̄. Note que o numerador de b é a covariância (também presente na fórmula de Pearson) e o denominador é a variância de X.
Exemplo simplificado com 4 pontos: x = {1, 2, 3, 4}, y = {2, 4, 5, 4}. x̄ = 2,5, ȳ = 3,75. Calculando b = 0,7 e a = 1,0. A reta de regressão é ŷ = 1,0 + 0,7x. Para x = 5 (previsão), ŷ = 1,0 + 0,7×5 = 4,5.
- b = Σ(xi - x̄)(yi - ȳ) / Σ(xi - x̄)²
- a = ȳ - b × x̄
- Resíduo = yi - ŷi (diferença entre real e previsto)
R²: qual a qualidade do modelo
O coeficiente de determinação R² mede qual fração da variação total de Y é explicada pelo modelo de regressão. R² = 1 - (soma dos quadrados dos resíduos / soma total dos quadrados). Ele varia de 0 a 1.
R² = 0,80 significa que 80% da variação em Y é explicada pela variação em X através do modelo. Os 20% restantes são explicados por outros fatores não incluídos ou por variação aleatória. R² = 1 seria ajuste perfeito (todos os pontos exatamente na reta). R² = 0 indica que o modelo linear não explica nada da variação de Y.
R² é o quadrado do coeficiente de correlação de Pearson para regressão simples. Portanto, se r = 0,9, então R² = 0,81, indicando que 81% da variação de Y é explicada por X. Para avaliar se o R² é suficientemente alto, considere o contexto: em ciências sociais, R² = 0,30 pode ser razoável; em engenharia, pode ser insuficiente.
- R² = 0: modelo não explica nada
- R² = 0,5: modelo explica 50% da variação de Y
- R² = 1: ajuste perfeito (raro em dados reais)
- Para regressão simples: R² = r² (quadrado do coeficiente de Pearson)
Perguntas frequentes
Posso usar regressão para prever qualquer coisa?
A regressão linear é confiável para interpolar — prever Y dentro do intervalo de X já observado. Extrapolar, ou seja, prever Y para valores de X muito além dos dados de treinamento, é arriscado porque a relação linear pode não se manter fora do intervalo observado. Sempre informe o intervalo de X para o qual o modelo foi construído.
Qual a diferença entre regressão e correlação?
Correlação mede a força e direção da relação entre duas variáveis, mas é simétrica (correlação de X com Y é igual à de Y com X). Regressão é assimétrica e direcional: define qual variável é explicativa (X) e qual é a resposta (Y), e produz uma equação para fazer previsões. Use correlação para saber se há relação; use regressão para quantificá-la e fazer previsões.
Um R² alto garante que o modelo é bom?
Não necessariamente. Um R² alto pode ser resultado de overfitting (modelo muito complexo que memoriza os dados de treino mas erra nas previsões). Além disso, um modelo pode ter R² alto mas violar pressupostos importantes da regressão (como resíduos não aleatórios). Sempre visualize o gráfico de resíduos e verifique se os pressupostos do modelo são atendidos.
Este artigo foi útil para você?
Avalie com estrelas para nos ajudar a melhorar o conteúdo.
Faça login para avaliar este artigo.
Ainda tem dúvida?
O Professor IA explica passo a passo
Faça uma pergunta em linguagem natural e receba uma explicação personalizada sobre Estatística Básica — ou qualquer outro tópico.
Prefere resolver pelo celular?
Baixar o app grátis →Continue aprendendo