Correlação: descobrir se duas variáveis estão relacionadas
Correlação mede a força e a direção da relação linear entre duas variáveis. É a primeira ferramenta para entender se duas grandezas variam juntas.
Renato Freitas
Atualizado em 27 de abril de 2026
O que é correlação
Correlação é uma medida estatística que descreve se e com que intensidade duas variáveis quantitativas variam juntas. Quando a temperatura sobe e o consumo de sorvete aumenta, há correlação positiva. Quando o nível de estudo aumenta e a taxa de desemprego tende a cair, há correlação negativa. Quando o número de sapatos de uma pessoa não tem relação com sua renda, há correlação nula.
A ferramenta mais comum para medir correlação linear é o coeficiente de correlação de Pearson (r), que resume essa relação em um único número entre -1 e 1.
🧮 Teste você mesmo — CalcSim
Quer mais recursos? Baixar app CalcSim IA
Coeficiente de Pearson: de -1 a 1
O coeficiente de Pearson r é calculado a partir das covariâncias e desvios padrão das duas variáveis. Sua fórmula é r = Σ[(xi - x̄)(yi - ȳ)] / √[Σ(xi - x̄)² × Σ(yi - ȳ)²]. O resultado sempre fica entre -1 e 1.
Valores de r próximos de 1 indicam correlação positiva forte: quando X aumenta, Y tende a aumentar proporcionalmente. Valores próximos de -1 indicam correlação negativa forte: quando X aumenta, Y tende a diminuir. Valores próximos de 0 indicam que não há relação linear entre as variáveis.
- r = 1,0: correlação positiva perfeita
- r entre 0,7 e 1,0: correlação positiva forte
- r entre 0,3 e 0,7: correlação positiva moderada
- r entre -0,3 e 0,3: correlação fraca ou nula
- r entre -0,7 e -0,3: correlação negativa moderada
- r = -1,0: correlação negativa perfeita
Correlação não implica causalidade
Este é um dos princípios mais importantes — e mais frequentemente ignorados — da estatística. Duas variáveis podem estar fortemente correlacionadas sem que uma cause a outra. O consumo de sorvete e afogamentos são positivamente correlacionados, não porque sorvete cause afogamentos, mas porque ambos têm uma causa comum: o calor do verão. Essa variável oculta se chama variável de confusão ou confundidora.
Outro fenômeno famoso são as correlações espúrias: o número de filmes com Nicolas Cage lançados por ano está correlacionado com mortes por afogamento em piscinas nos EUA. Obviamente, um não causa o outro — é coincidência estatística.
Para estabelecer causalidade de forma rigorosa, são necessários experimentos controlados (ensaios clínicos randomizados, por exemplo) ou métodos causais específicos como o de diferenças-em-diferenças. A correlação é um indício, não uma prova de causa e efeito.
Limitações do coeficiente de Pearson
O coeficiente de Pearson mede apenas relações lineares. Duas variáveis podem ter relação forte e não linear (como uma curva em U) e ainda assim produzir r próximo de 0. Sempre visualize os dados em um gráfico de dispersão antes de confiar apenas no número.
Pearson é também sensível a outliers: um único ponto extremo pode elevar ou reduzir drasticamente o coeficiente. Para dados com muitos outliers ou que não sigam distribuição normal, o coeficiente de Spearman (baseado em postos/ranks) é uma alternativa mais robusta.
Perguntas frequentes
Correlação de 0,6 é forte ou fraca?
Depende do contexto. Em ciências sociais e psicologia, r = 0,6 é considerado forte. Em física experimental, pode ser fraco. O que importa é comparar com o contexto da área e entender se a correlação é suficiente para os objetivos da análise. Sempre avalie o tamanho da amostra também: com amostras grandes, mesmo correlações pequenas podem ser estatisticamente significativas mas praticamente irrelevantes.
Qual a diferença entre correlação e covariância?
A covariância mede se duas variáveis variam juntas, mas seu valor depende das unidades de medida (difícil de comparar). O coeficiente de Pearson é a covariância normalizada pelos desvios padrão, resultando em um número adimensional entre -1 e 1 que permite comparação direta entre diferentes pares de variáveis.
Quando usar correlação de Spearman em vez de Pearson?
Use Spearman quando os dados não seguem distribuição normal, quando há outliers significativos, quando os dados são ordinais (rankings) ou quando a relação entre as variáveis parece não linear mas ainda monótona (sempre crescente ou sempre decrescente, mesmo que em ritmo variável). Spearman é mais robusto, mas Pearson é mais poderoso quando seus pressupostos são atendidos.
Este artigo foi útil para você?
Avalie com estrelas para nos ajudar a melhorar o conteúdo.
Faça login para avaliar este artigo.
Ainda tem dúvida?
O Professor IA explica passo a passo
Faça uma pergunta em linguagem natural e receba uma explicação personalizada sobre Estatística Básica — ou qualquer outro tópico.
Prefere resolver pelo celular?
Baixar o app grátis →Continue aprendendo