Covariância e Correlação

Resumo

A covariância é uma medida de variação entre duas variáveis aleatórias. No caso em que os valores maiores de uma variável correspondem principalmente aos valores maiores da outra variável (e se o mesmo ocorrer com os valores menores), as variáveis tendem a mostrar comportamento semelhante. Isso significa que a covariância será positiva. Entretanto, se os valores maiores de uma variável correspondem principalmente aos valores menores da outra amostra, as variáveis tendem a mostrar comportamento oposto, e a covariância será negativa. Para compreender de forma precisa a relação entre essas variáveis, temos o índice de correlação, que possui valores entre -1 e 1, sendo correlações perfeitamente inversas ou diretas, respectivamente, e sem nenhuma relação em caso de 0.

Texto

Covariância

A covariância é uma medida de variação entre duas variáveis aleatórias.

No caso em que os valores maiores de uma variável correspondem principalmente aos valores maiores da outra variável (e se o mesmo ocorrer com os valores menores), as variáveis tendem a mostrar comportamento semelhante. Isso significa que a covariância será positiva. Entretanto, se os valores maiores de uma variável correspondem principalmente aos valores menores da outra amostra, as variáveis tendem a mostrar comportamento oposto, e a covariância será negativa.

Basicamente, a covariância nos mostra se as variações são de mesmo sentido (positivos ou negativas), ou se não existe nenhum tipo de associação entre os resultados e variações.

O sinal de covariância mostrará a tendência na relação linear entre as variáveis. Nesse contexto:

se o sinal for negativo, significa que as variáveis têm relação oposta (e.g., enquanto uma aumenta, a outra diminui);
já se o sinal for positivo, significa que a relação também é positiva, (e.g., enquanto uma aumenta, a outra também aumenta);
por outro lado, uma covariância igual a zero indica completa independência entre as variáveis.

Vale ressaltar que covariâncias positivas e negativas não significam que as variáveis aumentam e diminuem na mesma magnitude, pois a magnitude da covariância é de difícil interpretação, posto que ela não é normalizada e depende das magnitudes das variáveis.

Podemos descrever a relação de covariância:

Em que E representa o operador valor esperado e X, Y representam as amostras em estudo.

Assim, as covariâncias populacional e amostral podem ser descritas como:

Por exemplo, uma amostra do conjunto A = 2, 1, 2, 5 e do conjunto B = 8, 10, 12, 14 possuem covariância de 3,333, pois, aplicando a equação que vimos acima, teremos:

Quando a covariância é positiva, duas variáveis tendem a variar na mesma direção; isto é, se uma sobe, a outra tende a subir e vice-versa. Quando a covariância é negativa, duas variáveis tendem a variar em direções opostas; isto é, se uma sobe a outra tende a cair e vice-versa. Quanto mais próxima de zero for a covariância, menor a possibilidade de se identificar um comportamento interdependente entre as variáveis.

Nas finanças, por exemplo, o CDI e a rentabilidade de um fundo em DI possuem covariância positiva. Isso significa que caminham na mesma direção. Diferentemente da taxa de juros e do mercado acionário, que possuem covariância negativa, ou seja, em que o aumento dos juros diminui os investimentos do mercado acionário.

Correlação

A covariância busca mostrar se há um comportamento de interdependência linear entre duas variáveis, mas é uma medida dimensional, sendo afetada pelas unidades de medida das séries X e Y. Para corrigir esse problema, chegou-se à medida de correlação, uma normalização da covariância representado por um número adimensional que varia entre -1 e 1.

Em suma, a correlação é uma padronização da covariância, nos permitindo ter a noção da intensidade dessa relação entre os resultados dessas variáveis. Podemos quantificar num determinado espectro, enquanto isso não era possivel na covariância.

A correlação (ou coeficiente de correlação linear de Pearson) populacional e amostral é dada pelas fórmulas:

Ou seja, a correlação é a covariância de X e Y (σXY ou sXY) dividida pela multiplicação dos desvios padrão de X e Y (σX*σY ou sX*sY). Na parte direita da equação, os termos n ou n-1 se cancelam.

A grande propriedade possuída pelo coeficiente de correlação é que ele varia entre -1 e 1, revelando a magnitude da relação entre os comportamentos de duas variáveis, sem ser afetado pelo problema dimensional presente na covariância, que é incapaz de indicar a força da correlação. A interpretação do coeficiente se dá da seguinte forma:

se ele assumir o valor -1, significa que as variáveis possuem correlação negativa perfeita. Isto é, quando X aumenta em uma unidade, Y recua na mesma magnitude;
quando a correlação é igual a zero, as variáveis não são linearmente correlacionadas. Ou seja, uma variação em X não está associada a uma variação em Y de forma linear;
por outro lado, quando a correlação é de 1, significa que as variáveis possuem correlação perfeita. A variação de X em uma unidade causa uma variação idêntica em Y e no mesmo sentido.

r = 1: relação linear perfeita e positiva

r = 0: inexistência linear

r = -1: relação linear perfeita e negativa

r > 0: relação linear positiva

r < 0: relação linear negativa

A correlação ainda possui uma propriedade adicional: se X e Y forem multiplicados ou divididos pelo mesmo valor, ela não se altera.

Figura – Correlação forte e positiva.

Fonte: Elaborada pelo autor.

Figura – Correlação fraca e positiva.

Fonte: Elaborada pelo autor.

Figura – Correlação não linear.

Fonte: Elaborada pelo autor.

Exemplo:

Determinado investidor deseja saber se há uma correlação entre a taxa de câmbio (X) e o retorno do ativo Y. Para isso, pegou uma amostra da evolução da taxa de câmbio e do retorno do ativo no decorrer de três períodos.

Tabela - Evolução da taxa de câmbio.

Fonte: Elaborada pelo autor.

Qual o coeficiente de correlação das duas variáveis?

Resolução

Média de X e Y:

Covariância de X e Y:

Variância de X e Y:

Desvio padrão de X e Y:

Correlação:

Assim, há uma correlação de 0,826 entre a taxa de câmbio e o retorno do ativo Y.

Passo a Passo na HP 12C

1° Inserir primeiramente os dados de Y e depois os de X

Inserção:

a) [5,3] [Enter] [3,3] [∑+]

b) [6,5] [Enter] [3,4] [∑+]

c) [7,1] [Enter] [4,1] [∑+]

Para encontrar os desvios padrão:

[g][s] = 0,44 Desvio da Variável X

[x<>y} = 0,92 Desvio da Variável Y

Para encontrar a correlação:

[g] [x,r] [x<>y] = 0,83

Para encontrar a covariância basta multiplicar Dp X , Dp Y e Correlação:

Vamos usar a função STO para fazer o cálculo;

[g][s] = 0,44 STO 9

[x<>y}= 0,92 STO 8

[g] [x,r] [x<>y] =0,83

[RLC] [9] [X] ;[RLC] [8] [X] = 0,33

Veja que a HP não possui a função de covariância, porém, podemos usar a fórmula de nos diz que a correlação é a covariância dividido pelo produto dos desvios padrões de x e y. Assim, realizando a operação inversa, chegaremos na covariância.

Coeficiente de determinação

Outra medida importante de associação entre duas variáveis é o coeficiente de determinação (ou R²). Definindo uma equação ou modelo matemático que relaciona duas variáveis, o R² seria a medida que nos informa o quão capaz esse modelo é de explicar o comportamento de uma variável dado o comportamento da outra. Ou seja, trata-se de uma medida de ajustamento que varia de zero a 1, indicando, em porcentagem, o quanto um modelo matemático consegue explicar os valores observados. Assim, quanto maior for o R², mais explicativo será o modelo e melhor ele se ajusta à amostra.

O R² é utilizado para encontrar a probabilidade de eventos futuros dentro dos resultados previstos. Assim, caso mais amostras sejam adicionadas, o coeficiente mostrará a probabilidade de um novo ponto cair na linha estimada pela regressão. No entanto, é importante ressaltar que, mesmo quando há uma forte conexão entre as duas variáveis, a determinação não provará causalidade. Por exemplo, um estudo sobre aniversários que mostra que muitos aniversários acontecem dentro de um período em determinado mês não significa que a passagem do tempo ou a mudança das estações do ano influencia a ocorrência de gravidez.