Resumo
A covariância é uma medida de variação entre duas variáveis aleatórias. No caso em que os valores maiores de uma variável correspondem principalmente aos valores maiores da outra variável (e se o mesmo ocorrer com os valores menores), as variáveis tendem a mostrar comportamento semelhante. Isso significa que a covariância será positiva. Entretanto, se os valores maiores de uma variável correspondem principalmente aos valores menores da outra amostra, as variáveis tendem a mostrar comportamento oposto, e a covariância será negativa. Para compreender de forma precisa a relação entre essas variáveis, temos o índice de correlação, que possui valores entre -1 e 1, sendo correlações perfeitamente inversas ou diretas, respectivamente, e sem nenhuma relação em caso de 0.
Texto
Covariância
A covariância é uma medida de variação entre duas variáveis aleatórias.
No caso em que os valores maiores de uma variável correspondem principalmente aos valores maiores da outra variável (e se o mesmo ocorrer com os valores menores), as variáveis tendem a mostrar comportamento semelhante. Isso significa que a covariância será positiva. Entretanto, se os valores maiores de uma variável correspondem principalmente aos valores menores da outra amostra, as variáveis tendem a mostrar comportamento oposto, e a covariância será negativa.
Basicamente, a covariância nos mostra se as variações são de mesmo sentido (positivos ou negativas), ou se não existe nenhum tipo de associação entre os resultados e variações.
O sinal de covariância mostrará a tendência na relação linear entre as variáveis. Nesse contexto:
- se o sinal for negativo, significa que as variáveis têm relação oposta (e.g., enquanto uma aumenta, a outra diminui);
- já se o sinal for positivo, significa que a relação também é positiva, (e.g., enquanto uma aumenta, a outra também aumenta);
- por outro lado, uma covariância igual a zero indica completa independência entre as variáveis.
Vale ressaltar que covariâncias positivas e negativas não significam que as variáveis aumentam e diminuem na mesma magnitude, pois a magnitude da covariância é de difícil interpretação, posto que ela não é normalizada e depende das magnitudes das variáveis.
Podemos descrever a relação de covariância:
Em que E representa o operador valor esperado e X, Y representam as amostras em estudo.
Assim, as covariâncias populacional e amostral podem ser descritas como:
Por exemplo, uma amostra do conjunto A = 2, 1, 2, 5 e do conjunto B = 8, 10, 12, 14 possuem covariância de 3,333, pois, aplicando a equação que vimos acima, teremos:
Quando a covariância é positiva, duas variáveis tendem a variar na mesma direção; isto é, se uma sobe, a outra tende a subir e vice-versa. Quando a covariância é negativa, duas variáveis tendem a variar em direções opostas; isto é, se uma sobe a outra tende a cair e vice-versa. Quanto mais próxima de zero for a covariância, menor a possibilidade de se identificar um comportamento interdependente entre as variáveis.
Nas finanças, por exemplo, o CDI e a rentabilidade de um fundo em DI possuem covariância positiva. Isso significa que caminham na mesma direção. Diferentemente da taxa de juros e do mercado acionário, que possuem covariância negativa, ou seja, em que o aumento dos juros diminui os investimentos do mercado acionário.
Correlação
A covariância busca mostrar se há um comportamento de interdependência linear entre duas variáveis, mas é uma medida dimensional, sendo afetada pelas unidades de medida das séries X e Y. Para corrigir esse problema, chegou-se à medida de correlação, uma normalização da covariância representado por um número adimensional que varia entre -1 e 1.
Em suma, a correlação é uma padronização da covariância, nos permitindo ter a noção da intensidade dessa relação entre os resultados dessas variáveis. Podemos quantificar num determinado espectro, enquanto isso não era possivel na covariância.
A correlação (ou coeficiente de correlação linear de Pearson) populacional e amostral é dada pelas fórmulas:
Ou seja, a correlação é a covariância de X e Y (σXY ou sXY) dividida pela multiplicação dos desvios padrão de X e Y (σX*σY ou sX*sY). Na parte direita da equação, os termos n ou n-1 se cancelam.
A grande propriedade possuída pelo coeficiente de correlação é que ele varia entre -1 e 1, revelando a magnitude da relação entre os comportamentos de duas variáveis, sem ser afetado pelo problema dimensional presente na covariância, que é incapaz de indicar a força da correlação. A interpretação do coeficiente se dá da seguinte forma:
- se ele assumir o valor -1, significa que as variáveis possuem correlação negativa perfeita. Isto é, quando X aumenta em uma unidade, Y recua na mesma magnitude;
- quando a correlação é igual a zero, as variáveis não são linearmente correlacionadas. Ou seja, uma variação em X não está associada a uma variação em Y de forma linear;
- por outro lado, quando a correlação é de 1, significa que as variáveis possuem correlação perfeita. A variação de X em uma unidade causa uma variação idêntica em Y e no mesmo sentido.
r = 1: relação linear perfeita e positiva
r = 0: inexistência linear
r = -1: relação linear perfeita e negativa
r > 0: relação linear positiva
r < 0: relação linear negativa
A correlação ainda possui uma propriedade adicional: se X e Y forem multiplicados ou divididos pelo mesmo valor, ela não se altera.
Figura – Correlação forte e positiva.
Fonte: Elaborada pelo autor.
Figura – Correlação fraca e positiva.
Fonte: Elaborada pelo autor.
Figura – Correlação não linear.
Fonte: Elaborada pelo autor.
Exemplo:
Determinado investidor deseja saber se há uma correlação entre a taxa de câmbio (X) e o retorno do ativo Y. Para isso, pegou uma amostra da evolução da taxa de câmbio e do retorno do ativo no decorrer de três períodos.
Tabela - Evolução da taxa de câmbio.
Fonte: Elaborada pelo autor.
Qual o coeficiente de correlação das duas variáveis?
Resolução
Média de X e Y:
Covariância de X e Y:
Variância de X e Y:
Desvio padrão de X e Y:
Correlação:
Assim, há uma correlação de 0,826 entre a taxa de câmbio e o retorno do ativo Y.
Passo a Passo na HP 12C
1° Inserir primeiramente os dados de Y e depois os de X
Inserção:
a) [5,3] [Enter] [3,3] [∑+]
b) [6,5] [Enter] [3,4] [∑+]
c) [7,1] [Enter] [4,1] [∑+]
Para encontrar os desvios padrão:
[g][s] = 0,44 Desvio da Variável X
[x<>y} = 0,92 Desvio da Variável Y
Para encontrar a correlação:
[g] [x,r] [x<>y] = 0,83
Para encontrar a covariância basta multiplicar Dp X , Dp Y e Correlação:
Vamos usar a função STO para fazer o cálculo;
[g][s] = 0,44 STO 9
[x<>y}= 0,92 STO 8
[g] [x,r] [x<>y] =0,83
[RLC] [9] [X] ;[RLC] [8] [X] = 0,33
Veja que a HP não possui a função de covariância, porém, podemos usar a fórmula de nos diz que a correlação é a covariância dividido pelo produto dos desvios padrões de x e y. Assim, realizando a operação inversa, chegaremos na covariância.
Coeficiente de determinação
Outra medida importante de associação entre duas variáveis é o coeficiente de determinação (ou R²). Definindo uma equação ou modelo matemático que relaciona duas variáveis, o R² seria a medida que nos informa o quão capaz esse modelo é de explicar o comportamento de uma variável dado o comportamento da outra. Ou seja, trata-se de uma medida de ajustamento que varia de zero a 1, indicando, em porcentagem, o quanto um modelo matemático consegue explicar os valores observados. Assim, quanto maior for o R², mais explicativo será o modelo e melhor ele se ajusta à amostra.
O R² é utilizado para encontrar a probabilidade de eventos futuros dentro dos resultados previstos. Assim, caso mais amostras sejam adicionadas, o coeficiente mostrará a probabilidade de um novo ponto cair na linha estimada pela regressão. No entanto, é importante ressaltar que, mesmo quando há uma forte conexão entre as duas variáveis, a determinação não provará causalidade. Por exemplo, um estudo sobre aniversários que mostra que muitos aniversários acontecem dentro de um período em determinado mês não significa que a passagem do tempo ou a mudança das estações do ano influencia a ocorrência de gravidez.