Estatística – Introdução

Progresso das Aulas

Medidas de posição central 

Na estatística população é o conjunto de membros, itens, ou possíveis eventos de um experimento. Por exemplo, moradores da cidade de São Paulo, os lados da face de um dado, ou a valorização de uma ação X na B3. A amostra é definida como um subconjunto de uma população. Como moradores de um bairro de São Paulo (amostra da População de São Paulo), ou até mesmo uma pequena amostra de cada bairro de São Paulo. Como conseguir a informação de toda população possui custo muito grande, se torna conveniente utilizar um grupo amostral para gerar uma estimativa da população, este artifício é muito utilizado em pesquisas eleitorais. Para realizar essas estimativas utiliza-se as medidas de posição central, desvio padrão e variância.

As medidas de posição central são utilizadas para representar um conjunto de dados como um todo, identificando as características apresentadas pelo conjunto. As medidas de posição central estudadas aqui são três: Média, Mediana e Moda.

 

Medidas de retorno: média aritmética e geométrica.

A média é a medida de centro mais comumente utilizada para variáveis quantitativas.

Definição de média: a média da amostra de uma variável (quando estamos em ambientes onde os fenômenos observados podem ser ligados a um dado conjunto de resultados possíveis utilizamos essa nomenclatura: variável. Variável pode ser entendida como qualquer quantidade, qualidade, ou de uma característica que pode possuir vários valores numéricos) é a soma dos valores observados em um dado dividido pelo número de observações.

Exemplo:

Algumas ordens de compra no homebroker demoraram os seguintes tempos (em min) para serem executadas: 20, 25, 30, 29, 21. Qual é a média?

Para apresentar as ideias e os cálculos, é conveniente representar as variáveis e os valores observados das variáveis por símbolos para evitar que a discussão se baseie em um conjunto específico de números. Então, se usarmos x para denotar a variável em questão, o símbolo xi denotará a observação dessa variável no conjunto de dados e n será o total de observações da variável.

Como temos cinco elementos, n = 5, a média será:

 

(x1 + x2 + x3 + x4 +x5) / n = (20 + 25 + 30 + 29 + 21) / 5 = 25 minutos.

 

Média Aritmética

Essa medida é obtida através da soma de todos os elementos de um conjunto e posterior divisão pelo número de elementos que o compõem:

Considere-se um conjunto composto por n elementos, a sua média aritmética é definida como:

 

 

Em que x representa cada elemento desse conjunto.

 

Exemplo prático no mercado:

Considerando que uma ação teve as seguintes oscilações nos primeiros 4 dias de um determinado mês:

 

  • 1º → + 6%
  • 2º → + 4%
  • 3º → − 2%
  • 4º → − 4%

 

Assim, podemos calcular o “retorno médio” desse ativo, calculando a média desses valores.

X = 6 + 4 – 2 – 4 / 4 = 1%

 

Vamos calcular a média aritmética de dois conjuntos distintos para compreender melhor as vantagens desta medida de posição central:

 

Um investidor possui uma carteira composta por 10 ativos, metade de cada setor (energia e financeiro). Calcule a média aritmética dos preços dos ativos de cada um dos setores e responda: qual setor apresenta preços mais elevados?

 

Energia (em R$): 1,55; 1,70; 1,75; 1,80; 1,85.

Financeiro (em R$): 1,60; 1,65; 1,70; 1,75; 1,75.

 

Basta somar os preços de todos os ativos de energia e dividir pelo número de ativos do setor:

 

 

O mesmo cálculo pode ser feito para o setor financeiro:

 

 

Portanto, em média dos ativos do setor de energia é maior que a do setor financeiro, sendo R$ 1,73 e R$ 1,69 respectivamente.

Observe que essa medida de distribuição central nos permite caracterizar os dois conjuntos, “financeiro” e “energia”, identificando as características apresentadas pelo conjunto como um todo. O fato do preço médio do setor energético ser superior ao do financeiro não significa que todos os ativos de um são mais valorizados que os do outro. Se olharmos para o conjunto de dados, observaremos que existe um ativo energético que é mais barato do que todos do setor financeiro, valendo apenas R$ 1,55. Contudo, o mesmo conjunto apresenta um ativo que é mais caro do que o ativo financeiro mais caro, puxando a média para cima e anulando o efeito do ativo energético mais baixo.

Porém, conforme vimos no nosso exemplo, apesar da média ser uma medida muito útil ela não informa todos os aspectos possuídos pelos dados. No exemplo, também seria útil obter mais informações sobre o quanto a média é uma medida representativa dos dois conjuntos de ativos. Foi juntamente essa indagação que levou os estatísticos a desenvolverem outras medidas de posição central que veremos mais à frente.

 

Média aritmética ponderada

Neste tipo de média aritmética, cada número que fará parte da média terá um peso. Este peso será multiplicado pelo número, que serão somados e divididos depois pela soma dos pesos. Veja o exemplo:

 

Número Peso
2

4

6

3

3

2

1

2

Média ponderada = (2 x 3) + (4 x 2) + (6 x 1) + (3 x 2) / 3 + 2 + 1 +2 = 26 / 8 = 3,25

 

Média Geométrica

Entre n valores, é a raiz de índice n do produto desses valores. Veja no exemplo, a média geométrica entre 1, 2 e 4:

 

 

Moda

A moda de uma amostra de uma variável, seja quantitativa, qualitativa, ou discreta, é o valor da variável que ocorre com a maior frequência em um conjunto de dados.

Definição da moda: determine a frequência de cada valor observado da variável em um conjunto de dados e observe a maior frequência. Então:

 

  1. Quando a maior frequência for 1 isso significará que nenhum valor ocorre mais de uma vez. Nesse caso a moda não existe.
  2. Se a maior frequência for maior que 1, então qualquer dos valores que ocorra com essa maior frequência é chamado de moda da amostra.

 

Quando medimos uma variável contínua, ou uma variável discreta com muitos valores diferentes, por exemplo, a quantidade negociada ou o preço dos ativos, todas as medidas podem ser diferentes. Nesse caso, a moda não existe, pois, cada valor observado terá frequência 1. No entanto, os dados podem ser agrupados em intervalos, classe, e a moda pode então ser definida em termos de frequências de classes. Com a variável quantitativa agrupada, a classe que será chamada de moda é o intervalo de classe com maior frequência.

Consideremos nosso exemplo apresentando anteriormente, qual é a moda de cada conjunto de dados?

 

Aqui você deve olhar para qual é o preço que aparece com mais frequência, isto é, a que mais se repete.

Se olharmos os preços dos ativos do setor de energia, veremos que existe apenas um ativo ao preço unitário de R$ 1,55, mas existem dois ativos com o preço de R$ 1,70, logo a moda deste conjunto é R$ 1,70.

Já para o setor financeiro, o valor que mais se repete é R$ 1,65. Logo, a moda desse conjunto de dados é R$ 1,65.

Quando olhamos só para a média dos dois conjuntos concluímos que os ativos do setor de energia eram mais caros. Agora, quando olhamos para a moda, observamos mais ativos do setor energético com preço mais elevado do que o do setor financeiro. Com essa nova medida já é possível compreender um pouco melhor as características possuídas por esses dois conjuntos de dados.

 

Mediana

A mediana de uma variável quantitativa é o valor da variável em um conjunto de dados que divide o conjunto de valores observados ao meio, de modo que os valores observados em uma metade são menores ou iguais ao valor médio e os valores observados na outra metade, de forma que seja maior ou igual ao valor médio. Para se obter a mediana da variável é preciso organizar os valores observados em um conjunto de dados em ordem crescente e depois determinamos o valor médio na lista ordenada. A definição de mediana: organize os valores observados da variável em um dado em ordem crescente. Existem duas possibilidades:

 

  1. Se o número de observação for ímpar, então a mediana da amostra é o valor observado exatamente no meio da lista ordenada.
  2. Se o número de observações for par, então a mediana da amostra é o número a meio caminho entre os dois valores observados no meio na lista ordenada.

 

Exemplo: algumas ordens de compra no homebroker demoraram os seguintes tempos (em min) para serem executadas:

20 25 30 29 21

Qual é a mediana?

 

Organizando os valores em ordem crescente, 20, 21, 25, 29, 30. O número de observações é ímpar, n = 5, então nossa mediana será a observação na posição n = 3, ou seja, 25 minutos.

Essa medida de tendência centra indica qual é o valor central de um conjunto de indivíduos quando estes são colocados em ordem crescente ou decrescente. A mediana é sempre o valor que se encontra no centro da sequência.

Vamos fazer uma pequena modificação no nosso exemplo. Para facilitara o cálculo da mediana eliminaremos o valor que se repete (esse procedimento foi feito apenas para facilitar o cálculo, o correto seria calcular a mediana com todos os preços, veremos posteriormente como fazer isso para o caso em que exista um número par de elementos no conjunto):

Energia (em R$) Financeiro (em R$)
1,55 1,60
1,70 1,65
1,75 1,70
1,80 1,75
1,85 1,80

Energia (em R$): 1,55 1,70 1,75 1,80 1,85

Financeiro (em R$): 1,60 1,65 1,70 1,75 1,80

 

Aprendemos a calcular a mediana para um conjunto composto por um número ímpar de elementos. E quando o número de elementos é par, como no nosso exemplo original, como se calcula a mediana?

Nesse caso, a mediana é dada pela média aritmética dos dois elementos centrais.

Repetimos abaixo os conjuntos de alturas que compõem o nosso exemplo original:

Energia (em R$) Financeiro (em R$)
1,55 1,60
1,70 1,65
1,70 1,65
1,75 1,70
1,80 1,75
1,85 1,80

Energia (em R$): 1,55 1,70 1,70 1,75 1,80 1,85

Financeiro (em R$): 1,60 1,65 1,65 1,70 1,75 1,80

 

Agora já sabemos como calcular a mediana:

 

 

A mediana para o setor financeiro é de 1,725 e para o setor energético é 1,675.

 

Medidas de dispersão: desvio padrão e variância.

A variabilidade pode ser definida em termos de quão perto os valores da amostra estão do meio da distribuição. Usando a média como a medida do meio da distribuição, a variância é definida como a diferença quadrática entre os valores e a média. O desvio padrão e a variância são comumente utilizados em finanças para definir riscos de investimentos. Pois as duas mostram a dispersão da amostra em torno da média. Por exemplo, um investimento com desvio padrão alto significa que esse ativo possui grande risco, pois a dispersão em torno da média de rendimento é alta.

Por exemplo, se em uma avaliação de um portfólio a média dos ativos foi 6, e os preços individuais foram 4, 5, 7, 9, e 5, então:

 

Nota Desvio da Média Desvio ao Quadrado
4 -2 4
5 -1 1
7 1 1
9 3 9
5 -1 1
Médias
6 0 3,2

 

No nosso exemplo dos setores (financeiro e energético) mostramos claramente que a média é uma medida muito útil e que ajuda a caracterizar um conjunto de elementos, mas que apresenta limitações. No conjunto dos ativos do setor energético, apesar da média ser mais alta que o setor financeiro, encontram-se ativos mais distantes da média.

A variância e o desvio padrão olham para a dispersão dos dados em torno da média, informando o modo como eles estão distribuídos.

Considere os exemplos abaixo:

 

Figura – Média. 

Fonte: Elaborado a partir de <https://nationaldayofreconciliation.com>.

 

Conforme podemos observar, ambos os conjuntos de dados possuem o mesmo número de elementos e a mesma média, no entanto, os dados do exemplo A se encontram bem mais dispersos em torno da média, de modo que a média não é um indicador muito fidedigno dos valores apresentados pelas observações. Por outro lado, os dados do exemplo B se encontram bem mais próximos da média. Ela consegue expressar de modo consideravelmente mais exato o comportamento desses dados.

Assim, seria desejável utilizar alguma medida que possa ser aplicada para comparar essa dispersão dos dados. A variância e o desvio padrão fazem exatamente isso.

 

Variância

Mede o grau de dispersão de um conjunto de dados e é dada pelos desvios em relação à média desse conjunto.

Exemplo:

Considerando que uma ação teve as seguintes oscilações nos primeiros 5 dias de um determinado mês:

 

  • 1º → + 3%
  • 2º → + 5%
  • 3º → + 7%
  • 4º → −2%
  • 5º → + 2%

 

Primeiro, precisamos efetuar o cálculo da média:

 

 

Vamos calcular agora a variância:

 

 

Assim, a Variância é de 11,5%.

 

Outra forma de se olhar a dispersão pode ser feita através dos quantis. A palavra “quantis” vem da palavra quantidade. Em termos simples, um quantil é quando uma amostra é dividida em subgrupos adjacentes de tamanho igual. Também pode se referir a dividir uma distribuição de probabilidade em áreas de igual probabilidade. A mediana é um quantil, a mediana é colocada em uma distribuição de probabilidade de modo que exatamente metade dos dados seja menor que a mediana e metade dos dados esteja acima da mediana. A mediana corta uma distribuição em duas áreas iguais e por isso, às vezes, é chamada de 2-quantil. Quartis também são quantis. Eles dividem a distribuição em quatro partes iguais. Os percentis são quantis que dividem uma distribuição em 100 partes iguais e os decis são quantis que dividem uma distribuição em 10 partes iguais. Alguns autores referem-se à mediana como quantil 0,5, o que significa que a proporção 0,5 (metade) estará abaixo da mediana e 0,5 estará acima dela. Essa maneira de definir quartis faz sentido se você estiver tentando encontrar um quantil particular em um conjunto de dados, ou seja, a mediana.

Exemplo:

Encontremos o número no conjunto de dados a seguir, onde 20% dos valores ficam abaixo dele e 80% ficam acima

 

1 3 5 6 9 11 12 13 19 21 22 32 35 36 45 44 55 68 79
80 81 88 90 91 92 100 112 113 114 120 121 132 145 146 149 150 155 180

 

O primeiro passo é ordenar os dados do menor para o maior. Os dados acima já estão em ordem crescente. Em seguida, contamos quantas observações o conjunto de dados possui, esse conjunto de dados específico tem 38 itens. O terceiro passo é converter qualquer porcentagem em um decimal para “q”, como estamos procurando o número em que 20% dos valores estão abaixo dele, isso significa que nosso q = 0,2.

Em nosso exemplo o n = 38, e descobrimos o q = 0,20, que aplicando na equação acima encontramos 7,8 = 0,20 * (38 + 1).

 

Desvio Padrão

O desvio padrão é simplesmente a raiz quadrada da variância. O desvio padrão é uma medida especialmente útil de variabilidade quando a distribuição é normal ou aproximadamente normal porque a proporção da distribuição dentro de um determinado número de desvios padrão da média pode ser calculada.

A variância possui um problema de construção como medida de dispersão de dados: ela apresenta uma unidade de medida igual ao quadrado da unidade de medida dos dados originais. Esse problema é resolvido extraindo-se a raiz quadrada da variância, o que chamamos de desvio padrão.

No mercado financeiro, em geral é esse o valor que é chamado de volatilidade de um ativo e utilizado como principal medida de risco de se investir em determinado ativo.

Quais dos dois ativos abaixo possuem maior retorno?

 

Data PETR4 VALE5
07/07 -4% -2%
08/07 -3% -1%
09/07 +1% +1%
10/07 +6% -2%
11/07 -5% -1%

 

 

Ou seja, o retorno esperado nas duas carteiras são os mesmos. Qual ação escolher então?

Um investidor racional, diante de dois ativos similares com mesmo retorno, irá escolher o de menor risco. Para isso, devemos calcular o Desvio Padrão de cada ativo.

 

Cálculo do Desvio padrão para PETR4

 

 

Cálculo do Desvio padrão para VALE5

 

 

Assim podemos afirmar que a ação da PETR4 possui um RISCO MAIOR para o investidor, por apresentar um desvio padrão maior.

Nesse caso, o investidor racional irá optar em comprar ações da VALE5.

 

Cálculo da correlação e covariância.

 

Covariância

Em geral, observa-se que, quando os juros sobem, os preços das ações caem. Esse comportamento sugere que há uma covariância negativa entre as variáveis taxa de juros e preços de ações.

A covariância é uma medida da variação entre duas variáveis aleatórias. No caso onde os valores maiores de uma variável correspondem principalmente aos valores maiores da outra variável, e se o mesmo ocorrer com os valores menores, as variáveis tendem a mostrar comportamento semelhante. Isso significa que a covariância será positiva. Entretanto, se os valores maiores de uma variável correspondem principalmente aos valores menores da outra amostra, as variáveis tendem a mostrar comportamento oposto, a covariância será negativa.

O sinal da covariância mostrará a tendência na relação linear entre as variáveis, se o sinal for negativo significa que as variáveis têm relação oposta, i.e. enquanto uma sobe a outra cai, e se o sinal for positivo significa que o relação positiva, i.e. enquanto uma sobe a outra também sobe. Vale ressaltar que isto não significa que sobem e caem na mesma magnitude, pois a magnitude da covariância é de difícil interpretação porque ela não é normalizada, dependendo das magnitudes das variáveis.

A versão normalizada da covariância, no entanto, o coeficiente de correlação mostra por sua magnitude a força da relação linear. Resumindo:

 

Onde E representa o operador valor esperado e X, Y, representam as amostras em estudo.

Alternativamente, a covariância poderia ser descrita como:

 

SAIBA MAIS

O símbolo que utilizamos acima, E[ ] é o valor esperado, ele é uma propriedade útil de qualquer variável aleatória. Geralmente notado como E (X), o valor esperado pode ser calculado pela somatória dos valores distintos que a variável aleatória pode assumir. O símbolo E(X) lê-se valor esperado de X.

 

Por exemplo, o conjunto A = 2,1, 2,5, 3,6, 4,0 e o conjunto B = 8, 10, 12, 14, possuem covariância de 2,27, pois aplicando a equação que vimos acima teremos:

 

Cov (A,B) = (2.1-3.05)(8-11)+(2.5-3.05)(10-11)+(3.6-3.05)(12-11)+(4.0-3.05)(14-11) /(4-1)

=(-1)(-3) + (-0.6)(-1)+(0.5)(1)+(0.9)(3) / 3 =  3 + 0.6 + 0.5 + 2.7 / 3

= 6.8/3 = 2,27

 

Quando a covariância é positiva, duas variáveis tendem a variar na mesma direção; isto é, se uma sobe, a outra tende a subir e vice-versa. Quando a covariância é negativa, duas variáveis tendem a variar em direções opostas; isto é, se uma sobe a outra tende a cair e vice-versa. Quanto mais próxima de zero for a covariância, menor a possibilidade de se identificar um comportamento interdependente entre as variáveis.

Nas finanças, por exemplo, o CDI e a rentabilidade de um fundo em DI possuem covariância positiva, e isto significa que caminham na mesma direção. Diferentemente da taxa de juros e o mercado acionário, que possuem covariância negativa, isto significa que o aumento dos juros diminui os investimentos do mercado acionário.

 

Correlação

A covariância busca mostrar se há um comportamento de interdependência linear entre duas variáveis.

Porém, a covariância é uma medida dimensional, sendo afetada pelas unidades de medida das séries X e Y. Para corrigir esse problema da covariância, chegou-se à medida de correlação que é um número adimensional que varia entre -1 e 1 (inclusive).

A correlação (ou coeficiente de correlação linear de Pearson) é dada pela fórmula.

 

 

 

O coeficiente de correlação mostra se há relação linear entre duas séries de dados X e Y. Se o coeficiente de correlação for igual a 1, significa que existe relação linear perfeita entre X e Y, de tal forma que se X aumenta, Y aumenta na mesma proporção também.

Se o coeficiente de correlação for igual a -1 significa que existe relação linear perfeita entre X e Y, de tal forma que se X aumenta, Y diminui na mesma proporção também.

Quando a correlação é zero, não existe relação de linearidade entre as variáveis X e Y.

 

Figura – Correlação forte e positiva.

Fonte: Elaborado pelo autor.

 

Figura – Correlação fraca e positiva.

Fonte: Elaborado pelo autor.

Figura – Correlação não linear.

Fonte: Elaborado pelo autor.

 

A grande propriedade possuída pelo coeficiente de correlação é que ele varia entre -1 e 1. Assim, se ele assumir o valor -1 significa que as variáveis possuem correlação negativa perfeita. Isto é, quando X aumenta em uma unidade, Y recua na mesma magnitude. Quando a correlação é igual a zero as variáveis não são auto correlacionadas. Ou seja, uma variação em X não está associada a uma variação em Y. Por outro lado, quando a correlação é de 1, significa que as variáveis possuem correlação perfeita. A variação de X em uma unidade causa uma variação idêntica em Y e no mesmo sentido.

 

 

A correlação ainda possui uma propriedade adicional: se X e Y forem multiplicados ou divididos pelo mesmo valor, ela não se altera.

 

COMENTÁRIO

Existe também a correlação negativa, que se dá nos mesmos moldes da correlação positiva, porém os pontos agrupados formam uma linha decrescente.

 

Determinado investidor deseja saber se a taxa de câmbio (X) influencia no retorno do ativo Y. Dada a evolução da taxa de câmbio e do retorno do ativo no decorrer de três períodos, calcule o coeficiente de correlação existente entre eles:

Período Cambio(X) Retorno de Y
1 3.3 5.1
2 3.5 5.9
3 3.6 6.5

Média de X:

 

 

Média de Y:

 

 

Covariância de X e Y:

Variância de X e Y:

 

Correlação:

 

Distribuição Normal e Intervalo de Confiança

A distribuição normal é a mais conhecida e importante distribuição estatística. Essa distribuição tem formato de sino, unimodal e simétrica em relação à média. Isso significa dizer que a média, mediana e a moda de uma distribuição normal são iguais. Essas características fazem com que a Normal seja a distribuição mais utilizada para modelar fenômenos naturais.

Por se tratar de dados amostrais, o intervalo de confiança nos mostra o quão perto do parâmetro real as estimativas estão. Como por exemplo um intervalo de 96% de confiança, significa que 96% dos intervalos de confiança dos dados analisados tem o valor do parâmetro real. Utilizamos o intervalo de confiança para sabermos se os resultados encontrados são significativos, os intervalos mais comuns são: 90%, 95% e 99%.

 

Figura – Distribuição Normal Padrão.

Fonte: Elaborado a partir de  inf.ufsc.br.


Doutor em Economia pela Universidade Federal de Santa Catarina. Mestre em Economia Aplicada pela Universidade Federal de Pelotas. É economista, especializado em Finanças pela Universidade Federal de Minas Gerais. Atuou como Analista e Controller. Pesquisa efeitos spillover e herd behavior no mercado de ações. Produz estudos sobre basis risk no mercado de derivativos.
Já é registrado?
Esqueceu a senha?
Perdeu sua senha? Digite o seu nome de usuário ou endereço de e-mail. Iremos enviar um link de recuperação para o seu e-mail.
We do not share your personal details with anyone.
Pressione F11 para tela cheia
Insira no mínimo 3 caracteres.
Nenhum resultado.
Suporte? Clique aqui.