Estatística – Introdução

Progresso das Aulas

Medidas de Posição Central 

Na Estatística, população é o conjunto de membros, itens ou possíveis eventos de um experimento. Por exemplo, moradores da cidade de São Paulo, os lados da face de um dado ou a valorização de uma ação X na B3. A amostra é definida como um subconjunto de uma população. Por exemplo, os moradores de um bairro de São Paulo (amostra da população de São Paulo) ou até mesmo uma pequena amostra de cada bairro na região. Como a obtenção dos dados de toda população possui custo muito grande, torna-se conveniente utilizar um grupo amostral a fim de gerar uma estimativa da população. Esse artifício é muito utilizado em pesquisas eleitorais, por exemplo. Para realizar essas estimativas, utiliza-se as medidas de posição central, desvio padrão e variância.

amostragem aleatória simples é a técnica de amostragem na qual todos os elementos que compõem o universo e estão descritos no marco amostral possuem probabilidade igual de serem selecionados para a amostra.

As medidas de posição central são utilizadas para representar um conjunto de dados como um todo, identificando as características apresentadas pelo conjunto. As medidas de posição central estudadas aqui são três: média, mediana e moda.

 

Medidas de Retorno: Média Aritmética e Geométrica

A média é a medida de centro mais comumente utilizada para variáveis quantitativas.

Definição de média: a média da amostra de uma variável é a soma dos valores observados em um dado dividido pelo número de observações. Ressaltando que, quando estamos em ambientes onde os fenômenos observados podem ser ligados a um dado conjunto de resultados possíveis, utilizamos o conceito de variável, que pode ser entendida como qualquer quantidade, qualidade ou uma característica que pode possuir vários valores numéricos.

Exemplo:

Algumas ordens de compra no Home Broker demoraram os seguintes tempos (em minutos) para serem executadas: 20, 25, 30, 29, 21. Qual é a média?

Para apresentar as ideias e os cálculos, é conveniente representar as variáveis e os valores observados das variáveis por meio de símbolos, a fim de evitar que a discussão se baseie em um conjunto específico de números. Então, se usarmos x para denotar a variável em questão, o símbolo xi indicará a observação dessa variável no conjunto de dados, e n será o total de observações da variável.

Como temos cinco elementos, n = 5, a média será:

 

(x1 + x2 + x3 + x4 +x5) / n = (20 + 25 + 30 + 29 + 21) / 5 = 25 minutos.

 

Média Aritmética

Essa medida é obtida através da soma de todos os elementos de um conjunto e posterior divisão pelo número de elementos que o compõem.

Considere-se um conjunto composto por n elementos, a sua média aritmética é definida como:

 

 

Em que x representa cada elemento desse conjunto.

 

Exemplo prático no mercado:

Considerando que uma ação teve as seguintes oscilações nos primeiros 4 dias de um determinado mês:

 

  • 1º → + 6%
  • 2º → + 4%
  • 3º → − 2%
  • 4º → − 4%

 

Assim, podemos calcular o “retorno médio” desse ativo, calculando a média desses valores:

 

X = 6 + 4 – 2 – 4 / 4 = 1%

 

Vamos calcular a média aritmética de dois conjuntos distintos para compreender melhor as vantagens dessa medida de posição central:

 

Um investidor possui uma carteira composta por 10 ativos, metade de cada setor (energia e financeiro). Calcule a média aritmética dos preços dos ativos de cada um dos setores e responda: qual setor apresenta preços mais elevados?

 

Energia (em R$): 1,55; 1,70; 1,75; 1,80; 1,85.

Financeiro (em R$): 1,60; 1,65; 1,70; 1,75; 1,75.

 

Basta somar os preços de todos os ativos de energia e dividir pelo número de ativos do setor:

 

 

 

O mesmo cálculo pode ser feito para o setor financeiro:

 

 

Portanto, a média dos ativos do setor de energia é maior que a do setor financeiro, sendo R$ 1,73 e R$ 1,69 respectivamente.

Observe que essa medida de distribuição central nos permite caracterizar os dois conjuntos, “financeiro” e “energia”, identificando as características apresentadas pelo conjunto como um todo. O fato de o preço médio do setor energético ser superior ao do financeiro não significa que todos os ativos de um são mais valorizados que os do outro. Se olharmos para o conjunto de dados, observaremos que existe um ativo energético que é mais barato que todos do setor financeiro, valendo apenas R$ 1,55. Contudo, o mesmo conjunto apresenta um ativo que é mais caro do que o ativo financeiro mais caro, puxando a média para cima e anulando o efeito do ativo energético mais baixo.

Porém, conforme vimos no nosso exemplo, apesar de a média ser uma medida muito útil, ela não informa todos os aspectos presentes nos dados. No exemplo, também seria útil obter mais informações sobre o quanto a média é uma medida representativa dos dois conjuntos de ativos, pois foi justamente essa indagação que levou os estatísticos a desenvolverem outras medidas de posição central que veremos mais à frente.

 

Média Aritmética Ponderada

Nesse tipo de média aritmética, cada número que fará parte da média terá um peso. Esses pesos serão multiplicados pelo números, que serão somados e divididos depois pela soma dos pesos. Veja o exemplo:

 

NúmeroPeso
2

4

6

3

3

2

1

2

Média ponderada = (2 x 3) + (4 x 2) + (6 x 1) + (3 x 2) / 3 + 2 + 1 +2 = 26 / 8 = 3,25

 

Média Geométrica

Entre n valores, é a raiz de índice n do produto desses valores. Veja, no exemplo, a média geométrica entre 1, 2 e 4:

 

 

Moda

A moda de uma amostra de uma variável, seja quantitativa, qualitativa ou discreta, é o valor da variável que ocorre com a maior frequência em um conjunto de dados.

Definição da moda: determine a frequência de cada valor observado da variável em um conjunto de dados e observe a maior frequência. Então:

 

  1. Quando a maior frequência for 1, isso significará que nenhum valor ocorre mais de uma vez. Nesse caso, a moda não existe.
  2. Se a maior frequência for maior que 1, então qualquer dos valores que ocorra com essa maior frequência é chamado de moda da amostra.

 

Quando medimos uma variável contínua ou uma variável discreta com muitos valores diferentes, por exemplo, a quantidade negociada ou o preço dos ativos, todas a medidas podem ser diferentes. Nesse caso, a moda não existe, pois cada valor observado terá frequência 1. No entanto, os dados podem ser agrupados em intervalos, classe, e a moda poderá então ser definida em termos de frequências de classes. Com a variável quantitativa agrupada, a classe que será chamada de moda é o intervalo de classe com maior frequência.

Consideremos nosso exemplo apresentando anteriormente: qual é a moda de cada conjunto de dados?

Aqui você deve olhar para qual é o preço que aparece com mais frequência, isto é, a que mais se repete.

Se olharmos os preços dos ativos do setor de energia, veremos que não existe um ativo com preço repetido, portanto não há moda nesse caso.

Já para o setor financeiro, o valor que mais se repete é R$ 1,75. Logo, a moda desse conjunto de dados é R$ 1,75.

Quando olhamos só para a média dos dois conjuntos, concluímos que os ativos do setor de energia são mais caros. Agora, quando olhamos para a moda, observamos que mais ativos do setor energético possuem preços mais elevados em comparação com o setor financeiro. Com essa nova medida, já é possível compreender um pouco melhor as características desses dois conjuntos de dados.

 

Mediana

A mediana de uma variável quantitativa é o valor da variável em um conjunto de dados que divide o conjunto de valores observados ao meio, de modo que os valores observados em uma metade são menores ou iguais ao valor médio, e os valores observados na outra metade são maiores ou iguais a este. Para se obter a mediana de uma variável, é preciso organizar os valores observados em um conjunto de dados em ordem crescente e depois determinar o valor médio na lista ordenada.

Definição de mediana: organize os valores observados na variável em um dado em ordem crescente. Existem duas possibilidades:

 

  1. Se o número de observação for ímpar, então a mediana da amostra é o valor observado exatamente no meio da lista ordenada.
  2. Se o número da observação for par, então a mediana da amostra é o número a meio caminho entre os dois valores observados no meio na lista ordenada.

 

Exemplo: Algumas ordens de compra no Home Broker demoraram os seguintes tempos (em minutos) para serem executadas:

2025302921

Qual é a mediana?

 

Organizando os valores em ordem crescente, 20, 21, 25, 29, 30. O número de observações é ímpar, n = 5, então nossa mediana será a observação na posição n = 3, ou seja, 25 minutos.

Essa medida de tendência indica qual é o valor central de um conjunto de indivíduos quando estes são colocados em ordem crescente ou decrescente. A mediana é sempre o valor que se encontra no centro da sequência.

Façamos uma pequena modificação no nosso exemplo e consideraremos que o último valor do ativo financeiro é agora R$ 1,80 e não mais R$ 1,75. Veremos posteriormente como proceder no caso em que exista um número par de elementos no conjunto:

Energia (em R$)Financeiro (em R$)
1,551,60
1,701,65
1,751,70
1,801,75
1,851,80

Energia (em R$): 1,55; 1,70; 1,75; 1,80; 1,85.

Financeiro (em R$): 1,60; 1,65; 1,70; 1,75; 1,80.

 

Aprendemos a calcular a mediana de um conjunto composto por um número ímpar de elementos. Mas quando o número de elementos for par, como se calcula a mediana?

Nesse caso, a mediana é dada pela média aritmética dos dois elementos centrais.

Repetimos abaixo os conjuntos de alturas que compõem o nosso exemplo original:

Energia (em R$)Financeiro (em R$)
1,551,60
1,701,65
1,701,65
1,751,70
1,801,75
1,851,80

Energia (em R$): 1,55; 1,70; 1,70; 1,75; 1,80; 1,85.

Financeiro (em R$): 1,60; 1,65; 1,65; 1,70; 1,75; 1,80.

 

Agora já sabemos como calcular a mediana:

 

 

A mediana para o setor financeiro é de 1,725 e para o setor energético é 1,675.

 

Medidas Separatrizes

São números que dividem a sequência ordenada de dados em partes que contêm a mesma quantidade de elementos da série. São exemplos: mediana, quartis, quintis, decis e percentis.

Quartis

Ao dividir a série ordenada em quatro partes, cada uma ficará com 25% de seus elementos. Os elementos que separam esses grupos são chamados de quartis. O primeiro quartil separa a sequência ordenada, deixando 25% de seus valores à esquerda e 75% de seus valores à direita. O segundo quartil separa a sequência ordenada, deixando 50% de seus valores à esquerda e 50% de seus valores à direita, e assim por diante.

Quintis

Ao dividir a série ordenada em cinco partes, cada uma ficará com 20% de seus elementos. O primeiro quintil separa a sequência ordenada, deixando 20% de seus valores à esquerda e 80% de seus valores à direita. De modo análogo são definidos os outros quintis.

Decis

Ao dividir a série ordenada em dez partes, cada uma ficará com 10% de seus elementos. O primeiro decil separa a sequência ordenada, de modo que 10% de seus valores ficam à esquerda e 90% de seus valores, à direita.

Percentis

Ao dividir a série ordenada em cem partes, cada uma ficará com 1% de seus elementos. O primeiro percentil separa a sequência ordenada, em que 1% de seus valores é disposto à esquerda e 99% de seus valores são dispostos à direita.

 

Variáveis Aleatórias Discretas versus Contínuas

Uma variável aleatória pode ser entendida como uma variável quantitativa cujo valor depende de fatores aleatórios. Exemplos: número de coroas obtido no lançamento de 2 moedas; número de itens defeituosos em uma amostra retirada, aleatoriamente, de um lote etc.

Variável aleatória discreta: os possíveis resultados estão contidos em um conjunto finito ou enumerável.

Variável aleatória contínua: os possíveis resultados abrangem todo um intervalo de números reais.

 

Medidas de Dispersão: Desvio Padrão e Variância

A variabilidade pode ser definida em termos de quão perto os valores da amostra estão do meio da distribuição. Usando a média como a medida do meio da distribuição, a variância é definida como a diferença quadrática entre os valores e a média. O desvio padrão e a variância são medidas comumente utilizadas em finanças para definir riscos de investimentos, pois mostram a dispersão da amostra em torno da média. Por exemplo, um investimento com desvio padrão alto significa que esse ativo possui grande risco, pois a dispersão em torno da média de rendimento é alta.

Por exemplo, se em uma avaliação de um portfólio a média dos ativos foi 6, e os preços individuais foram 4, 5, 7, 9, e 5, então:

 

NotaDesvio da MédiaDesvio ao Quadrado
4-24
5-11
711
939
5-11
Médias
603,2

 

No nosso exemplo dos setores (financeiro e energético), mostramos claramente que a média é uma medida muito útil e que ajuda a caracterizar um conjunto de elementos, mas que apresenta limitações. No conjunto dos ativos do setor energético, apesar de a média ser mais alta que a do setor financeiro, encontram-se ativos mais distantes da média.

A variância e o desvio padrão olham para a dispersão dos dados em torno da média, informando o modo como eles estão distribuídos.

Considere os exemplos abaixo:

 

Figura – Média. 

Fonte: Elaborada a partir de <https://nationaldayofreconciliation.com>.

 

Conforme podemos observar, ambos os conjuntos de dados possuem o mesmo número de elementos e a mesma média. No entanto, os dados do exemplo A se encontram bem mais dispersos em torno da média, de modo que esta não é um indicador muito fidedigno dos valores apresentados pelas observações. Por outro lado, os dados do exemplo B se encontram bem mais próximos da média, que expressa o comportamento desses dados de modo consideravelmente mais exato.

Assim, seria desejável utilizar alguma medida que possa ser aplicada a fim de comparar essa dispersão dos dados. A variância e o desvio padrão fazem exatamente isso.

 

Variância

Mede o grau de dispersão de um conjunto de dados e é dada pelos desvios em relação à média desse conjunto.

Exemplo:

Considerando que uma ação teve as seguintes oscilações nos primeiros 5 dias de um determinado mês:

 

  • 1º → + 3%
  • 2º → + 5%
  • 3º → + 7%
  • 4º → −2%
  • 5º → + 2%

 

Primeiro, precisamos efetuar o cálculo da média:

 

 

Vamos calcular agora a variância:

 

 

Assim, a variância é de 11,5%.

 

Outra forma de se olhar a dispersão pode ser feita através dos quantis. A palavra “quantis” vem da palavra quantidade. Em termos simples, um quantil é quando uma amostra é dividida em subgrupos adjacentes de tamanho igual. Também pode se referir à divisão de uma distribuição de probabilidade em áreas de igual probabilidade. A mediana é um quantil. Ela é colocada em uma distribuição de probabilidade de modo que exatamente metade dos dados seja menor que a mediana e a outra metade esteja acima desta. A mediana corta uma distribuição em duas áreas iguais e, por isso, às vezes é chamada de 2-quantil. Quartis também são quantis. Eles dividem a distribuição em quatro partes iguais. Os percentis são quantis que dividem uma distribuição em 100 partes iguais e os decis são quantis que dividem uma distribuição em 10 partes iguais. Alguns autores referem-se à mediana como quantil 0,5, o que significa que a proporção 0,5 (metade) estará abaixo da mediana e 0,5 estará acima dela. Essa maneira de definir quartis faz sentido se você estiver tentando encontrar um quantil particular em um conjunto de dados, ou seja, a mediana.

Exemplo:

Encontremos o número no conjunto de dados a seguir, no qual 20% dos valores ficam abaixo dele e 80% ficam acima:

 

135691112131921223235364544556879
808188909192100112113114120121132145146149150155180

 

O primeiro passo é ordenar os dados de modo crescente. Os dados acima já estão ordenados. Em seguida, contamos quantas observações o conjunto de dados possui. Esse conjunto de dados específico possui 38 itens. O terceiro passo é converter qualquer porcentagem em um decimal para “q”. Como estamos procurando o número em que 20% dos valores estão abaixo dele, isso significa que q = 0,2.

Em nosso exemplo, o n = 38, e descobrimos o q = 0,20. Aplicando na equação acima, encontramos 7,8 = 0,20 * (38 + 1).

 

Desvio Padrão

O desvio padrão é simplesmente a raiz quadrada da variância. O desvio padrão é uma medida especialmente útil de variabilidade quando a distribuição é normal ou aproximadamente normal, pois a proporção da distribuição dentro de um determinado número de desvios padrões da média pode ser calculada.

A variância possui um problema de construção como medida de dispersão de dados: ela apresenta uma unidade de medida igual ao quadrado da unidade de medida dos dados originais. Esse problema é resolvido extraindo-se a raiz quadrada da variância, o que chamamos de desvio padrão.

No mercado financeiro, em geral esse é o valor que é chamado de volatilidade de um ativo e utilizado como principal medida de risco de se investir em determinado ativo.

Quais dos dois ativos abaixo possuem maior retorno?

 

DataPETR4VALE5
07/07-4%-2%
08/07-3%-1%
09/07+1%+1%
10/07+6%-2%
11/07-5%-1%

 

 

Ou seja, o retorno esperado nas duas carteiras são os mesmos. Qual ação escolher então?

Um investidor racional, diante de dois ativos similares com mesmo retorno, irá escolher o de menor risco. Para isso, devemos calcular o desvio padrão de cada ativo.

 

Cálculo do desvio padrão para PETR4:

 

 

Cálculo do desvio padrão para VALE5: 

 

 

Assim podemos afirmar que a ação da PETR4 possui um risco maior para o investidor, pois apresenta um desvio padrão maior.

Nesse caso, o investidor racional irá optar em comprar ações da VALE5.

 

Cálculo de correlação e covariância

 

Covariância

Em geral, observa-se que, quando os juros sobem, os preços das ações caem. Esse comportamento sugere que há uma covariância negativa entre as variáveis taxa de juros e preços de ações.

A covariância é uma medida de variação entre duas variáveis aleatórias. No caso em que os valores maiores de uma variável correspondem principalmente aos valores maiores da outra variável (e se o mesmo ocorrer com os valores menores), as variáveis tendem a mostrar comportamento semelhante. Isso significa que a covariância será positiva. Entretanto, se os valores maiores de uma variável correspondem principalmente aos valores menores da outra amostra, as variáveis tendem a mostrar comportamento oposto, e a covariância será negativa.

O sinal de covariância mostrará a tendência na relação linear entre as variáveis. Se o sinal for negativo, significa que as variáveis têm relação oposta, i.e. enquanto uma aumenta, a outra diminui. Já se o sinal for positivo, significa que a relação também é positiva, i.e. enquanto uma aumenta, a outra também aumenta. Vale ressaltar que isso não significa que aumentam e diminuem na mesma magnitude, pois a magnitude da covariância é de difícil interpretação, posto que ela não é normalizada, dependendo das magnitudes das variáveis.

Na versão normalizada da covariância, no entanto, o coeficiente de correlação mostra, através de sua magnitude, a força da relação linear. Resumindo:

 

Em que E representa o operador valor esperado e X, Y  representam as amostras em estudo.

Alternativamente, a covariância poderia ser descrita como:

 

SAIBA MAIS

O símbolo que utilizamos acima, E[ ], é o valor esperado, uma propriedade útil de qualquer variável aleatória. Geralmente notado como E(X), o valor esperado pode ser calculado pela somatória dos valores distintos que a variável aleatória pode assumir. O símbolo E(X) é lido como valor esperado de X.

 

Por exemplo, o conjunto A = 2, 1, 2, 5 e o conjunto B = 8, 10, 12, 14 possuem covariância de 3,3, pois, aplicando a equação que vimos acima, teremos:

 

Cov (A,B) =

[(2-2,875)(8-11)+(1-2,875)(10-11)+(2-2,875)(12-11)+(5-2,875)(14-11)]/(4-1)
=[(-0,875)*(-3)+(-1,875)*(-1)+(-0,875)*(1)+(-2,125)*(3)]/3
= [2,625+1,875-0,875+6,375]/3
=10/3= 3,3

 

Quando a covariância é positiva, duas variáveis tendem a variar na mesma direção; isto é, se uma sobe, a outra tende a subir e vice-versa. Quando a covariância é negativa, duas variáveis tendem a variar em direções opostas; isto é, se uma sobe a outra tende a cair e vice-versa. Quanto mais próxima de zero for a covariância, menor a possibilidade de se identificar um comportamento interdependente entre as variáveis.

Nas finanças, por exemplo, o CDI e a rentabilidade de um fundo em DI possuem covariância positiva. Isso significa que caminham na mesma direção. Diferentemente da taxa de juros e do mercado acionário, que possuem covariância negativa, ou seja, em que o aumento dos juros diminui os investimentos do mercado acionário.

 

Correlação

A covariância busca mostrar se há um comportamento de interdependência linear entre duas variáveis.

Porém, a covariância é uma medida dimensional, sendo afetada pelas unidades de medida das séries X e Y. Para corrigir esse problema da covariância, chegou-se à medida de correlação, que é um número adimensional que varia entre -1 e 1. 

A correlação (ou coeficiente de correlação linear de Pearson) é dada pela fórmula:

 

 

 

O coeficiente de correlação mostra se há relação linear entre duas séries de dados X e Y. Se o coeficiente de correlação for igual a 1, significa que existe uma relação linear perfeita entre X e Y, de tal forma que se X aumenta, Y aumenta na mesma proporção também.

Se o coeficiente de correlação for igual a -1, significa que existe relação linear perfeita entre X e Y, de tal forma que se X aumenta, Y diminui na mesma proporção também.

Quando a correlação é zero, não existe relação de linearidade entre as variáveis X e Y.

 

Figura – Correlação forte e positiva.

Fonte: Elaborada pelo autor.

 

Figura – Correlação fraca e positiva.

Fonte: Elaborada pelo autor.

 

Figura – Correlação não linear.

Fonte: Elaborada pelo autor.

 

A grande propriedade possuída pelo coeficiente de correlação é que ele varia entre -1 e 1. Assim, se ele assumir o valor -1, significa que as variáveis possuem correlação negativa perfeita. Isto é, quando X aumenta em uma unidade, Y recua na mesma magnitude. Quando a correlação é igual a zero, as variáveis não são autocorrelacionadas. Ou seja, uma variação em X não está associada a uma variação em Y. Por outro lado, quando a correlação é de 1, significa que as variáveis possuem correlação perfeita. A variação de X em uma unidade causa uma variação idêntica em Y e no mesmo sentido.

 

 

A correlação ainda possui uma propriedade adicional: se X e Y forem multiplicados ou divididos pelo mesmo valor, ela não se altera.

 

COMENTÁRIO

Existe também a correlação negativa, que ocorre nos mesmos moldes da correlação positiva, porém os pontos agrupados formam uma linha decrescente.

 

Determinado investidor deseja saber se a taxa de câmbio (X) influencia no retorno do ativo Y. Dada a evolução da taxa de câmbio e do retorno do ativo no decorrer de três períodos, calcule o coeficiente de correlação existente entre eles:

PeríodoCambio(X)Retorno de Y
13.35.1
23.55.9
33.66.5

Média de X:

 

Média de Y:

 

Covariância de X e Y:

Variância de X e Y:

Correlação:

 

Distribuição Normal e Intervalo de Confiança

A distribuição normal é a mais conhecida e importante distribuição estatística. Essa distribuição possui formato de sino, unimodal e simétrica em relação à média. Isso significa dizer que a média, a mediana e a moda de uma distribuição normal são iguais. Essas características fazem com que a normal seja a distribuição mais utilizada para modelar fenômenos naturais.

Por se tratar de dados amostrais, o intervalo de confiança mostra o quão perto do parâmetro real estão as estimativas. Como, por exemplo, um intervalo de 96% de confiança: significa que 96% dos intervalos de confiança dos dados analisados tem o valor do parâmetro real. Utilizamos o intervalo de confiança para sabermos se os resultados encontrados são significativos. Os intervalos mais comuns são: 90%, 95% e 99%.

 

Figura – Distribuição Normal Padrão.

Fonte: Elaborada a partir de  inf.ufsc.br.


Você não está logado!
Para ter acesso ao curso, .
Doutor em Economia pela Universidade Federal de Santa Catarina. Mestre em Economia Aplicada pela Universidade Federal de Pelotas. É economista, especializado em Finanças pela Universidade Federal de Minas Gerais. Atuou como Analista e Controller. Pesquisa efeitos spillover e herd behavior no mercado de ações. Produz estudos sobre basis risk no mercado de derivativos.
Pressione F11 para tela cheia
Insira no mínimo 3 caracteres.
Nenhum resultado.
Suporte? Clique aqui.