Medidas de Tendência Central e Dispersão

Na Estatística, população é o conjunto de membros, itens ou possíveis eventos de um experimento. Por exemplo, moradores da cidade de São Paulo, os lados da face de um dado ou a valorização de uma ação X na B3. A amostra é definida como um subconjunto de uma população. Por exemplo, os moradores de um bairro de São Paulo (amostra da população de São Paulo) ou até mesmo uma pequena amostra de cada bairro na região. Como a obtenção dos dados de toda população possui custo muito grande, torna-se conveniente utilizar um grupo amostral a fim de gerar uma estimativa da população. Esse artifício é muito utilizado em pesquisas eleitorais, por exemplo. Para realizar essas estimativas, utiliza-se as medidas de tendência central, desvio-padrão e variância.

As medidas de tendência central são utilizadas para representar um conjunto de dados como um todo, identificando as características apresentadas pelo conjunto. As medidas de tendência central estudadas aqui são três: média, mediana e moda.

 

Medidas de tendência central: média aritmética e geométrica, moda e mediana

Média aritmética

A média é a medida de centro mais comumente utilizada para variáveis quantitativas.

Essa medida é obtida através da soma de todos os elementos de um conjunto e posterior divisão pelo número de elementos que o compõem.

Considerando um conjunto composto por n elementos, a sua média aritmética é definida como:

 

 

Ressaltando que, quando estamos em ambientes onde os fenômenos observados podem ser ligados a um dado conjunto de resultados possíveis, utilizamos o conceito de variável, que pode ser entendida como qualquer quantidade, qualidade ou uma característica que pode possuir vários valores numéricos.

Exemplo:

Algumas ordens de compra no Home Broker demoraram os seguintes tempos (em minutos) para serem executadas: 20, 25, 30, 29, 21. Qual é a média?

Como temos cinco elementos, n = 5, a média será:

 

 

Em que cada Xi representa um elemento desse conjunto e é a média aritmética.

Exemplo prático no mercado:

Considerando que uma ação teve as seguintes oscilações nos primeiros 4 dias de um determinado mês:

  • 1º → + 6%
  • 2º → + 4%
  • 3º → − 2%
  • 4º → − 4%

 

Assim, podemos calcular o “retorno médio” desse ativo. Calculando a média desses valores:

 

 

Vamos calcular a média aritmética de dois conjuntos distintos para compreender melhor as vantagens dessa medida de tendência central:

Um investidor possui uma carteira composta por 10 ativos, metade de cada setor (energia e financeiro). Calcule a média aritmética dos preços dos ativos de cada um dos setores e responda: qual setor apresenta preços mais elevados?

Energia (em R$): 1,55; 1,70; 1,75; 1,80; 1,85.

Financeiro (em R$): 1,60; 1,65; 1,70; 1,75; 1,75.

Basta somar os preços de todos os ativos de energia e dividir pelo número de ativos do setor:

 

 

O mesmo cálculo pode ser feito para o setor financeiro:

 

 

Portanto, a média dos ativos do setor de energia é maior que a do setor financeiro, sendo R$ 1,73 e R$ 1,69, respectivamente.

Observe que essa medida de distribuição central nos permite caracterizar os dois conjuntos, “financeiro” e “energia”, identificando as características apresentadas pelo conjunto como um todo. O fato de o preço médio do setor energético ser superior ao do financeiro não significa que todos os ativos de um são mais valorizados que os do outro. Se olharmos para o conjunto de dados, observaremos que existe um ativo energético que é mais barato que todos do setor financeiro, valendo apenas R$ 1,55. Contudo, o mesmo conjunto apresenta um ativo que é mais caro do que o ativo financeiro mais caro, puxando a média para cima e anulando o efeito do ativo energético mais baixo.

Porém, conforme vimos no nosso exemplo, apesar de a média ser uma medida muito útil, ela não informa todos os aspectos presentes nos dados. No exemplo, também seria útil obter mais informações sobre o quanto a média é uma medida representativa dos dois conjuntos de ativos, pois foi justamente essa indagação que levou os estatísticos a desenvolverem outras medidas de tendência central que veremos mais à frente.

 

Média aritmética ponderada

Para calcular o retorno médio de uma carteira de ativos, não se pode simplesmente fazer a média do retorno de seus ativos caso eles não estejam na mesma proporção. O ativo que tiver mais volume na carteira irá influenciar mais no seu retorno médio do que o ativo que representa um volume menor. Para esses casos, usa-se a média ponderada. Nesse tipo de média aritmética, cada número que fará parte da média terá um peso diferente. Os números são primeiramente multiplicados por seus pesos antes de somados, e só após são somados e divididos pela soma dos pesos. Sua fórmula é:

 

 

Exemplo: A partir da média ponderada, encontre o valor do índice de ações ponderado pelo valor de mercado das quatro empresas listadas abaixo:

 

Tabela – Valor do índice de ações.

AçãoPreço da ação (R$)Valor de mercado (R$ Bilhões)
A23
B42
C61
D32

Fonte: Elaborada pelo autor. 

 

 

Igualmente, podemos ponderar pela porcentagem que cada ação tem no índice. Como o valor de mercado total é 8, a ação A representa 3/8 = 37,5% do índice, a ação B representa 25%, e assim por diante:

 

 

Média geométrica

Entre n valores, é a raiz de índice n do produto desses valores:

Exemplo: A média geométrica entre 1, 2 e 4 é:

 

Moda

A moda de uma amostra de uma variável, seja quantitativa, qualitativa ou discreta, é o valor da variável que ocorre com a maior frequência em um conjunto de dados. Assim, temos que:

  • Quando a maior frequência é 1, significa que nenhum valor ocorre mais de uma vez. Nesse caso, a moda não existe.
  • Se a maior frequência é maior que 1, então qualquer dos valores que ocorra com essa maior frequência é chamado de moda da amostra, podendo haver mais de uma moda. Por exemplo, a mostra {1, 3, 3, 3, 4, 7} possui moda 3, e a amostra {1, 3, 3, 4, 4, 5, 10} possui modas 3 e 4.

 

Quando medimos uma variável contínua ou uma variável discreta com muitos valores diferentes, por exemplo, a quantidade negociada ou o preço dos ativos, todas a medidas podem ser diferentes. Nesse caso, a moda não existe, pois cada valor observado terá frequência 1. No entanto, os dados podem ser agrupados em intervalos, classe, e a moda poderá então ser definida em termos de frequências de classes. Com a variável quantitativa agrupada, a classe que será chamada de moda é o intervalo de classe com maior frequência.

Consideremos nosso exemplo dos setores financeiro e de energia:

Energia (em R$): 1,55; 1,70; 1,75; 1,80; 1,85.

Financeiro (em R$): 1,60; 1,65; 1,70; 1,75; 1,75.

Qual é a moda de cada conjunto de dados?

Aqui você deve olhar para qual é o preço que aparece com mais frequência, isto é, a que mais se repete.

Se olharmos os preços dos ativos do setor de energia, veremos que não existe um ativo com preço repetido, portanto não há moda nesse caso.

Já para o setor financeiro, o valor que mais se repete é R$ 1,75. Logo, a moda desse conjunto de dados é R$ 1,75.

Quando olhamos só para a média dos dois conjuntos, concluímos que os ativos do setor de energia são mais caros. Agora, quando olhamos para a moda, observamos que mais ativos do setor energético possuem preços mais elevados em comparação com o setor financeiro. Com essa nova medida, já é possível compreender um pouco melhor as características desses dois conjuntos de dados.

 

Mediana

A mediana de uma variável quantitativa é o valor da variável em um conjunto de dados que divide o conjunto de valores observados ao meio, de modo que os valores observados em uma metade são menores ou iguais ao valor médio, e os valores observados na outra metade são maiores ou iguais a este. Para se obter a mediana de uma variável, é preciso organizar os valores observados em um conjunto de dados em ordem crescente e depois determinar o valor médio na lista ordenada.

Para definirmos a mediana, primeiro organizamos os valores em ordem crescente, e então temos duas possibilidades:

  • Se o número de observação for ímpar, então a mediana da amostra é o valor observado exatamente no meio da lista ordenada.
  • Se o número da observação for par, então a mediana da amostra é o número a meio caminho entre os dois valores observados no meio na lista ordenada.

 

Exemplo: Algumas ordens de compra no Home Broker demoraram os seguintes tempos (em minutos) para serem executadas:

2025302921

Qual é a mediana?

Organizando os valores em ordem crescente, 20, 21, 25, 29, 30. O número de observações é ímpar, n = 5, então nossa mediana será a observação na posição n = 3, ou seja, 25 minutos.

Essa medida de tendência indica qual é o valor central de um conjunto de indivíduos quando estes são colocados em ordem crescente ou decrescente. A mediana é sempre o valor que se encontra no centro da sequência.

No exemplo dos setores financeiros e de energia, a mediana é:

  • Energia (em R$): 1,55; 1,70; 1,75; 1,80; 1,85;
  • Financeiro (em R$): 1,60; 1,65; 1,70; 1,75; 1,75.

 

Aprendemos a calcular a mediana de um conjunto composto por um número ímpar de elementos. Mas quando o número de elementos for par, como se calcula a mediana?

Nesse caso, a mediana é dada pela média aritmética dos dois elementos centrais.

Repetimos abaixo os conjuntos de alturas que compõem o nosso exemplo original, adicionando mais um ativo em cada setor:

 

Tabela – Exemplo de dados.

Energia (em R$)Financeiro (em R$)
1,551,60
1,701,65
1,751,70
1,801,75
1,851,75
1,901,85

Fonte: Elaborada pelo autor.

 

Energia (em R$): 1,55; 1,70; 1,75; 1,80; 1,85; 1,90.

Financeiro (em R$): 1,60; 1,65; 1,70; 1,75; 1,75; 1,85.

Agora já sabemos como calcular a mediana:

 

 

A mediana para o setor energético é de 1,775 e para o setor financeiro é 1,725.

 

Medidas de dispersão: desvio-padrão e variância

A variabilidade pode ser definida em termos de quão perto os valores da amostra estão do meio da distribuição. O desvio-padrão e a variância são medidas comumente utilizadas em finanças para definir riscos de investimentos, pois mostram a dispersão da amostra em torno da média. Por exemplo, um investimento com desvio-padrão alto significa que esse ativo possui grande risco, pois a dispersão em torno da média de rendimento é alta.

No nosso exemplo dos setores (financeiro e energético), mostramos claramente que a média é uma medida muito útil e que ajuda a caracterizar um conjunto de elementos, mas que apresenta limitações. No conjunto dos ativos do setor energético, apesar de a média ser mais alta que a do setor financeiro, encontram-se ativos mais distantes da média.

A variância e o desvio-padrão olham para a dispersão dos dados em torno da média, informando o modo como eles estão distribuídos.

Considere a figura abaixo:

 

Figura – Distribuição de valores em volta da média. 

Fonte: Elaborada pelo autor. 

 

Conforme podemos observar, ambos os conjuntos de dados possuem o mesmo número de elementos e a mesma média. No entanto, os dados do exemplo A se encontram bem mais dispersos em torno da média, de modo que esta não é um indicador muito fidedigno dos valores apresentados pelas observações. Por outro lado, os dados do exemplo B se encontram bem mais próximos da média, que expressa o comportamento desses dados de modo consideravelmente mais exato.

Assim, seria desejável utilizar alguma medida que possa ser aplicada a fim de comparar essa dispersão dos dados. A variância e o desvio-padrão fazem exatamente isso.

 

Variância

Com objetivo de resumir a dispersão dos valores em relação à média em um número, podemos pensar que se pegarmos os desvios em relação à média e tirar a média destes valores, ou seja, , seja uma boa medida de dispersão. Porém, este valor sempre será igual a zero. A variância corrige este problema elevando os desvios ao quadrado, e assim todos os valores serão positivos. Assim, a variância mede o grau de dispersão ao quadrado de um conjunto de dados, e é dada pela média dos desvios em relação à média ao quadrado desse conjunto.

Quando o conjunto é uma população, utilizamos o símbolo σ², a média populacional μ e dividimos por n. Se o conjunto é uma amostra, a variância é representada por s², é usado a média amostral e dividimos por n-1.

 

 

Exemplo:

Considerando que uma ação teve as seguintes oscilações nos primeiros 5 dias de um determinado mês, calcule a variância:

  • 1º → + 3%
  • 2º → + 5%
  • 3º → + 7%
  • 4º → – 2%
  • 5º → + 2%

 

Primeiro, precisamos efetuar o cálculo da média da amostra:

 

 

Vamos calcular agora a variância amostral:

 

 

Assim, a variância da amostra é de 0,115%.

Importante: Se as observações não forem empregues em notação porcentual (usando “3” para o retorno ao invés de 0,03 ou 3%), faz-se imperativo, para o cálculo da variância, a divisão do resultado final por 10.000. Neste caso, encontraríamos uma variância de 11,5, mas para achar a variância dos retornos em porcentagem, devemos dividir 11,5/10.000 = 0,00115 = 0,115%. Em outras palavras, ao transformar em porcentual, multiplica-se por 100 a observação (por exemplo, 0,03 * 100 = 3) e, então, no cálculo da variância, esse efeito foi elevado ao quadrado. Se queremos somente o desvio-padrão, a divisão por 10.000 não é necessária, como veremos abaixo.

 

Desvio-padrão

Como vimos, a variância apresenta uma unidade de medida igual ao quadrado da unidade de medida dos dados originais, e assim possui um problema de construção como medida de dispersão de dados. Esse problema é resolvido extraindo-se a raiz quadrada da variância, o que chamamos de desvio-padrão. No exemplo acima, o desvio-padrão é 0,001151/2 = 0,03391 = 3,391%. Se as observações não forem empregues em notação porcentual, podemos extrair a raiz da variância encontrada: 11,51/2 = 3,391 e dividir o resultado por 100, 3,391/100 = 3,391%. A fórmula do desvio-padrão populacional e amostral são as seguintes:

 

 

O desvio-padrão é uma medida especialmente útil de variabilidade quando a distribuição é normal ou aproximadamente normal, pois a proporção da distribuição dentro de um determinado número de desvios-padrões da média pode ser calculada.

No mercado financeiro, em geral esse é o valor que é chamado de volatilidade de um ativo e utilizado como principal medida de risco de se investir em determinado ativo.

Exemplo:

Quais dos dois ativos abaixo possuem maior retorno?

 

Tabela – Retorno de ativos.

DataPETR4VALE5
07/07-4%-2%
08/07-3%-1%
09/07+1%+1%
10/07+6%-2%
11/07-5%-1%

Fonte: Elaborada pelo autor. 

 

 

Ou seja, o retorno esperado nas duas carteiras são os mesmos. Qual ação escolher então?

Um investidor racional, diante de dois ativos similares com mesmo retorno, irá escolher o de menor risco. Para isso, devemos calcular o desvio-padrão de cada ativo.

Cálculo do desvio-padrão amostral para PETR4:

 

 

Cálculo do desvio-padrão amostral para VALE5:

 

 

Podemos afirmar que a ação da PETR4 possui um risco maior para o investidor, pois apresenta um desvio-padrão maior. Assim, o investidor racional irá optar em comprar ações da VALE5.

 

População vs. amostra

A tabela abaixo resume os símbolos usados quando tratamos de valores populacionais e amostrais:

Tabela – População vs. amostra. 

DenominaçãoPopulaçãoAmostra
Médiaμ
Variânciaσ²
Desvio-padrãoσs

Fonte: Elaborada pelo autor. 


Você não está logado!
Para ter acesso ao curso, .

Pressione F11 para tela cheia
Insira no mínimo 3 caracteres.
Nenhum resultado.
Suporte? Clique aqui.