Distribuição de Probabilidades - Distribuição Normal

Resumo

A distribuição normal é uma forma de se dispor os dados de uma população, simulando uma distribuição com variáveis contínuas, e com números de variáveis muito grande, gerando esse formato de sino. Possui média, moda e mediana iguais e possui simetria, ou seja, a probabilidade de um determinado evento ocorrer em uma extremidade é igual a probabilidade de ocorrência na outra extremidade. Podemos realizar uma padronização, gerando uma distribuição com média zero, trabalhando com a Tabela Z, que padroniza valores entre -1 e 1, mas também usa-la sem essa padronização. Seu intuito é basicamente distribuir os valores de forma que a estatística consiga ser aplicada de forma mais precisa. Através desse instrumento padronizado, pode-se realizar mensurações de probabilidades de ocorrências de eventos de forma muito mais simples, e podendo ser usada em outros estudos, como o teste de hipótese.

Texto

A distribuição de um conjunto de dados estatísticos (ou uma população) é uma listagem ou função que mostra todos os valores possíveis dos dados e com que frequência eles ocorrem. Quando uma distribuição de dados é organizada, você pode ver o número ou a porcentagem de indivíduos em cada grupo. Ela representa uma função que descreve o comportamento de uma variável aleatória contínua ou discreta. Isto é, de eventos que, quando ocorrem, retornam diferentes valores.

Basicamente, a distribuição de probabilidades é a combinação entre os resultados e a probabilidade de sua ocorrência.

Distribuições de probabilidade discretas

Distribuições de probabilidade discretas associam uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, no lançamento de um dado, os valores possíveis são {1; 2; 3; 4; 5; 6} e todos possuem a mesma probabilidade de ocorrência (1/6). Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer distribuição de probabilidades:

A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1:
, onde x toma todos os valores possíveis;
A probabilidade de ocorrência de um evento deve ser para todo x.

No exemplo do lançamento de um dado, como todas as faces têm a mesma probabilidade de ocorrência (1/6), temos que , ou seja:

Se jogarmos dois dados e somarmos o resultado, os valores possíveis serão {2; 3; 4; 5; 6; 7; 8; 9; 10; 12}. A probabilidade do valor ser 2 é 1/6 * 1/6 = 1/36, pois o único resultado possível que resulte em 2 é se o primeiro e o segundo dado tenha a face virada para o número 1. O mesmo vale para o valor 12, pois ocorre somente caso os valores sejam 6 nos dois dados. O resultado 8, no entanto, possui probabilidade 5/36 de ocorrência, pois os valores dos dados podem ser 2+6, 3+5, 4+4, 5+3 e 6+2. Podemos ver a distribuição do lançamento de dois dados graficamente:

Figura – Distribuição de probabilidade da soma de dois dados.

Fonte: Elaborada pelo autor.

Quando uma distribuição possui a maioria de seus valores em volta de sua média, com menor densidade nos cantos, diz-se que ela se aproxima de uma distribuição normal, informalmente denominada como curva do sino. A altura de uma população é conhecida por ter um formato aproximadamente normal:

Figura – Distribuição da altura (cm) de uma população com média igual a 175 cm.

Fonte: Elaborada pelo autor.

Distribuições de probabilidade contínuas

A distribuição normal, ou gaussiana, é a distribuição de probabilidade contínua mais comum. As distribuições normais são importantes nas estatísticas e muitas vezes são usadas nas ciências naturais e sociais para representar variáveis aleatórias cujas distribuições não são conhecidas. A distribuição normal é útil por causa do teorema do limite central. Em sua forma mais geral, o teorema afirma que as médias de amostras de observações de variáveis aleatórias independentemente tiradas de distribuições independentes convergem em distribuição para a distribuição normal. Isso significa que são distribuídas normalmente quando o número de observações é suficientemente grande. Quantidades físicas que se espera que sejam a soma de muitos processos independentes geralmente têm distribuições que são quase normais. Além disso, muitos resultados e métodos podem ser derivados analiticamente em forma explícita quando as variáveis relevantes são normalmente distribuídas.

Figura – Distribuição normal com média μ = 15 e desvio padrão σ = 3 (função densidade de probabilidade).

Fonte: Elaborada pelo autor.

Uma variável aleatória contínua tem distribuição normal se sua função densidade de probabilidade for dada por:

Em que μ é a média de x e σ é o desvio padrão de x.

Não usaremos esse cálculo, pois usaremos a padronização de variáveis, como veremos abaixo, usando a Tabela Z, ficando muito mais simples obter esses dados.

Padronização de variáveis

As variáveis que formam uma distribuição de probabilidade podem ter qualquer média e desvio padrão. Para padronizar um conjunto de dados com média = μ e desvio padrão = σ, utilizamos a seguinte fórmula:

Em que Z representa os valores de um conjunto de dados com média = 0 e desvio padrão = 1. Por exemplo, o valor 18 na distribuição acima pode ser padronizado utilizando a fórmula:

E, padronizando todos os valores do exemplo anterior, que possui μ = 15 e σ = 3, temos a seguinte figura:

Figura – Distribuição normal com média μ = 0 e desvio padrão σ = 1 (Distribuição normal padrão).

Fonte: Elaborada pelo autor.

Em que os valores (1, 2, 3...) representam a distância, em desvios padrão, da média. Quando a distribuição normal possui média zero e desvio padrão 1, é chamada de distribuição normal padrão.

No caso de trabalhar com uma amostra da população, sendo n= tamanho da amostra e σ = desvio padrão, deve-se realizar o seguinte ajuste no desvio padrão:

Propriedades da distribuição normal contínua

A área abaixo da linha mostra a probabilidade de ocorrência de cada valor do eixo X. Assim, a soma da área total é igual a 1, ou 100%.

A distribuição normal possui algumas propriedades:

Ela é simétrica em relação à origem;
Média = moda = mediana.

Ou seja, exatamente metade das observações se encontram à direita e metade se encontram à esquerda da média. Valores à direita são menores que a média e à esquerda são maiores. O valor que mais se repete entre as observações é a média, dado que é igual à moda.

Além disso:

1 desvio da média abrange 68,26% dos dados;
2 desvios da média abrangem 95,44% dos dados;
3 desvios da média abrangem 99,74% dos dados.

Figura – Abrangência dos dados em uma distribuição normal.

Fonte: Elaborada pelo autor.

Interpretando a tabela Z

A Tabela Z mostra os valores encontrados na distribuição normal padronizada para diferentes níveis de probabilidade. Representa a área abaixo da curva, partindo da média até Zo. Por exemplo, um Z-score de 1 é 0,3413, igual a 34,13% na figura acima, e um Z-score de 2 é 0,4772, ou 34,13% + 13,59% = 47,72%. Os valores associados a diversos Z-scores pode ser encontrado na tabela Z:

Tabela Z – Distribuição normal.

Fonte: Elaborada pelo autor.

Ex.1: Qual é a probabilidade de ocorrência de um valor inferior a 1,58 em uma distribuição normal padrão (média 0 e desvio-padrão 1)?

Figura - Distribuição normal padrão.

Fonte: Elaborada pelo autor.

Para calcular essa probabilidade, basta olhar na Tabela Z. Os dois primeiros dígitos (1,5) devem ser buscados na primeira coluna dessa tabela, e o terceiro dígito (8) na primeira fila, conforme indicado pelas setas.

Figura – Tabela Z.

Fonte: Elaborada pelo autor.

O valor encontrado na tabela é de 0,4429 ou 44,29%. Esta é a probabilidade de encontrarmos um valor entre 0 e 1,58. Como queremos saber a probabilidade de encontrar um valor menor que 1,58, devemos usar o fato que a distribuição normal é simétrica e, portanto, cada lado possui 50% de probabilidade de ocorrência. Assim, dado que a probabilidade de ocorrência de um valor à esquerda da média é 0,5 ou 50%, e a probabilidade à direita é 44,29%, a probabilidade de encontrarmos um valor inferior a 1,58 é a soma das probabilidades:

0,5 + 0,4429 = 0,9429.

Assim, a probabilidade de ocorrência de um valor inferior a 1,58 em uma distribuição normal padrão é de 94,29%.

Ex.2: Calcule a probabilidade de ocorrência de um valor superior a 2,75 em uma distribuição normal.

Para encontrar a probabilidade de ocorrência de um valor superior a 2,75 basta olhar na Tabela Z. Na linha desta tabela, encontram-se os dois primeiros dígitos do valor cuja probabilidade se deseja encontrar, no caso, 2,7. Nas colunas, tem-se o terceiro dígito, no caso, 5.

Figura - Distribuição normal padrão.

Fonte: Elaborada pelo autor.

O valor associado a 2,75 na tabela Z é 0,4970. Porém, a tabela Z só nos informa a probabilidade de ocorrência de um valor entre 0 e 2,75, à direita da média. Como desejamos saber a probabilidade total de ocorrência de um valor superior a 2,75, é preciso, primeiramente, somar ao valor encontrado a probabilidade de ocorrência de um valor à esquerda da média, 0,5, para obtermos a probabilidade total de ocorrência de um valor inferior a 2,75:

0,4970 + 0,5 = 0,997

E agora, basta subtrair a probabilidade total (1 ou 100%) da probabilidade de ocorrência de um valor inferior a 2,75 para obter a probabilidade de ocorrência de um valor superior a 2,75.

1 - 0,997 = 0,003 = 0,3%.

Ex.3: Encontre a probabilidade de ocorrência de um valor entre -0,20 e 1,93 em uma distribuição normal padronizada.

Figura - Distribuição normal padronizada.

Fonte: Elaborada pelo autor.

Tente responder à questão, pois não é tão difícil. Basta seguir os passos realizados nas questões anteriores.

Abaixo segue os passos que precisam ser seguidos e valores que você deve encontrar.

Ex.4: Imagine que um experimento mensurou o peso de 100 pessoas, encontrando um peso médio de 75 quilos e um desvio padrão de 15 quilos. Sabe-se que o peso das pessoas segue uma distribuição normal. Encontre a probabilidade de uma pessoa escolhida aleatoriamente possuir peso entre 60 e 65 kg.

Como as variáveis não foram padronizadas, é necessário padronizá-las. Para isso, basta aplicar a fórmula abaixo:

Logo,

Olhando na tabela Z:

Assim, o número de pessoas entre 60 e 65 quilos é:

Referência Bibliográfica

ASSAF NETO, Alexandre. Mercado financeiro 8. ed. São Paulo: Atlas, 2008.

KRUGMAN, P.; OBSTFELD, M. Economia internacional: Teoria e prática. 6 a edição. 2005.

SECURATO, J.R. & SECURATO J.C. Mercado financeiro - Conceitos, cálculo e análise de investimento, 4Âª reimpressão. Saint Paul, 2009.