Distribuição de Probabilidades – Distribuição Normal

A distribuição de um conjunto de dados estatísticos (ou uma população) é uma listagem ou função que mostra todos os valores possíveis dos dados e com que frequência eles ocorrem. Quando uma distribuição de dados é organizada, você pode ver o número ou a porcentagem de indivíduos em cada grupo. Ela representa uma função que descreve o comportamento de uma variável aleatória contínua ou discreta. Isto é, de eventos que, quando ocorrem, retornam diferentes valores.

 

Distribuições de probabilidade discretas

Distribuições de probabilidade discretas associam uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, no lançamento de um dado, os valores possíveis são {1; 2; 3; 4; 5; 6} e todos possuem a mesma probabilidade de ocorrência (1/6). Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer distribuição de probabilidades:

  • A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1:
    , onde x toma todos os valores possíveis;
  • A probabilidade de ocorrência de um evento deve ser para todo x.

No exemplo do lançamento de um dado, como todas as faces têm a mesma probabilidade de ocorrência (1/6), temos que , ou seja:

 

 

Se jogarmos dois dados e somarmos o resultado, os valores possíveis serão {2; 3; 4; 5; 6; 7; 8; 9; 10; 12}. A probabilidade do valor ser 2 é 1/6 * 1/6 = 1/36, pois o único resultado possível que resulte em 2 é se o primeiro e o segundo dado tenha a face virada para o número 1. O mesmo vale para o valor 12, pois ocorre somente caso os valores sejam 6 nos dois dados. O resultado 8, no entanto, possui probabilidade 5/36 de ocorrência, pois os valores dos dados podem ser 2+6, 3+5, 4+4, 5+3 e 6+2. Podemos ver a distribuição do lançamento de dois dados graficamente:

 

Figura – Distribuição de probabilidade da soma de dois dados.

Fonte: Elaborada pelo autor.

 

Quando uma distribuição possui a maioria de seus valores em volta de sua média, com menor densidade nos cantos, diz-se que ela se aproxima de uma distribuição normal, informalmente denominada como curva do sino. A altura de uma população é conhecida por ter um formato aproximadamente normal:

 

Figura – Distribuição da altura (cm) de uma população com média igual a 175 cm.

Fonte: Elaborada pelo autor.

 

Distribuições de probabilidade contínuas

A distribuição normal, ou gaussiana, é a distribuição de probabilidade contínua mais comum. As distribuições normais são importantes nas estatísticas e muitas vezes são usadas nas ciências naturais e sociais para representar variáveis aleatórias cujas distribuições não são conhecidas. A distribuição normal é útil por causa do teorema do limite central. Em sua forma mais geral, o teorema afirma que as médias de amostras de observações de variáveis aleatórias independentemente tiradas de distribuições independentes convergem em distribuição para a distribuição normal. Isso significa que são distribuídas normalmente quando o número de observações é suficientemente grande. Quantidades físicas que se espera que sejam a soma de muitos processos independentes geralmente têm distribuições que são quase normais. Além disso, muitos resultados e métodos podem ser derivados analiticamente em forma explícita quando as variáveis relevantes são normalmente distribuídas.

 

Figura – Distribuição normal com média μ = 15 e desvio padrão σ = 3 (função densidade de probabilidade).

Fonte: Elaborada pelo autor.

 

Uma variável aleatória contínua tem distribuição normal se sua função densidade de probabilidade for dada por:

 

 

Em que μ é a média de x e σ é o desvio padrão de x.

 

Padronização de variáveis

As variáveis que formam uma distribuição de probabilidade podem ter qualquer média e desvio padrão. Para padronizar um conjunto de dados com média = μ e desvio padrão = σ, utilizamos a seguinte fórmula:

 

 

Em que Z representa os valores de um conjunto de dados com média = 0 e desvio padrão = 1. Por exemplo, o valor 18 na distribuição acima pode ser padronizado utilizando a fórmula:

 

 

E, padronizando todos os valores do exemplo anterior, que possui μ = 15 e σ = 3, temos a seguinte figura:

 

Figura – Distribuição normal com média μ = 0 e desvio padrão σ = 1 (Distribuição normal padrão).

Fonte: Elaborada pelo autor.

 

Em que os valores (1, 2, 3…) representam a distância, em desvios padrão, da média. Quando a distribuição normal possui média zero e desvio padrão 1, é chamada de distribuição normal padrão.

 

Propriedades da distribuição normal contínua

 A área abaixo da linha mostra a probabilidade de ocorrência de cada valor do eixo X. Assim, a soma da área total é igual a 1, ou 100%.

A distribuição normal possui algumas propriedades:

  • Ela é simétrica em relação à origem;
  • Média = moda = mediana.

 

Ou seja, exatamente metade das observações se encontram à direita e metade se encontram à esquerda da média. Valores à direita são menores que a média e à esquerda são maiores. O valor que mais se repete entre as observações é a média, dado que é igual à moda.

Além disso:

  • 1 desvio da média abrange 68,26% dos dados;
  • 2 desvios da média abrangem 95,44% dos dados;
  • 3 desvios da média abrangem 99,74% dos dados.

 

Figura – Abrangência dos dados em uma distribuição normal.

Fonte: Elaborada pelo autor.

 

Interpretando a tabela Z

A Tabela Z mostra os valores encontrados na distribuição normal padronizada para diferentes níveis de probabilidade. Representa a área abaixo da curva, partindo da média até Zo. Por exemplo, um Z-score de 1 é 0,3413, igual a 34,13% na figura acima, e um Z-score de 2 é 0,4772, ou 34,13% + 13,59% = 47,72%. Os valores associados a diversos Z-scores pode ser encontrado na tabela Z:

 

Tabela Z – Distribuição normal.

Fonte: Elaborada pelo autor.

 

Questão: Qual é a probabilidade de ocorrência de um valor inferior a 1,58 em uma distribuição normal padrão (média 0 e desvio-padrão 1)?

 

Figura – Distribuição normal padrão.

Fonte: Elaborada pelo autor.

 

Para calcular essa probabilidade, basta olhar na Tabela Z. Os dois primeiros dígitos (1,5) devem ser buscados na primeira coluna dessa tabela, e o terceiro dígito (8) na primeira fila, conforme indicado pelas setas.

 

Figura – Tabela Z. 

Fonte: Elaborada pelo autor.

 

O valor encontrado na tabela é de 0,4429 ou 44,29%. Esta é a probabilidade de encontrarmos um valor entre 0 e 1,58. Como queremos saber a probabilidade de encontrar um valor menor que 1,58, devemos usar o fato que a distribuição normal é simétrica e, portanto, cada lado possui 50% de probabilidade de ocorrência. Assim, dado que a probabilidade de ocorrência de um valor à esquerda da média é 0,5 ou 50%, e a probabilidade à direita é 44,29%, a probabilidade de encontrarmos um valor inferior a 1,58 é a soma das probabilidades:

 

0,5 + 0,4429 = 0,9429.

 

Assim, a probabilidade de ocorrência de um valor inferior a 1,58 em uma distribuição normal padrão é de 94,29%.

 

Questão: Calcule a probabilidade de ocorrência de um valor superior a 2,75 em uma distribuição normal.

Para encontrar a probabilidade de ocorrência de um valor superior a 2,75 basta olhar na Tabela Z. Na linha desta tabela, encontram-se os dois primeiros dígitos do valor cuja probabilidade se deseja encontrar, no caso, 2,7. Nas colunas, tem-se o terceiro dígito, no caso, 5.

 

Figura – Distribuição normal padrão.

Fonte: Elaborada pelo autor.

 

O valor associado a 2,75 na tabela Z é 0,4970. Porém, a tabela Z só nos informa a probabilidade de ocorrência de um valor entre 0 e 2,75, à direita da média. Como desejamos saber a probabilidade total de ocorrência de um valor superior a 2,75, é preciso, primeiramente, somar ao valor encontrado a probabilidade de ocorrência de um valor à esquerda da média, 0,5, para obtermos a probabilidade total de ocorrência de um valor inferior a 2,75:

 

0,4970 + 0,5 = 0,997

 

E agora, basta subtrair a probabilidade total (1 ou 100%) da probabilidade de ocorrência de um valor inferior a 2,75 para obter a probabilidade de ocorrência de um valor superior a 2,75.

 

1 – 0,997 = 0,003 = 0,3%.

 

Questão: Encontre a probabilidade de ocorrência de um valor entre -0,20 e 1,93 em uma distribuição normal padronizada.

 

Figura – Distribuição normal padronizada.

Fonte: Elaborada pelo autor.

 

Tente responder à questão, pois não é tão difícil. Basta seguir os passos realizados nas questões anteriores.

Abaixo segue os passos que precisam ser seguidos e valores que você deve encontrar.

 

 

Questão: Imagine que um experimento mensurou o peso de 100 pessoas, encontrando um peso médio de 75 quilos e um desvio padrão de 15 quilos. Sabe-se que o peso das pessoas segue uma distribuição normal. Encontre a probabilidade de uma pessoa escolhida aleatoriamente possuir peso entre 60 e 65 kg.

Como as variáveis não foram padronizadas, é necessário padronizá-las. Para isso, basta aplicar a fórmula abaixo:

 

 

Logo,

 

 

Olhando na tabela Z:

 

 

Assim, o número de pessoas entre 60 e 65 quilos é:

 


Você não está logado!
Para ter acesso ao curso, .

Pressione F11 para tela cheia
Insira no mínimo 3 caracteres.
Nenhum resultado.
Suporte? Clique aqui.