A distribuição de um conjunto de dados estatísticos (ou uma população) é uma listagem ou função que mostra todos os valores possíveis dos dados e com que frequência eles ocorrem. Quando uma distribuição de dados é organizada, você pode ver o número ou a porcentagem de indivíduos em cada grupo. Ela representa uma função que descreve o comportamento de uma variável aleatória contínua ou discreta. Isto é, de eventos que, quando ocorrem, retornam diferentes valores.
Distribuições de probabilidade discretas
Distribuições de probabilidade discretas associam uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, no lançamento de um dado, os valores possíveis são {1; 2; 3; 4; 5; 6} e todos possuem a mesma probabilidade de ocorrência (1/6). Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer distribuição de probabilidades:
- A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1:
, onde x toma todos os valores possíveis;
- A probabilidade de ocorrência de um evento deve ser
para todo x.
No exemplo do lançamento de um dado, como todas as faces têm a mesma probabilidade de ocorrência (1/6), temos que , ou seja:
Se jogarmos dois dados e somarmos o resultado, os valores possíveis serão {2; 3; 4; 5; 6; 7; 8; 9; 10; 12}. A probabilidade do valor ser 2 é 1/6 * 1/6 = 1/36, pois o único resultado possível que resulte em 2 é se o primeiro e o segundo dado tenha a face virada para o número 1. O mesmo vale para o valor 12, pois ocorre somente caso os valores sejam 6 nos dois dados. O resultado 8, no entanto, possui probabilidade 5/36 de ocorrência, pois os valores dos dados podem ser 2+6, 3+5, 4+4, 5+3 e 6+2. Podemos ver a distribuição do lançamento de dois dados graficamente:
Figura – Distribuição de probabilidade da soma de dois dados.
Fonte: Elaborada pelo autor.
Quando uma distribuição possui a maioria de seus valores em volta de sua média, com menor densidade nos cantos, diz-se que ela se aproxima de uma distribuição normal, informalmente denominada como curva do sino. A altura de uma população é conhecida por ter um formato aproximadamente normal:
Figura – Distribuição da altura (cm) de uma população com média igual a 175 cm.
Fonte: Elaborada pelo autor.
Distribuições de probabilidade contínuas
A distribuição normal, ou gaussiana, é a distribuição de probabilidade contínua mais comum. As distribuições normais são importantes nas estatísticas e muitas vezes são usadas nas ciências naturais e sociais para representar variáveis aleatórias cujas distribuições não são conhecidas. A distribuição normal é útil por causa do teorema do limite central. Em sua forma mais geral, o teorema afirma que as médias de amostras de observações de variáveis aleatórias independentemente tiradas de distribuições independentes convergem em distribuição para a distribuição normal. Isso significa que são distribuídas normalmente quando o número de observações é suficientemente grande. Quantidades físicas que se espera que sejam a soma de muitos processos independentes geralmente têm distribuições que são quase normais. Além disso, muitos resultados e métodos podem ser derivados analiticamente em forma explícita quando as variáveis relevantes são normalmente distribuídas.
Figura – Distribuição normal com média μ = 15 e desvio padrão σ = 3 (função densidade de probabilidade).
Fonte: Elaborada pelo autor.
Uma variável aleatória contínua tem distribuição normal se sua função densidade de probabilidade for dada por:
Em que μ é a média de x e σ é o desvio padrão de x.
Padronização de variáveis
As variáveis que formam uma distribuição de probabilidade podem ter qualquer média e desvio padrão. Para padronizar um conjunto de dados com média = μ e desvio padrão = σ, utilizamos a seguinte fórmula:
Em que Z representa os valores de um conjunto de dados com média = 0 e desvio padrão = 1. Por exemplo, o valor 18 na distribuição acima pode ser padronizado utilizando a fórmula:
E, padronizando todos os valores do exemplo anterior, que possui μ = 15 e σ = 3, temos a seguinte figura:
Figura – Distribuição normal com média μ = 0 e desvio padrão σ = 1 (Distribuição normal padrão).
Fonte: Elaborada pelo autor.
Em que os valores (1, 2, 3...) representam a distância, em desvios padrão, da média. Quando a distribuição normal possui média zero e desvio padrão 1, é chamada de distribuição normal padrão.
No caso de trabalhar com uma amostra da população, sendo n= tamanho da amostra e σ = desvio padrão, deve-se realizar o seguinte ajuste no desvio padrão:
Propriedades da distribuição normal contínua
A área abaixo da linha mostra a probabilidade de ocorrência de cada valor do eixo X. Assim, a soma da área total é igual a 1, ou 100%.
A distribuição normal possui algumas propriedades:
- Ela é simétrica em relação à origem;
- Média = moda = mediana.
Ou seja, exatamente metade das observações se encontram à direita e metade se encontram à esquerda da média. Valores à direita são menores que a média e à esquerda são maiores. O valor que mais se repete entre as observações é a média, dado que é igual à moda.
Além disso:
- 1 desvio da média abrange 68,26% dos dados;
- 2 desvios da média abrangem 95,44% dos dados;
- 3 desvios da média abrangem 99,74% dos dados.
Figura – Abrangência dos dados em uma distribuição normal.
Fonte: Elaborada pelo autor.
Interpretando a tabela Z
A Tabela Z mostra os valores encontrados na distribuição normal padronizada para diferentes níveis de probabilidade. Representa a área abaixo da curva, partindo da média até Zo. Por exemplo, um Z-score de 1 é 0,3413, igual a 34,13% na figura acima, e um Z-score de 2 é 0,4772, ou 34,13% + 13,59% = 47,72%. Os valores associados a diversos Z-scores pode ser encontrado na tabela Z:
Tabela Z – Distribuição normal.
Fonte: Elaborada pelo autor.
Questão: Qual é a probabilidade de ocorrência de um valor inferior a 1,58 em uma distribuição normal padrão (média 0 e desvio-padrão 1)?
Figura - Distribuição normal padrão.
Fonte: Elaborada pelo autor.
Para calcular essa probabilidade, basta olhar na Tabela Z. Os dois primeiros dígitos (1,5) devem ser buscados na primeira coluna dessa tabela, e o terceiro dígito (8) na primeira fila, conforme indicado pelas setas.
Figura – Tabela Z.
Fonte: Elaborada pelo autor.
O valor encontrado na tabela é de 0,4429 ou 44,29%. Esta é a probabilidade de encontrarmos um valor entre 0 e 1,58. Como queremos saber a probabilidade de encontrar um valor menor que 1,58, devemos usar o fato que a distribuição normal é simétrica e, portanto, cada lado possui 50% de probabilidade de ocorrência. Assim, dado que a probabilidade de ocorrência de um valor à esquerda da média é 0,5 ou 50%, e a probabilidade à direita é 44,29%, a probabilidade de encontrarmos um valor inferior a 1,58 é a soma das probabilidades:
0,5 + 0,4429 = 0,9429.
Assim, a probabilidade de ocorrência de um valor inferior a 1,58 em uma distribuição normal padrão é de 94,29%.
Questão: Calcule a probabilidade de ocorrência de um valor superior a 2,75 em uma distribuição normal.
Para encontrar a probabilidade de ocorrência de um valor superior a 2,75 basta olhar na Tabela Z. Na linha desta tabela, encontram-se os dois primeiros dígitos do valor cuja probabilidade se deseja encontrar, no caso, 2,7. Nas colunas, tem-se o terceiro dígito, no caso, 5.
Figura - Distribuição normal padrão.
Fonte: Elaborada pelo autor.
O valor associado a 2,75 na tabela Z é 0,4970. Porém, a tabela Z só nos informa a probabilidade de ocorrência de um valor entre 0 e 2,75, à direita da média. Como desejamos saber a probabilidade total de ocorrência de um valor superior a 2,75, é preciso, primeiramente, somar ao valor encontrado a probabilidade de ocorrência de um valor à esquerda da média, 0,5, para obtermos a probabilidade total de ocorrência de um valor inferior a 2,75:
0,4970 + 0,5 = 0,997
E agora, basta subtrair a probabilidade total (1 ou 100%) da probabilidade de ocorrência de um valor inferior a 2,75 para obter a probabilidade de ocorrência de um valor superior a 2,75.
1 - 0,997 = 0,003 = 0,3%.
Questão: Encontre a probabilidade de ocorrência de um valor entre -0,20 e 1,93 em uma distribuição normal padronizada.
Figura - Distribuição normal padronizada.
Fonte: Elaborada pelo autor.
Tente responder à questão, pois não é tão difícil. Basta seguir os passos realizados nas questões anteriores.
Abaixo segue os passos que precisam ser seguidos e valores que você deve encontrar.
Questão: Imagine que um experimento mensurou o peso de 100 pessoas, encontrando um peso médio de 75 quilos e um desvio padrão de 15 quilos. Sabe-se que o peso das pessoas segue uma distribuição normal. Encontre a probabilidade de uma pessoa escolhida aleatoriamente possuir peso entre 60 e 65 kg.
Como as variáveis não foram padronizadas, é necessário padronizá-las. Para isso, basta aplicar a fórmula abaixo:
Logo,
Olhando na tabela Z:
Assim, o número de pessoas entre 60 e 65 quilos é: