Estatística Descritiva
do Básico ao Avançado
Material completo elaborado pelo Prof. Luiz de Castro. Explore cada módulo com teoria aprofundada, fórmulas comentadas, exemplos práticos e atividades com gabarito.
Agenda do Curso
Módulo 1 — Fundamentos
O que é estatística, sua história, diferença entre descritiva e inferencial, conceitos de população e amostra.
Módulo 2 — Tipos de Dados
Variáveis qualitativas e quantitativas, escalas nominal, ordinal, intervalar e de razão.
Módulo 3 — Frequências
Tabelas de frequência, histogramas, ogivas, assimetria e curtose das distribuições.
Módulo 4 — Tendência Central
Média aritmética, mediana, moda, média ponderada, geométrica e harmônica.
Módulo 5 — Dispersão
Amplitude, variância, desvio padrão, coeficiente de variação e desvio médio absoluto.
Módulo 6 — Quartis e Percentis
Q1, Q2, Q3, IQR, box plot, regra de Tukey e identificação de outliers.
Módulo 7 — Visualização
Histograma, barras, linhas, pizza, dispersão e boas práticas em gráficos.
Módulo 8 — Correlação
Pearson, Spearman, interpretação e correlação ≠ causalidade.
Módulo 9 — Distribuição Normal
Curva de Gauss, regra 68-95-99,7, escore-Z e Teorema Central do Limite.
Módulo 10 — EDA
Análise exploratória de dados: pipeline completo, outliers e relatório final.
— Lord Kelvin (1824–1907)
Fundamentos da Estatística
O que é estatística, para que serve, como nasceu, conceitos de população e amostra, e tipos de amostragem.
O que é Estatística?
- Ciência que coleta, organiza, resume, analisa e interpreta dados para suportar decisões.
- A palavra vem do latim 'status' (estado), pois originou-se no controle de informações estatais.
- Dividida em: Estatística Descritiva (resume o que foi observado) e Inferencial (generaliza da amostra para a população).
- Presente em todas as áreas: medicina, negócios, engenharia, ciências sociais e IA.
- Todo processo de análise de dados começa pela estatística descritiva.
Breve História
- Antiguidade (3000 a.C.): censos populacionais no Egito e Babilônia para tributação e exércitos.
- Séc. XVII: John Graunt (1662) analisa registros de mortalidade em Londres — primeiro uso sistemático.
- Séc. XVIII: Karl Friedrich Gauss desenvolve o método dos mínimos quadrados.
- Séc. XIX: Francis Galton introduz correlação e regressão. Florence Nightingale usa gráficos para salvar vidas.
- Séc. XX: Ronald Fisher funda a estatística moderna — ANOVA, máxima verossimilhança.
- Séc. XXI: Big Data, ciência de dados e IA tornam a estatística indispensável.
Descritiva vs. Inferencial
📋 Estatística Descritiva
- Resume dados já coletados
- Não há generalização
- Ferramentas: tabelas, gráficos, médias
- Exemplo: média de vendas do mês passado
- Responde: "O que aconteceu?"
🔮 Estatística Inferencial
- Generaliza da amostra para a população
- Usa probabilidade
- Ferramentas: intervalos de confiança, testes t
- Exemplo: prever resultado de eleição por sondagem
- Responde: "O que provavelmente acontece?"
Populações e Amostras
AMOSTRA (n): subconjunto da população.
Fração amostral = n / N
Exemplo: Pop. brasileiros com CPF (N ≈ 220 milhões)
Amostra: 1.500 entrevistados → fração ≈ 0,00068%
Tipos de Amostragem
- Aleatória Simples: cada elemento tem igual chance. Padrão ouro, mas exige lista completa.
- Estratificada: divide em subgrupos (estratos) e amostra cada um proporcionalmente.
- Por Conglomerados: seleciona grupos inteiros (ex: turmas de escola).
- Sistemática: seleciona a cada k-ésimo elemento. Ex: de 1.000, selecionar 1 a cada 10.
- Por Conveniência: seleciona os mais acessíveis — prática mas com viés potencial.
- Intencional (Purposive): pesquisador escolhe casos 'típicos' — usada em estudos qualitativos.
Atividades — Módulo 1
5 questõesa) Calcular a média de salários dos funcionários de uma empresa.
b) Prever o resultado de uma eleição com base numa pesquisa de 2.000 eleitores.
c) Apresentar um histograma das notas de uma turma.
d) Estimar a proporção de defeitos na produção a partir de uma amostra de 100 peças.
Tipos de Dados e Variáveis
Classificação completa de variáveis e as quatro escalas de medida que determinam quais operações e análises são válidas.
Classificação de Variáveis
As 4 Escalas de Medida
| Escala | Ordem? | Intervalos Iguais? | Zero Absoluto? | Exemplos |
|---|---|---|---|---|
| Nominal | ❌ Não | ❌ Não | ❌ Não | Cor, sexo, marca |
| Ordinal | ✅ Sim | ❌ Não | ❌ Não | Satisfação, grau |
| Intervalar | ✅ Sim | ✅ Sim | ❌ Não | Temperatura °C, QI |
| Razão | ✅ Sim | ✅ Sim | ✅ Sim | Peso, renda, altura |
Ordinal → =, ≠, <, > | Estatísticas: moda, mediana, percentis
Intervalar → =, ≠, <, >, +, − | Estatísticas: média, desvio padrão
Razão → =, ≠, <, >, +, −, ×, ÷ | Estatísticas: todas
Temperatura em °C: 0°C NÃO é ausência de calor. A diferença entre 20°C e 30°C é igual à de 30°C a 40°C, mas 40°C NÃO é o dobro de 20°C. Em Kelvin (escala de razão), K = °C + 273,15 — aí sim há zero absoluto.
Atividades — Módulo 2
4 questõesa) Número de irmãos de um aluno.
b) Grau de escolaridade.
c) Temperatura corporal em °C.
d) Cor dos olhos.
e) Renda mensal em reais.
f) Classificação de filmes (ruim, regular, bom, ótimo).
Distribuições de Frequência
Tabelas de frequência, histogramas, polígono de frequências, ogiva, assimetria e curtose das distribuições.
Tipos de Frequência
Freq. Percentual: fri% = (fi / n) × 100
Freq. Acumulada: Fi = Σfk (k=1 até i)
Freq. Rel. Acum.: Fri = Σfrk
Exemplo: Tabela Completa de Notas
| Classe | fi (abs.) | fri (%) | Fi (acum.) | Fri% (acum.) |
|---|---|---|---|---|
| [0 – 4) | 3 | 7,5% | 3 | 7,5% |
| [4 – 5) | 5 | 12,5% | 8 | 20,0% |
| [5 – 6) | 7 | 17,5% | 15 | 37,5% |
| [6 – 7) | 10 | 25,0% | 25 | 62,5% |
| [7 – 8) | 8 | 20,0% | 33 | 82,5% |
| [8 – 10] | 7 | 17,5% | 40 | 100,0% |
| Total | 40 | 100% | — | — |
Construindo Classes (Regra de Sturges)
- Passo 1 — Amplitude Total: AT = Xmáx − Xmín
- Passo 2 — Nº de Classes (k): Regra de Sturges → k = 1 + 3,322 × log₁₀(n)
- Passo 3 — Amplitude da Classe (h): h = AT / k (arredondar para valor conveniente)
- Passo 4 — Limites: 1ª classe começa em Xmín. Cada classe: [Li, Li+1)
- Passo 5 — Contagem: contar valores em cada intervalo
- Dica: todas as classes devem ter mesma amplitude para facilitar comparação visual
Assimetria e Curtose
📐 Assimetria (Skewness)
- Simétrica: Média = Mediana = Moda
- Positiva (direita): Moda < Mediana < Média
- Negativa (esquerda): Média < Mediana < Moda
- Pearson: As = (Média−Mediana)×3 / DP
📊 Curtose (Kurtosis)
- Mesocúrtica (K=3): normal — pico padrão
- Leptocúrtica (K>3): pico alto, caudas pesadas
- Platicúrtica (K<3): pico achatado, caudas leves
- Excesso: K_exc = K − 3
Atividades — Módulo 3
4 questõesa) Calcule o número de classes pela Regra de Sturges.
b) Calcule a amplitude total e a amplitude de cada classe.
c) Monte a tabela de distribuição de frequências completa (fi, fri%, Fi, Fri%).
[52–60): fi=4, fri=20%, Fi=4, Fri=20%
[60–68): fi=6, fri=30%, Fi=10, Fri=50%
[68–76): fi=5, fri=25%, Fi=15, Fri=75%
[76–84): fi=2, fri=10%, Fi=17, Fri=85%
[84–92]: fi=3, fri=15%, Fi=20, Fri=100%
Total: n=20, 100%
Classe [10–20): fi=8 | Classe [20–30): fi=12 | Classe [30–40): fi=? (Fri%=75%) | Classe [40–50): fi=5
a) Qual é o total n? b) Qual é fi para [30–40)? c) Qual é a Fri% de [40–50)?
Corrigindo: se fi[30-40) são 5 dados (0,75×20=15 acumulados até [30-40); 8+12=20>15), os dados do enunciado estão inconsistentes. Para estudo: Fri% acumulada = Fi/n × 100%.
Medidas de Tendência Central
Média aritmética, mediana, moda, média ponderada, geométrica e harmônica — quando usar cada uma.
Média Aritmética
População: μ = ΣXᵢ / N
Agrupados: x̄ = Σ(xᵢ · fᵢ) / n (xᵢ = marca de classe)
Dados normais: {4,6,7,8,10} → x̄ = 35/5 = 7
Com outlier: {4,6,7,8,100} → x̄ = 125/5 = 25 ← distorcida!
Quando há outlier, a mediana é mais representativa.
Classes: [50-60)→xᵢ=55, f=4 | [60-70)→xᵢ=65, f=9 | [70-80)→xᵢ=75, f=7. n=20.
x̄ = (55×4 + 65×9 + 75×7)/20 = (220+585+525)/20 = 1330/20 = 66,5
Mediana
n par: Md = [ x₍ₙ/₂₎ + x₍ₙ/₂₊₁₎ ] / 2
Agrupados: Md = L + [(n/2 − Fa) / fm] × h
n=5 (ímpar): {3,5,7,9,12} → Md = 7
n=4 (par): {3,5,7,9} → Md = (5+7)/2 = 6
Com outlier {3,5,7,9,100}: Md = 7 (não mudou! Robusta a outliers)
n=40, n/2=20. Classes: [60-70)→F=12; [70-80)→F=26 (mediana aqui!).
L=70, Fa=12, fm=14, h=10.
Md = 70 + [(20−12)/14] × 10 = 70 + 5,71 = 75,71
Moda
- Valor com maior frequência — único não sensível a outliers
- Unimodal: um único valor mais frequente
- Bimodal: dois valores igualmente frequentes
- Amodal: todos os valores com a mesma frequência — sem moda
- Para dados agrupados: Mo ≈ marca da classe com maior fi
{2,3,3,3,5,7,7,9} → Mo = 3
Bimodal: {1,1,1,3,5,7,7,7,9} → Mo = 1 e 7
Distribuição de renda: Moda ≈ R$1.500 | Mediana ≈ R$2.800 | Média ≈ R$3.900
Média Ponderada, Geométrica e Harmônica
Geométrica: MG = ⁿ√(x₁ × x₂ × ... × xₙ)
Harmônica: MH = n / Σ(1/xᵢ)
Relação: MH ≤ MG ≤ Aritmética
Ponderada: Disciplinas com pesos diferentes. Mat.(peso 3, nota 7), Fís.(peso 2, nota 8), Quím.(peso 1, nota 6). MP = (21+16+6)/6 = 7,17
Geométrica: Crescimento anual +10%, +20%, +30%. MG = ³√(1,10×1,20×1,30) ≈ 19,7% ao ano
Harmônica: Viagem: 60km/h ida, 40km/h volta. MH = 2×60×40/(60+40) = 48 km/h (NÃO 50!)
Atividades — Módulo 4
5 questõesMd = 30 + [(15−6)/10] × 10 = 30 + [9/10] × 10 = 30 + 9 = 39,0
Medidas de Dispersão
Variância, desvio padrão, coeficiente de variação e MAD — medindo o quanto os dados se afastam da média.
Amplitude Total
- Medida mais simples, mas extremamente sensível a outliers.
- Exemplo: {5,7,8,9,10,11,12} → A=7 | {5,7,8,9,10,11,100} → A=95 (distorcida!)
Variância e Desvio Padrão
Variância popul.: σ² = Σ(Xᵢ − μ)² / N
Desvio Padrão: s = √s² | σ = √σ²
Coef. de Variação: CV = (s / x̄) × 100%
Dados: {2,4,6,8,10} | x̄ = 6
Desvios: {−4,−2,0,2,4} | Desvios²: {16,4,0,4,16}
s² = (16+4+0+4+16)/(5−1) = 40/4 = 10
s = √10 ≈ 3,16
CV = (3,16/6) × 100% ≈ 52,7% (alta dispersão)
Interpretação do CV
Atividades — Módulo 5
4 questõesInv. A: {2%, 3%, 1%, 4%, 2%} | Inv. B: {-5%, 8%, 12%, -2%, 15%}
Calcule a média e o CV de cada um. Qual é mais arriscado?
Quartis e Percentis
Q1, Q2, Q3, IQR, regra de Tukey, box plot e análise de posição relativa nos dados.
Quartis
Q2 = P50 = Mediana: posição = (n+1) × 0,50
Q3 = P75: posição = (n+1) × 0,75
IQR (Amplitude Interquartil) = Q3 − Q1
Regra de Tukey (outliers):
Limite inferior = Q1 − 1,5 × IQR
Limite superior = Q3 + 1,5 × IQR
Dados ordenados: {12, 15, 18, 22, 25, 28, 30, 35, 42, 55} | n=10
Q1: posição (10+1)×0,25 = 2,75 → Q1 = 15+0,75×(18−15) = 17,25
Q3: posição (10+1)×0,75 = 8,25 → Q3 = 35+0,25×(42−35) = 36,75
IQR = 36,75 − 17,25 = 19,5
Limite inferior = 17,25 − 1,5×19,5 = −11,97 (nenhum outlier inf.)
Limite superior = 36,75 + 1,5×19,5 = 66,0 (55 está dentro — não é outlier)
Percentis
- P₍ₖ₎: k% dos dados estão abaixo desse valor
- P90 (Notas): quem está no percentil 90 pontuou mais que 90% dos candidatos
- Posição: L = (k/100) × (n+1)
- Decis: dividem os dados em 10 partes iguais
Atividades — Módulo 6
3 questõesVisualização de Dados
Histograma, barras, linhas, pizza, dispersão e boas práticas para comunicar dados com clareza e integridade.
Tipos de Gráfico e Quando Usar
| Gráfico | Tipo de Dado | Finalidade | Evitar Quando |
|---|---|---|---|
| Histograma | Quantitativo contínuo | Distribuição de frequências | Dados categóricos |
| Barras | Qualitativo / Discreto | Comparar categorias | Série temporal |
| Linhas | Série temporal | Tendência ao longo do tempo | Categorias sem ordem |
| Pizza | Partes do todo | Composição (máx 6 fatias) | Relatórios técnicos |
| Dispersão | Duas quantitativas | Relação entre variáveis | Uma variável só |
| Box Plot | Quantitativo | Distribuição + outliers | Pequenas amostras (n<5) |
Boas Práticas (e Erros Comuns)
❌ Erros Frequentes
- Eixo Y não começa em zero → distorce magnitude
- Pizza com 10 fatias → ilegível
- 3D em gráficos 2D → distorce proporções
- Excesso de cores → confunde
- Falta de título e unidades
- Escala diferente em eixos comparativos
✅ Boas Práticas
- Escala Y começa em zero (barras)
- Pizza apenas com ≤5 fatias
- Nunca usar 3D sem motivo
- Paleta de 2–3 cores com propósito
- Título, rótulos de eixo e fonte
- Mesma escala ao comparar séries
Atividades — Módulo 7
3 questõesCorrelação entre Variáveis
Pearson, Spearman, interpretação do coeficiente e a distinção fundamental: correlação ≠ causalidade.
Coeficiente de Pearson (r)
r varia de −1 a +1
r = +1: correlação positiva perfeita
r = −1: correlação negativa perfeita
r = 0: sem correlação linear
R² = r²: % da variação em Y explicada por X
Tabela de Interpretação
| |r| | Classificação | Interpretação Prática |
|---|---|---|
| 0,00 – 0,19 | Muito fraca | Relação praticamente inexistente |
| 0,20 – 0,39 | Fraca | Relação pequena, mas perceptível |
| 0,40 – 0,59 | Moderada | Relação notável — investigue mais |
| 0,60 – 0,79 | Forte | Relação consistente e relevante |
| 0,80 – 1,00 | Muito forte | Relação quase linear |
Spearman (ρ) — Para Dados Ordinais
onde dᵢ = diferença entre os postos (ranks) de xᵢ e yᵢ
Atividades — Módulo 8
3 questõesCalcule o coeficiente de Pearson e interprete o resultado.
Distribuição Normal e Padronização
A curva de Gauss, regra 68-95-99,7, escore-Z e o Teorema Central do Limite.
A Distribuição Normal (Gaussiana)
- A distribuição mais importante da estatística — aparece naturalmente em inúmeros fenômenos.
- Formato: curva em sino, simétrica em torno da média (μ). Média = Mediana = Moda.
- Parâmetros: definida por dois valores: μ (posição) e σ (escala/dispersão).
- Notação: X ~ N(μ, σ²) — X segue distribuição Normal com média μ e variância σ².
- Exemplos naturais: altura, peso, pressão arterial, erros de medição, QI, tempo de reação.
Regra Empírica 68-95-99,7
Escore-Z (Padronização)
X = μ + z · σ [retransformar]
Exemplo: altura μ=170cm, σ=8cm
Pessoa de 186cm: z = (186−170)/8 = 2,0
→ está 2 DPs acima da média → mais alto que ≈ 97,7% das pessoas
Teorema Central do Limite (TCL)
A distribuição das médias amostrais tende à Normal conforme n aumenta, independentemente da distribuição original dos dados.
Atividades — Módulo 9
4 questõesAna: nota 75, prova com μ=60, σ=15.
Bruno: nota 82, prova com μ=75, σ=10.
Qual dos dois teve desempenho relativo melhor?
Análise Exploratória de Dados (EDA)
Integrando tudo: pipeline completo do dado bruto ao insight, detecção de outliers e relatório final.
O que é EDA?
- EDA foi proposta por John Tukey (1977) para explorar dados antes de modelar.
- Objetivo: entender estrutura, padrões, relações e anomalias nos dados.
- Combina estatísticas descritivas com visualizações para gerar hipóteses.
- É iterativa: cada descoberta leva a novas perguntas.
- Regra de ouro: visualize SEMPRE antes de calcular.
Pipeline EDA em 6 Etapas
1. Carregar e Inspecionar
Shape, tipos, primeiras linhas. Quantas observações? Quantas colunas? Tipos de variáveis.
2. Tratar Dados Ausentes
Contar NaNs. Imputar ou remover. Como e por que os dados faltam?
3. Estatísticas Descritivas
Média, mediana, desvio, min, max, quartis. summary() / describe().
4. Distribuições
Histogramas e box plots para cada variável. Identificar assimetria e outliers.
5. Relações
Scatter plots, correlações (Pearson/Spearman). Heatmap da matriz de correlação.
6. Reportar Insights
Documentar achados, hipóteses e próximos passos para modelagem.
Detecção e Tratamento de Outliers
- Métodos de detecção: z-score (|z|>3), IQR (Tukey), histograma, box plot.
- Causas possíveis: erro de medição, erro de digitação, evento raro genuíno, mudança de regime.
- ⚠️ NUNCA remova outliers automaticamente! Primeiro investigue a causa.
- Opções de tratamento: corrigir o erro, manter, substituir (imputação), usar método robusto (mediana, Winsorização).
- Winsorização: substituir outliers pelo valor do percentil limite (ex: P5 e P95).
Exemplo: Relatório Estatístico Completo
| Estatística | Idade | Renda (R$) | Nota | Horas/semana |
|---|---|---|---|---|
| n | 500 | 500 | 500 | 500 |
| Média | 34,2 | 4.820 | 6,5 | 42,3 |
| Mediana | 32,0 | 3.500 | 6,8 | 40,0 |
| Moda | 28,0 | 2.800 | 7,0 | 40,0 |
| Desv. Padrão | 10,4 | 3.210 | 1,8 | 8,7 |
| CV (%) | 30,4% | 66,6% | 27,7% | 20,6% |
| Mínimo | 18 | 1.320 | 0 | 20 |
| Q1 | 26 | 2.650 | 5,4 | 37 |
| Q3 | 42 | 6.100 | 7,8 | 48 |
| Máximo | 72 | 28.500 | 10 | 80 |
Atividades — Módulo 10
4 questões1. Erro de digitação: 31,2 foi digitado como 312.
2. Erro de sistema: campo data de nascimento em formato errado → cálculo incorreto.
3. Código especial: 312 pode ser um código do sistema para "informação não coletada".
1. Corrigir o erro (se possível verificar na fonte original).
2. Substituir pelo valor mediano ou médio de uma faixa similar (imputação).
3. Marcar como "missing" (NaN) e tratar com método de dados ausentes.
IQR = Q3 − Q1 = 48 − 37 = 11
Limite superior = Q3 + 1,5×IQR = 48 + 16,5 = 64,5
O máximo observado é 80 > 64,5 → há suspeita de outlier no limite superior.