Aplicativo de Estatística Descritiva

Estatística Descritiva — Prof. Luiz de Castro
📚 Bem-vindo ao Curso

Estatística Descritiva
do Básico ao Avançado

Material completo elaborado pelo Prof. Luiz de Castro. Explore cada módulo com teoria aprofundada, fórmulas comentadas, exemplos práticos e atividades com gabarito.

10
Módulos Completos
100+
Slides de Conteúdo
50+
Fórmulas e Exemplos
30+
Atividades com Gabarito

Agenda do Curso

🔬

Módulo 1 — Fundamentos

O que é estatística, sua história, diferença entre descritiva e inferencial, conceitos de população e amostra.

🗂️

Módulo 2 — Tipos de Dados

Variáveis qualitativas e quantitativas, escalas nominal, ordinal, intervalar e de razão.

📊

Módulo 3 — Frequências

Tabelas de frequência, histogramas, ogivas, assimetria e curtose das distribuições.

⚖️

Módulo 4 — Tendência Central

Média aritmética, mediana, moda, média ponderada, geométrica e harmônica.

📏

Módulo 5 — Dispersão

Amplitude, variância, desvio padrão, coeficiente de variação e desvio médio absoluto.

📐

Módulo 6 — Quartis e Percentis

Q1, Q2, Q3, IQR, box plot, regra de Tukey e identificação de outliers.

🎨

Módulo 7 — Visualização

Histograma, barras, linhas, pizza, dispersão e boas práticas em gráficos.

🔗

Módulo 8 — Correlação

Pearson, Spearman, interpretação e correlação ≠ causalidade.

🔔

Módulo 9 — Distribuição Normal

Curva de Gauss, regra 68-95-99,7, escore-Z e Teorema Central do Limite.

🔭

Módulo 10 — EDA

Análise exploratória de dados: pipeline completo, outliers e relatório final.

💬 Citação do Curso
"Se você não pode medir, não pode melhorar. Se não pode descrever o que faz em termos de números, seu conhecimento é pobre e insatisfatório."
— Lord Kelvin (1824–1907)
Módulo 1

Fundamentos da Estatística

O que é estatística, para que serve, como nasceu, conceitos de população e amostra, e tipos de amostragem.

O que é Estatística?

  • Ciência que coleta, organiza, resume, analisa e interpreta dados para suportar decisões.
  • A palavra vem do latim 'status' (estado), pois originou-se no controle de informações estatais.
  • Dividida em: Estatística Descritiva (resume o que foi observado) e Inferencial (generaliza da amostra para a população).
  • Presente em todas as áreas: medicina, negócios, engenharia, ciências sociais e IA.
  • Todo processo de análise de dados começa pela estatística descritiva.

Breve História

  • Antiguidade (3000 a.C.): censos populacionais no Egito e Babilônia para tributação e exércitos.
  • Séc. XVII: John Graunt (1662) analisa registros de mortalidade em Londres — primeiro uso sistemático.
  • Séc. XVIII: Karl Friedrich Gauss desenvolve o método dos mínimos quadrados.
  • Séc. XIX: Francis Galton introduz correlação e regressão. Florence Nightingale usa gráficos para salvar vidas.
  • Séc. XX: Ronald Fisher funda a estatística moderna — ANOVA, máxima verossimilhança.
  • Séc. XXI: Big Data, ciência de dados e IA tornam a estatística indispensável.

Descritiva vs. Inferencial

📋 Estatística Descritiva

  • Resume dados já coletados
  • Não há generalização
  • Ferramentas: tabelas, gráficos, médias
  • Exemplo: média de vendas do mês passado
  • Responde: "O que aconteceu?"

🔮 Estatística Inferencial

  • Generaliza da amostra para a população
  • Usa probabilidade
  • Ferramentas: intervalos de confiança, testes t
  • Exemplo: prever resultado de eleição por sondagem
  • Responde: "O que provavelmente acontece?"

Populações e Amostras

📐 Conceitos e Fórmulas
POPULAÇÃO (N): todos os elementos de interesse.
AMOSTRA (n): subconjunto da população.
Fração amostral = n / N

Exemplo: Pop. brasileiros com CPF (N ≈ 220 milhões)
Amostra: 1.500 entrevistados → fração ≈ 0,00068%

Tipos de Amostragem

  • Aleatória Simples: cada elemento tem igual chance. Padrão ouro, mas exige lista completa.
  • Estratificada: divide em subgrupos (estratos) e amostra cada um proporcionalmente.
  • Por Conglomerados: seleciona grupos inteiros (ex: turmas de escola).
  • Sistemática: seleciona a cada k-ésimo elemento. Ex: de 1.000, selecionar 1 a cada 10.
  • Por Conveniência: seleciona os mais acessíveis — prática mas com viés potencial.
  • Intencional (Purposive): pesquisador escolhe casos 'típicos' — usada em estudos qualitativos.
✏️

Atividades — Módulo 1

5 questões
1
Uma empresa deseja pesquisar a satisfação de seus 8.000 clientes. Define-se uma amostra de 400 pessoas. Qual é a fração amostral? Qual tipo de amostragem seria mais adequado se a empresa quiser garantir representatividade por região (Sul, Nordeste, Sudeste)?

Fração amostral: n/N = 400/8.000 = 0,05 = 5%
Tipo mais adequado: Amostragem Estratificada, pois divide a população em subgrupos (regiões) e coleta proporcionalmente de cada estrato, garantindo representatividade geográfica.
2
Classifique cada situação como Estatística Descritiva ou Inferencial:
a) Calcular a média de salários dos funcionários de uma empresa.
b) Prever o resultado de uma eleição com base numa pesquisa de 2.000 eleitores.
c) Apresentar um histograma das notas de uma turma.
d) Estimar a proporção de defeitos na produção a partir de uma amostra de 100 peças.


a) Descritiva — resume dados já coletados (todos os funcionários).
b) Inferencial — generaliza da amostra (2.000) para a população (todos eleitores).
c) Descritiva — visualiza dados já existentes da turma.
d) Inferencial — usa amostra (100 peças) para estimar proporção em toda a produção.
3
Explique a diferença entre DADO, INFORMAÇÃO e CONHECIMENTO usando um exemplo da área de saúde.

Dado: "135/85" (número bruto, sem contexto).
Informação: "Paciente João tem pressão arterial de 135/85 mmHg" (dado com contexto).
Conhecimento: "A pressão de João está acima do normal (120/80). Ele está em estágio 1 de hipertensão e pode precisar de acompanhamento médico e mudanças no estilo de vida." (compreensão para ação).
4
Uma escola com 500 alunos quer selecionar 50 para uma pesquisa sobre hábitos de estudo. Descreva como seria aplicada a amostragem sistemática neste caso.

Passo 1: Calcular o intervalo k = N/n = 500/50 = 10.
Passo 2: Numerar todos os alunos de 1 a 500.
Passo 3: Sortear aleatoriamente o primeiro aluno entre 1 e 10 (ex: aluno 3).
Passo 4: Selecionar a cada 10: alunos 3, 13, 23, 33, ... até o aluno 493. Total: 50 alunos.
5
Por que o censo é raramente utilizado em grandes populações? Cite duas vantagens da amostragem em relação ao censo.

O censo é raramente utilizado porque: é muito caro, demora muito tempo, exige grande equipe e logística complexa. Para populações de milhões de pessoas, torna-se praticamente inviável.
Vantagem 1: Custo — a amostragem é muito mais barata, pois coleta dados de apenas uma fração da população.
Vantagem 2: Velocidade — resultados são obtidos muito mais rapidamente, sendo essencial em pesquisas com urgência (como pesquisas eleitorais ou monitoramento epidemiológico).
Módulo 2

Tipos de Dados e Variáveis

Classificação completa de variáveis e as quatro escalas de medida que determinam quais operações e análises são válidas.

Classificação de Variáveis

Qualitativa Nominal
Categorias sem ordem. Cor, gênero, marca, país.
Qualitativa Ordinal
Categorias com ordem. Satisfação, grau escolar.
Quantitativa Discreta
Valores inteiros. Nº filhos, defeitos.
Quantitativa Contínua
Qualquer valor. Altura, peso, renda.

As 4 Escalas de Medida

EscalaOrdem?Intervalos Iguais?Zero Absoluto?Exemplos
Nominal❌ Não❌ Não❌ NãoCor, sexo, marca
Ordinal✅ Sim❌ Não❌ NãoSatisfação, grau
Intervalar✅ Sim✅ Sim❌ NãoTemperatura °C, QI
Razão✅ Sim✅ Sim✅ SimPeso, renda, altura
📐 Operações por Escala
Nominal → = ou ≠ | Estatísticas: moda, frequência
Ordinal → =, ≠, <, > | Estatísticas: moda, mediana, percentis
Intervalar → =, ≠, <, >, +, − | Estatísticas: média, desvio padrão
Razão → =, ≠, <, >, +, −, ×, ÷ | Estatísticas: todas
✅ Exemplo Escala Intervalar

Temperatura em °C: 0°C NÃO é ausência de calor. A diferença entre 20°C e 30°C é igual à de 30°C a 40°C, mas 40°C NÃO é o dobro de 20°C. Em Kelvin (escala de razão), K = °C + 273,15 — aí sim há zero absoluto.

✏️

Atividades — Módulo 2

4 questões
1
Classifique cada variável abaixo quanto ao tipo (Qualitativa Nominal, Qualitativa Ordinal, Quantitativa Discreta, Quantitativa Contínua) e identifique a escala (Nominal, Ordinal, Intervalar, Razão):
a) Número de irmãos de um aluno.
b) Grau de escolaridade.
c) Temperatura corporal em °C.
d) Cor dos olhos.
e) Renda mensal em reais.
f) Classificação de filmes (ruim, regular, bom, ótimo).


a) Quantitativa Discreta | Escala de Razão (zero = nenhum irmão).
b) Qualitativa Ordinal | Escala Ordinal (há ordem, mas diferenças não são iguais).
c) Quantitativa Contínua | Escala Intervalar (0°C ≠ ausência de temperatura).
d) Qualitativa Nominal | Escala Nominal (sem ordem entre as cores).
e) Quantitativa Contínua | Escala de Razão (R$0 = ausência de renda; R$10k = 2× R$5k).
f) Qualitativa Ordinal | Escala Ordinal (ordem definida, mas diferenças não são iguais).
2
Por que não podemos afirmar que 40°C é "o dobro de 20°C" em termos de calor, mas podemos afirmar que uma peça de 4 kg tem o dobro da massa de uma de 2 kg?

A diferença está na escala de medida. A temperatura em °Celsius é escala intervalar: o zero é arbitrário (0°C = ponto de fusão da água, não ausência de calor). Logo, razões não fazem sentido (40°C ÷ 20°C ≠ 2× de calor).
A massa em quilogramas é escala de razão: o zero é absoluto (0 kg = ausência de massa). Portanto, divisões fazem sentido: 4 kg ÷ 2 kg = 2, ou seja, tem exatamente o dobro da massa.
3
Um pesquisador usa um código numérico para representar estados brasileiros: 1 = SP, 2 = RJ, 3 = MG, etc. Ele calcula a "média" desses códigos e obtém 2,4. Esse cálculo faz sentido? Justifique.

Não faz sentido. Os códigos de estado são variáveis nominais — apenas rótulos sem significado numérico. O código "2" para RJ não é maior nem maior que "1" para SP; é apenas uma identificação arbitrária.
Calcular média (ou qualquer operação aritmética) em variáveis nominais é um erro estatístico. A única medida válida é a moda (o estado mais frequente) e frequências absolutas e relativas.
4
Qual é a diferença entre variáveis discretas e contínuas? Dê 2 exemplos de cada e explique qual gráfico é mais adequado para representar cada tipo.

Discretas: assumem valores inteiros contáveis; geralmente resultam de contagem. Ex: número de gols em uma partida; número de alunos presentes. Gráfico ideal: gráfico de barras (com espaço entre barras).
Contínuas: assumem qualquer valor em um intervalo (limitadas apenas pela precisão do instrumento de medição). Ex: altura de uma pessoa (1,72m, 1,724m...); tempo de corrida. Gráfico ideal: histograma (barras adjacentes, sem espaço) ou box plot.
Módulo 3

Distribuições de Frequência

Tabelas de frequência, histogramas, polígono de frequências, ogiva, assimetria e curtose das distribuições.

Tipos de Frequência

📐 Fórmulas Essenciais
Freq. Relativa: fri = fi / n
Freq. Percentual: fri% = (fi / n) × 100
Freq. Acumulada: Fi = Σfk (k=1 até i)
Freq. Rel. Acum.: Fri = Σfrk

Exemplo: Tabela Completa de Notas

Classefi (abs.)fri (%)Fi (acum.)Fri% (acum.)
[0 – 4)37,5%37,5%
[4 – 5)512,5%820,0%
[5 – 6)717,5%1537,5%
[6 – 7)1025,0%2562,5%
[7 – 8)820,0%3382,5%
[8 – 10]717,5%40100,0%
Total40100%

Construindo Classes (Regra de Sturges)

  • Passo 1 — Amplitude Total: AT = Xmáx − Xmín
  • Passo 2 — Nº de Classes (k): Regra de Sturges → k = 1 + 3,322 × log₁₀(n)
  • Passo 3 — Amplitude da Classe (h): h = AT / k (arredondar para valor conveniente)
  • Passo 4 — Limites: 1ª classe começa em Xmín. Cada classe: [Li, Li+1)
  • Passo 5 — Contagem: contar valores em cada intervalo
  • Dica: todas as classes devem ter mesma amplitude para facilitar comparação visual

Assimetria e Curtose

📐 Assimetria (Skewness)

  • Simétrica: Média = Mediana = Moda
  • Positiva (direita): Moda < Mediana < Média
  • Negativa (esquerda): Média < Mediana < Moda
  • Pearson: As = (Média−Mediana)×3 / DP

📊 Curtose (Kurtosis)

  • Mesocúrtica (K=3): normal — pico padrão
  • Leptocúrtica (K>3): pico alto, caudas pesadas
  • Platicúrtica (K<3): pico achatado, caudas leves
  • Excesso: K_exc = K − 3
✏️

Atividades — Módulo 3

4 questões
1
Os dados a seguir representam o peso (kg) de 20 estudantes: {52, 61, 75, 80, 55, 68, 72, 90, 58, 65, 70, 85, 62, 77, 60, 69, 73, 88, 57, 66}.
a) Calcule o número de classes pela Regra de Sturges.
b) Calcule a amplitude total e a amplitude de cada classe.
c) Monte a tabela de distribuição de frequências completa (fi, fri%, Fi, Fri%).


a) Regra de Sturges: k = 1 + 3,322 × log₁₀(20) = 1 + 3,322 × 1,301 ≈ 1 + 4,32 ≈ 5 classes
b) Amplitude: AT = 90 − 52 = 38 kg | h = 38/5 = 7,6 → arredondar para h = 8 kg
c) Tabela (com h=8, início em 52):
[52–60): fi=4, fri=20%, Fi=4, Fri=20%
[60–68): fi=6, fri=30%, Fi=10, Fri=50%
[68–76): fi=5, fri=25%, Fi=15, Fri=75%
[76–84): fi=2, fri=10%, Fi=17, Fri=85%
[84–92]: fi=3, fri=15%, Fi=20, Fri=100%
Total: n=20, 100%
2
Na tabela de frequências abaixo, calcule as frequências faltantes:
Classe [10–20): fi=8 | Classe [20–30): fi=12 | Classe [30–40): fi=? (Fri%=75%) | Classe [40–50): fi=5
a) Qual é o total n? b) Qual é fi para [30–40)? c) Qual é a Fri% de [40–50)?


A frequência acumulada relativa de [30–40) é 75%, significa que 75% dos dados estão até o final dessa classe.
Fi até [30–40) = 0,75 × n. Mas Fi até [20–30) = 8+12 = 20. Então 20 + fi[30-40) = 0,75n.
a) Total n: 8+12+fi[30-40)+5 = n. Como Fri[40-50)=100%, sabemos que até [30-40) há 75%. Os 25% restantes = 5 observações → 0,25n = 5 → n = 20.
b) fi[30–40): n − 8 − 12 − 5 = 20 − 25 = fi = -5? Recalculando: 8+12+5=25 > 20 — Revisão: n = 8+12+x+5=25+x. 75% do total acumula até [30-40): Fi = 8+12+x = 0,75(25+x) → 20+x = 18,75+0,75x → 0,25x = −1,25. Então n = 8+12+? — conforme dado: fi[30-40) = 75%×n − 20. Se Fri[40-50)=100%, n=8+12+fi30+5 → fi30 = n−25. E Fi30 = 0,75n → 8+12+fi30 = 0,75n → fi30 = 0,75n−20. Igualando: n−25 = 0,75n−20 → 0,25n = 5 → n=20, fi[30-40) = 20−25 = -5 — isso indica inconsistência no enunciado.
Corrigindo: se fi[30-40) são 5 dados (0,75×20=15 acumulados até [30-40); 8+12=20>15), os dados do enunciado estão inconsistentes. Para estudo: Fri% acumulada = Fi/n × 100%.
c) Fri% de [40–50): como é a última classe, Fri% = 100%
3
Numa distribuição de frequências, a média é 45, a mediana é 50 e o desvio padrão é 15. Calcule o coeficiente de assimetria de Pearson e classifique a distribuição (simétrica, positiva ou negativa).

Fórmula de Pearson: As = (Média − Mediana) × 3 / Desvio Padrão
As = (45 − 50) × 3 / 15 = (−5 × 3) / 15 = −15/15 = −1,0
Classificação: Assimetria Negativa (à esquerda). A média é menor que a mediana, indicando cauda longa à esquerda. O valor −1,0 indica assimetria moderada a forte.
4
A marca de classe de um intervalo é 37,5 e a amplitude é 5. Quais são os limites inferior e superior desse intervalo?

Fórmula: Marca de classe = (Limite inferior + Limite superior) / 2
Amplitude = Limite superior − Limite inferior = 5
Limite superior = Limite inferior + 5. Substituindo: 37,5 = (Li + Li + 5)/2 → 75 = 2Li + 5 → 2Li = 70 → Li = 35
Limite superior = 35 + 5 = 40. Portanto, o intervalo é [35 – 40).
Módulo 4

Medidas de Tendência Central

Média aritmética, mediana, moda, média ponderada, geométrica e harmônica — quando usar cada uma.

Média Aritmética

📐 Fórmulas
Amostra: x̄ = Σxᵢ / n
População: μ = ΣXᵢ / N
Agrupados: x̄ = Σ(xᵢ · fᵢ) / n (xᵢ = marca de classe)
✅ Exemplo com Outlier

Dados normais: {4,6,7,8,10} → x̄ = 35/5 = 7
Com outlier: {4,6,7,8,100} → x̄ = 125/5 = 25 ← distorcida!
Quando há outlier, a mediana é mais representativa.

✅ Exemplo Agrupados

Classes: [50-60)→xᵢ=55, f=4 | [60-70)→xᵢ=65, f=9 | [70-80)→xᵢ=75, f=7. n=20.
x̄ = (55×4 + 65×9 + 75×7)/20 = (220+585+525)/20 = 1330/20 = 66,5

Mediana

📐 Fórmulas
n ímpar: Md = x₍ₙ₊₁₎/₂
n par: Md = [ x₍ₙ/₂₎ + x₍ₙ/₂₊₁₎ ] / 2
Agrupados: Md = L + [(n/2 − Fa) / fm] × h
✅ Exemplos

n=5 (ímpar): {3,5,7,9,12} → Md = 7
n=4 (par): {3,5,7,9} → Md = (5+7)/2 = 6
Com outlier {3,5,7,9,100}: Md = 7 (não mudou! Robusta a outliers)

✅ Agrupados

n=40, n/2=20. Classes: [60-70)→F=12; [70-80)→F=26 (mediana aqui!).
L=70, Fa=12, fm=14, h=10.
Md = 70 + [(20−12)/14] × 10 = 70 + 5,71 = 75,71

Moda

  • Valor com maior frequência — único não sensível a outliers
  • Unimodal: um único valor mais frequente
  • Bimodal: dois valores igualmente frequentes
  • Amodal: todos os valores com a mesma frequência — sem moda
  • Para dados agrupados: Mo ≈ marca da classe com maior fi
✅ Exemplo

{2,3,3,3,5,7,7,9} → Mo = 3
Bimodal: {1,1,1,3,5,7,7,7,9} → Mo = 1 e 7
Distribuição de renda: Moda ≈ R$1.500 | Mediana ≈ R$2.800 | Média ≈ R$3.900

Média Ponderada, Geométrica e Harmônica

📐 Fórmulas Avançadas
Ponderada: MP = Σ(xᵢ × wᵢ) / Σwᵢ
Geométrica: MG = ⁿ√(x₁ × x₂ × ... × xₙ)
Harmônica: MH = n / Σ(1/xᵢ)

Relação: MH ≤ MG ≤ Aritmética
✅ Quando Usar Cada Média

Ponderada: Disciplinas com pesos diferentes. Mat.(peso 3, nota 7), Fís.(peso 2, nota 8), Quím.(peso 1, nota 6). MP = (21+16+6)/6 = 7,17

Geométrica: Crescimento anual +10%, +20%, +30%. MG = ³√(1,10×1,20×1,30) ≈ 19,7% ao ano

Harmônica: Viagem: 60km/h ida, 40km/h volta. MH = 2×60×40/(60+40) = 48 km/h (NÃO 50!)

✏️

Atividades — Módulo 4

5 questões
1
Calcule média, mediana e moda para: {12, 15, 15, 17, 18, 20, 20, 20, 22, 25}. Explique o que cada medida representa.

Média: x̄ = (12+15+15+17+18+20+20+20+22+25)/10 = 184/10 = 18,4
Mediana (n=10, par): Md = (18+20)/2 = 19,0
Moda: Mo = 20 (aparece 3 vezes)
Interpretação: Média = valor equilibrado de todos os dados. Mediana = valor central (50% acima, 50% abaixo). Moda = valor mais comum. Como Média(18,4) < Mediana(19) < Moda(20), a distribuição tem leve assimetria negativa.
2
Um aluno tirou as seguintes notas com seus respectivos pesos: Cálculo (peso 4, nota 6), Estatística (peso 3, nota 8), Programação (peso 2, nota 7), Gestão (peso 1, nota 9). Qual é a média ponderada? Ele foi aprovado se a nota mínima for 7,0?

MP = Σ(xᵢ × wᵢ) / Σwᵢ
MP = (6×4 + 8×3 + 7×2 + 9×1) / (4+3+2+1)
MP = (24 + 24 + 14 + 9) / 10 = 71/10 = 7,1
Resultado: O aluno foi aprovado (7,1 ≥ 7,0), embora por margem pequena. Nota: a disciplina com maior peso (Cálculo, peso 4) tinha a menor nota (6), o que puxou a média para baixo.
3
Uma empresa cresceu 5%, −3% e 12% nos últimos 3 anos. Qual foi a taxa de crescimento médio anual? Use a média geométrica (dica: fatores = 1,05; 0,97; 1,12).

MG = ³√(1,05 × 0,97 × 1,12)
Produto = 1,05 × 0,97 × 1,12 = 1,05 × 1,0864 = 1,14072
MG = ³√1,14072 ≈ 1,0447
Taxa média anual ≈ 4,47% ao ano. A média aritmética simples seria (5−3+12)/3 = 4,67% — mas a geométrica é mais precisa para taxas de crescimento compostas.
4
Os salários mensais de 5 funcionários de uma startup são: R$ 2.000, R$ 2.500, R$ 2.800, R$ 3.000 e R$ 45.000 (CEO). Calcule média e mediana. Qual é mais representativa? Por quê?

Média: x̄ = (2000+2500+2800+3000+45000)/5 = 55300/5 = R$ 11.060
Mediana (n=5, ímpar): Ordenado: {2000, 2500, 2800, 3000, 45000} → Md = x₃ = R$ 2.800
Mais representativa: MEDIANA. O salário do CEO (R$45.000) é um outlier que distorce a média para R$11.060 — valor que nenhum funcionário operacional ganha. A mediana (R$2.800) representa melhor a realidade salarial dos trabalhadores. Dados de renda são sempre melhor representados pela mediana.
5
Calcule a mediana para dados agrupados: n=30, classes: [20-30)→fi=6 | [30-40)→fi=10 | [40-50)→fi=9 | [50-60)→fi=5

n/2 = 30/2 = 15 — precisamos da classe onde a freq. acumulada atinge 15.
F acumulada: [20-30) → Fi=6 | [30-40) → Fi=6+10=16 ✓ (classe mediana!)
Fórmula: Md = L + [(n/2 − Fa) / fm] × h
L=30, Fa=6, fm=10, h=10
Md = 30 + [(15−6)/10] × 10 = 30 + [9/10] × 10 = 30 + 9 = 39,0
Módulo 5

Medidas de Dispersão

Variância, desvio padrão, coeficiente de variação e MAD — medindo o quanto os dados se afastam da média.

⚠️ Mesma média ≠ mesma realidade! Conjuntos A={5,5,5,5,5} e B={1,3,5,7,9} têm x̄=5, mas realidades completamente diferentes. As medidas de dispersão revelam essa diferença.

Amplitude Total

📐 Fórmula
A = Xmáx − Xmín
  • Medida mais simples, mas extremamente sensível a outliers.
  • Exemplo: {5,7,8,9,10,11,12} → A=7 | {5,7,8,9,10,11,100} → A=95 (distorcida!)

Variância e Desvio Padrão

📐 Fórmulas Centrais
Variância amostral: s² = Σ(xᵢ − x̄)² / (n−1) [Correção de Bessel]
Variância popul.: σ² = Σ(Xᵢ − μ)² / N
Desvio Padrão: s = √s² | σ = √σ²

Coef. de Variação: CV = (s / x̄) × 100%
✅ Exemplo Passo a Passo

Dados: {2,4,6,8,10} | x̄ = 6
Desvios: {−4,−2,0,2,4} | Desvios²: {16,4,0,4,16}
s² = (16+4+0+4+16)/(5−1) = 40/4 = 10
s = √10 ≈ 3,16
CV = (3,16/6) × 100% ≈ 52,7% (alta dispersão)

Interpretação do CV

CV < 15% — Baixa variação (homogêneo)15%
CV 15–30% — Média variação30%
CV > 30% — Alta variação (heterogêneo)60%+
✏️

Atividades — Módulo 5

4 questões
1
Calcule a variância e o desvio padrão amostral para: {3, 7, 7, 19}.

x̄ = (3+7+7+19)/4 = 36/4 = 9
Desvios: (3−9)=−6; (7−9)=−2; (7−9)=−2; (19−9)=10
Desvios²: 36; 4; 4; 100 | Soma = 144
s² = 144/(4−1) = 144/3 = 48
s = √48 ≈ 6,93
2
Turma A: média 70, desvio padrão 5. Turma B: média 70, desvio padrão 18. Compare as turmas usando o CV e diga qual é mais homogênea.

CV Turma A = (5/70) × 100% ≈ 7,1% → Baixa variação (homogênea)
CV Turma B = (18/70) × 100% ≈ 25,7% → Média variação (heterogênea)
A Turma A é muito mais homogênea. Apesar de ambas terem a mesma média (70 pontos), na Turma A os alunos performam de forma mais uniforme. Na Turma B há grande dispersão — alguns alunos com notas muito baixas e outros muito altas.
3
Por que usamos (n−1) no denominador da variância amostral em vez de n? O que é a "Correção de Bessel"?

Quando calculamos a variância de uma amostra usando n no denominador, o resultado tende a subestimar a variância real da população — é um estimador viesado.
A Correção de Bessel usa (n−1) — chamado de "graus de liberdade" — para corrigir esse viés. Isso porque, ao calcular x̄ a partir da amostra, perdemos um "grau de liberdade": o último valor é determinado pelos demais e pela média.
Com (n−1), o estimador se torna não-viesado: em média, reflete corretamente a variância populacional σ².
4
Dois investimentos têm os seguintes retornos mensais:
Inv. A: {2%, 3%, 1%, 4%, 2%} | Inv. B: {-5%, 8%, 12%, -2%, 15%}
Calcule a média e o CV de cada um. Qual é mais arriscado?


Inv. A: x̄ = (2+3+1+4+2)/5 = 12/5 = 2,4% | Desvios²: 0,16; 0,36; 1,96; 2,56; 0,16 → s² = 5,2/4 = 1,3 → s ≈ 1,14% → CV = 1,14/2,4 × 100 ≈ 47,5%
Inv. B: x̄ = (-5+8+12-2+15)/5 = 28/5 = 5,6% | Desvios: -10,6; 2,4; 6,4; -7,6; 9,4 | Desvios²: 112,36; 5,76; 40,96; 57,76; 88,36 → s² = 305,2/4 = 76,3 → s ≈ 8,73% → CV = 8,73/5,6 × 100 ≈ 155,9%
O Investimento B é muito mais arriscado (CV altíssimo de 155,9%). Embora tenha retorno médio maior (5,6% vs 2,4%), a variabilidade é enorme, com retornos que vão de −5% a +15%. O Inv. A é mais previsível e conservador.
Módulo 6

Quartis e Percentis

Q1, Q2, Q3, IQR, regra de Tukey, box plot e análise de posição relativa nos dados.

Quartis

📐 Fórmulas
Q1 = P25: posição = (n+1) × 0,25
Q2 = P50 = Mediana: posição = (n+1) × 0,50
Q3 = P75: posição = (n+1) × 0,75
IQR (Amplitude Interquartil) = Q3 − Q1

Regra de Tukey (outliers):
Limite inferior = Q1 − 1,5 × IQR
Limite superior = Q3 + 1,5 × IQR
✅ Exemplo Completo

Dados ordenados: {12, 15, 18, 22, 25, 28, 30, 35, 42, 55} | n=10
Q1: posição (10+1)×0,25 = 2,75 → Q1 = 15+0,75×(18−15) = 17,25
Q3: posição (10+1)×0,75 = 8,25 → Q3 = 35+0,25×(42−35) = 36,75
IQR = 36,75 − 17,25 = 19,5
Limite inferior = 17,25 − 1,5×19,5 = −11,97 (nenhum outlier inf.)
Limite superior = 36,75 + 1,5×19,5 = 66,0 (55 está dentro — não é outlier)

Percentis

  • P₍ₖ₎: k% dos dados estão abaixo desse valor
  • P90 (Notas): quem está no percentil 90 pontuou mais que 90% dos candidatos
  • Posição: L = (k/100) × (n+1)
  • Decis: dividem os dados em 10 partes iguais
✏️

Atividades — Módulo 6

3 questões
1
Para os dados {4, 6, 7, 8, 9, 10, 11, 13, 15, 20}: calcule Q1, Q2, Q3, IQR e verifique se o valor 20 é outlier pela Regra de Tukey.

n=10. Posições:
Q1: L = (10+1)×0,25 = 2,75 → Q1 = x₂ + 0,75(x₃−x₂) = 6 + 0,75(7−6) = 6,75
Q2: L = (10+1)×0,50 = 5,5 → Q2 = x₅ + 0,5(x₆−x₅) = 9+0,5(10−9) = 9,5
Q3: L = (10+1)×0,75 = 8,25 → Q3 = x₈ + 0,25(x₉−x₈) = 13+0,25(15−13) = 13,5
IQR = 13,5 − 6,75 = 6,75
Limite superior = Q3 + 1,5×IQR = 13,5 + 1,5×6,75 = 13,5 + 10,125 = 23,625
20 < 23,625 → o valor 20 NÃO é outlier pela regra de Tukey.
2
Num concurso público com 800 candidatos, João ficou na posição 560 (do menor para o maior). Em que percentil ele está? O que isso significa?

Percentil = (posição / n) × 100
Percentil = (560 / 800) × 100 = P70
Significado: João pontuou mais do que 70% dos candidatos, ou seja, sua nota é superior à de 560 pessoas. Ele está no 30% superior dos candidatos, o que geralmente é uma posição competitiva em concursos.
3
Em um conjunto de dados, Q1=20, Q3=35. Um valor de 55 é outlier? E um valor de −5? Calcule os limites e classifique.

IQR = Q3 − Q1 = 35 − 20 = 15
Limite inferior = Q1 − 1,5×IQR = 20 − 22,5 = −2,5
Limite superior = Q3 + 1,5×IQR = 35 + 22,5 = 57,5
Valor 55: 55 < 57,5 → NÃO é outlier
Valor −5: −5 < −2,5 → SIM, é outlier (abaixo do limite inferior)
Módulo 7

Visualização de Dados

Histograma, barras, linhas, pizza, dispersão e boas práticas para comunicar dados com clareza e integridade.

Tipos de Gráfico e Quando Usar

GráficoTipo de DadoFinalidadeEvitar Quando
HistogramaQuantitativo contínuoDistribuição de frequênciasDados categóricos
BarrasQualitativo / DiscretoComparar categoriasSérie temporal
LinhasSérie temporalTendência ao longo do tempoCategorias sem ordem
PizzaPartes do todoComposição (máx 6 fatias)Relatórios técnicos
DispersãoDuas quantitativasRelação entre variáveisUma variável só
Box PlotQuantitativoDistribuição + outliersPequenas amostras (n<5)

Boas Práticas (e Erros Comuns)

❌ Erros Frequentes

  • Eixo Y não começa em zero → distorce magnitude
  • Pizza com 10 fatias → ilegível
  • 3D em gráficos 2D → distorce proporções
  • Excesso de cores → confunde
  • Falta de título e unidades
  • Escala diferente em eixos comparativos

✅ Boas Práticas

  • Escala Y começa em zero (barras)
  • Pizza apenas com ≤5 fatias
  • Nunca usar 3D sem motivo
  • Paleta de 2–3 cores com propósito
  • Título, rótulos de eixo e fonte
  • Mesma escala ao comparar séries
✏️

Atividades — Módulo 7

3 questões
1
Qual a diferença entre histograma e gráfico de barras? Por que o histograma não tem espaço entre as barras?

Histograma: representa dados quantitativos contínuos em intervalos (classes). As barras são adjacentes (sem espaço) porque os valores são contínuos — não há lacuna entre, por exemplo, [60-70) e [70-80).
Gráfico de Barras: representa dados qualitativos ou discretos. As categorias são separadas (há espaço entre barras) porque são unidades distintas — "Produto A" é separado de "Produto B" conceitualmente.
Regra visual: Espaço = categorias discretas. Sem espaço = distribuição contínua.
2
Um gerente de marketing apresentou um gráfico de vendas mensais onde o eixo Y começa em R$950.000 em vez de zero, fazendo a variação mensal parecer enorme. Qual é o problema ético e técnico dessa escolha?

Problema técnico: Truncar o eixo Y distorce a percepção visual da magnitude das diferenças. Uma variação de R$10.000 sobre uma base de R$1.000.000 (1%) pode parecer uma variação de 50% visualmente, enganando o observador sobre a real importância dos dados.
Problema ético: Isso viola o princípio da integridade visual (Edward Tufte). A visualização deve representar os dados honestamente. Manipular escalas para exagerar ou minimizar resultados é uma forma de desonestidade estatística — especialmente grave em relatórios executivos.
Solução: Usar eixo Y começando em zero. Se a variação pequena é importante de destacar, usar um gráfico secundário com zoom na diferença, deixando claro o contexto.
3
Você tem os dados de participação de mercado: Empresa A=42%, B=28%, C=18%, D=8%, E=3%, Outros=1%. Descreva como construir um gráfico de pizza adequado com boas práticas.

1. Nº de fatias: 6 fatias — dentro do máximo recomendado (≤6). Se fosse mais, agruparíamos os menores em "Outros".
2. Ordenação: Começar pela maior fatia (A=42%) às 12h do relógio e seguir em ordem decrescente no sentido horário.
3. Rótulos: Mostrar nome da empresa e % diretamente nas fatias (ou setas para fatias pequenas). Não usar legenda separada se possível.
4. Cores: Usar paleta de 2–3 cores com gradação. Destacar a empresa mais importante (A) com cor mais intensa.
5. Alternativa: Para relatórios técnicos, um gráfico de barras horizontais ordenadas (Pareto) seria mais preciso e fácil de comparar que a pizza.
Módulo 8

Correlação entre Variáveis

Pearson, Spearman, interpretação do coeficiente e a distinção fundamental: correlação ≠ causalidade.

⚠️ CORRELAÇÃO ≠ CAUSALIDADE! Sorvete e afogamentos correlacionam (ambos sobem no verão), mas um NÃO causa o outro. A causa comum é o calor.

Coeficiente de Pearson (r)

📐 Fórmula
r = Σ[(xᵢ−x̄)(yᵢ−ȳ)] / √[Σ(xᵢ−x̄)² × Σ(yᵢ−ȳ)²]

r varia de −1 a +1
r = +1: correlação positiva perfeita
r = −1: correlação negativa perfeita
r = 0: sem correlação linear

R² = r²: % da variação em Y explicada por X

Tabela de Interpretação

|r|ClassificaçãoInterpretação Prática
0,00 – 0,19Muito fracaRelação praticamente inexistente
0,20 – 0,39FracaRelação pequena, mas perceptível
0,40 – 0,59ModeradaRelação notável — investigue mais
0,60 – 0,79ForteRelação consistente e relevante
0,80 – 1,00Muito forteRelação quase linear

Spearman (ρ) — Para Dados Ordinais

📐 Fórmula de Spearman
ρ = 1 − [6 × Σdᵢ²] / [n × (n²−1)]
onde dᵢ = diferença entre os postos (ranks) de xᵢ e yᵢ
✏️

Atividades — Módulo 8

3 questões
1
Horas de estudo (X): {2,4,5,6,8} | Notas (Y): {50,65,70,80,90}.
Calcule o coeficiente de Pearson e interprete o resultado.


x̄ = 5 | ȳ = 71
Desvios X: {-3,-1,0,1,3} | Desvios Y: {-21,-6,-1,9,19}
Σ(xi−x̄)(yi−ȳ) = 63+6+0+9+57 = 135
Σ(xi−x̄)² = 9+1+0+1+9 = 20 | Σ(yi−ȳ)² = 441+36+1+81+361 = 920
r = 135 / √(20×920) = 135 / √18400 = 135/135,6 ≈ 0,996
Interpretação: correlação positiva muito forte. R² ≈ 0,992, ou seja, ~99,2% da variação nas notas é explicada pelas horas de estudo. Relação praticamente linear.
2
Calcule o coeficiente de Spearman para: X={10,20,30,40,50} e Y={2,8,18,32,50}.

Postos X: {1,2,3,4,5} | Postos Y: {1,2,3,4,5} (mesma ordem crescente)
dᵢ = Posto X − Posto Y = {0,0,0,0,0}
Σdᵢ² = 0
ρ = 1 − [6×0] / [5×(25−1)] = 1 − 0/120 = ρ = 1,0
Correlação monotônica perfeita. Y cresce sempre que X cresce (embora não linearmente — Y segue X²). O Spearman detecta isso porque usa ranks, não valores absolutos.
3
Um pesquisador descobriu que cidades com mais hospitais têm maior número de mortes. r = +0,85. Ele concluiu que "hospitais causam mortes". Há erro nessa conclusão? Explique.

Sim, há erro clássico de raciocínio: correlação ≠ causalidade.
A correlação positiva existe, mas a explicação causal está invertida e incorreta. A causa comum é o tamanho da cidade: cidades maiores têm mais população → mais hospitais (para atender mais pessoas) → naturalmente mais mortes (pelo volume de população e casos graves que chegam ao hospital).
Além disso, hospitais recebem os casos mais graves — pessoas que provavelmente morreriam de qualquer forma. Para estabelecer causalidade seria necessário um experimento controlado randomizado, controlando variáveis de confundimento como tamanho da população, perfil etário, etc.
Módulo 9

Distribuição Normal e Padronização

A curva de Gauss, regra 68-95-99,7, escore-Z e o Teorema Central do Limite.

A Distribuição Normal (Gaussiana)

  • A distribuição mais importante da estatística — aparece naturalmente em inúmeros fenômenos.
  • Formato: curva em sino, simétrica em torno da média (μ). Média = Mediana = Moda.
  • Parâmetros: definida por dois valores: μ (posição) e σ (escala/dispersão).
  • Notação: X ~ N(μ, σ²) — X segue distribuição Normal com média μ e variância σ².
  • Exemplos naturais: altura, peso, pressão arterial, erros de medição, QI, tempo de reação.

Regra Empírica 68-95-99,7

68%
dos dados em μ ± 1σ
95%
dos dados em μ ± 2σ
99,7%
dos dados em μ ± 3σ
0,3%
além de ±3σ (extremamente raros)

Escore-Z (Padronização)

📐 Fórmulas
z = (X − μ) / σ [transformar em N(0,1)]
X = μ + z · σ [retransformar]

Exemplo: altura μ=170cm, σ=8cm
Pessoa de 186cm: z = (186−170)/8 = 2,0
→ está 2 DPs acima da média → mais alto que ≈ 97,7% das pessoas

Teorema Central do Limite (TCL)

📐 TCL
x̄ ~ N(μ, σ²/n) quando n ≥ 30 (em geral)

A distribuição das médias amostrais tende à Normal conforme n aumenta, independentemente da distribuição original dos dados.
✏️

Atividades — Módulo 9

4 questões
1
As notas de um exame seguem distribuição normal com μ=65 e σ=10. Um aluno tirou 85. Calcule o escore-Z e diga em qual percentil aproximado ele se encontra.

z = (X − μ) / σ = (85 − 65) / 10 = 20/10 = 2,0
z = 2,0 significa que o aluno está 2 desvios padrões acima da média.
Pela regra 68-95-99,7: entre μ+1σ e μ+2σ ficam (95% − 68%)/2 = 13,5% dos dados. Até μ+2σ ficam: 50% + 47,5% = 97,5%
O aluno está aproximadamente no percentil 97,5 — pontuou mais que cerca de 97,5% dos participantes do exame.
2
Numa fábrica, peças têm comprimento X ~ N(50mm, 4mm²). O controle de qualidade rejeita peças com z > |2|. Quais são os limites de aceitação em mm? Qual % de peças é rejeitada?

σ = √4 = 2mm
Limite inferior: X = μ + z×σ = 50 + (−2)×2 = 46mm
Limite superior: X = μ + z×σ = 50 + 2×2 = 54mm
% aceitas: pela regra 68-95-99,7, 95% dos dados ficam em μ ± 2σ → 95% aceitas
% rejeitadas: 100% − 95% = 5% (2,5% por excesso e 2,5% por tamanho insuficiente)
3
Compare dois candidatos em provas diferentes:
Ana: nota 75, prova com μ=60, σ=15.
Bruno: nota 82, prova com μ=75, σ=10.
Qual dos dois teve desempenho relativo melhor?


z Ana = (75 − 60) / 15 = 15/15 = 1,00
z Bruno = (82 − 75) / 10 = 7/10 = 0,70
Ana teve desempenho relativo melhor (z=1,00 > z=0,70). Apesar de Bruno ter nota absoluta mais alta (82 vs 75), Ana se distanciou mais da média de sua prova em unidades de desvio padrão. O escore-Z permite essa comparação "justa" entre diferentes distribuições.
4
O que o Teorema Central do Limite afirma? Por que ele é considerado o "fundamento" da estatística inferencial?

O TCL afirma: a distribuição das médias amostrais tende à Normal com média μ e desvio padrão σ/√n, à medida que n aumenta — independentemente da forma da distribuição original dos dados.
Por que é o fundamento: Sem o TCL, só poderíamos usar métodos baseados na Normal para dados que já seguem a Normal. Com o TCL, para amostras suficientemente grandes (n≥30), podemos usar esses métodos para qualquer distribuição — renda assimétrica, dados binários, etc.
Isso justifica a criação de intervalos de confiança, testes de hipóteses, e praticamente toda a estatística inferencial. É por isso que o TCL é chamado de "o resultado mais importante da probabilidade".
Módulo 10

Análise Exploratória de Dados (EDA)

Integrando tudo: pipeline completo do dado bruto ao insight, detecção de outliers e relatório final.

O que é EDA?

  • EDA foi proposta por John Tukey (1977) para explorar dados antes de modelar.
  • Objetivo: entender estrutura, padrões, relações e anomalias nos dados.
  • Combina estatísticas descritivas com visualizações para gerar hipóteses.
  • É iterativa: cada descoberta leva a novas perguntas.
  • Regra de ouro: visualize SEMPRE antes de calcular.

Pipeline EDA em 6 Etapas

📂

1. Carregar e Inspecionar

Shape, tipos, primeiras linhas. Quantas observações? Quantas colunas? Tipos de variáveis.

🔍

2. Tratar Dados Ausentes

Contar NaNs. Imputar ou remover. Como e por que os dados faltam?

📊

3. Estatísticas Descritivas

Média, mediana, desvio, min, max, quartis. summary() / describe().

📈

4. Distribuições

Histogramas e box plots para cada variável. Identificar assimetria e outliers.

🔗

5. Relações

Scatter plots, correlações (Pearson/Spearman). Heatmap da matriz de correlação.

📝

6. Reportar Insights

Documentar achados, hipóteses e próximos passos para modelagem.

Detecção e Tratamento de Outliers

  • Métodos de detecção: z-score (|z|>3), IQR (Tukey), histograma, box plot.
  • Causas possíveis: erro de medição, erro de digitação, evento raro genuíno, mudança de regime.
  • ⚠️ NUNCA remova outliers automaticamente! Primeiro investigue a causa.
  • Opções de tratamento: corrigir o erro, manter, substituir (imputação), usar método robusto (mediana, Winsorização).
  • Winsorização: substituir outliers pelo valor do percentil limite (ex: P5 e P95).

Exemplo: Relatório Estatístico Completo

EstatísticaIdadeRenda (R$)NotaHoras/semana
n500500500500
Média34,24.8206,542,3
Mediana32,03.5006,840,0
Moda28,02.8007,040,0
Desv. Padrão10,43.2101,88,7
CV (%)30,4%66,6%27,7%20,6%
Mínimo181.320020
Q1262.6505,437
Q3426.1007,848
Máximo7228.5001080
✏️

Atividades — Módulo 10

4 questões
1
Na tabela de estatísticas acima, a Renda tem média R$4.820 e mediana R$3.500 (diferença de R$1.320). O que isso indica sobre a distribuição da renda? Qual medida de tendência central deve ser usada para representar a renda típica? Justifique.

Indica assimetria positiva (à direita). A média (R$4.820) ser maior que a mediana (R$3.500) e a moda (R$2.800) confirma que a distribuição tem uma cauda longa à direita — poucos indivíduos com renda muito alta puxam a média para cima.
O CV de 66,6% confirma alta heterogeneidade (muito acima do limite de 30%), típico de dados de renda.
Medida recomendada: MEDIANA (R$3.500). Ela é robusta a outliers e representa melhor o "trabalhador típico". É por isso que o IBGE e jornalistas econômicos sempre citam a renda mediana ao descrever a realidade salarial da população.
2
Um analista de dados encontrou o valor de idade = 312 anos em um dataset. Como ele deve proceder? Cite 3 possíveis causas e 3 formas de tratamento.

NUNCA remova automaticamente. Primeiro, investigar.
Possíveis causas:
1. Erro de digitação: 31,2 foi digitado como 312.
2. Erro de sistema: campo data de nascimento em formato errado → cálculo incorreto.
3. Código especial: 312 pode ser um código do sistema para "informação não coletada".
Formas de tratamento:
1. Corrigir o erro (se possível verificar na fonte original).
2. Substituir pelo valor mediano ou médio de uma faixa similar (imputação).
3. Marcar como "missing" (NaN) e tratar com método de dados ausentes.
3
Interprete o seguinte resultado de EDA: "Variável Horas/semana: média=42,3, mediana=40, Q1=37, Q3=48, máximo=80. CV=20,6%". Essa distribuição é simétrica ou assimétrica? Há suspeita de outliers?

Assimetria: Média (42,3) > Mediana (40) → leve assimetria positiva (à direita). A moda provavelmente também é 40h (semana padrão), reforçando a assimetria.
Verificação de outliers pela Regra de Tukey:
IQR = Q3 − Q1 = 48 − 37 = 11
Limite superior = Q3 + 1,5×IQR = 48 + 16,5 = 64,5
O máximo observado é 80 > 64,5 → há suspeita de outlier no limite superior.
O CV de 20,6% indica variabilidade moderada — próximo ao limiar. A distribuição está razoavelmente homogênea, mas com alguns trabalhadores com jornadas muito elevadas que merecem investigação.
4
Qual é a diferença entre imputação pela média e imputação pela mediana para dados ausentes? Em qual situação cada uma é mais adequada?

Imputação pela média: substitui o valor faltante pela média da variável. Adequada quando a distribuição é simétrica e sem outliers — a média representa bem o valor central. Desvantagem: sensível a outliers, pode distorcer a distribuição.
Imputação pela mediana: substitui pelo valor mediano. Adequada para distribuições assimétricas ou com outliers — a mediana é robusta. Recomendada para variáveis de renda, preços, tempo, etc.
Regra prática: Se CV < 15% e distribuição simétrica → use média. Se CV > 30% ou há outliers → use mediana. Para variáveis categóricas → use moda.