Estatística Inferencial
Da amostra à população — tomada de decisão baseada em dados. Material completo com teoria aprofundada, fórmulas comentadas, exemplos resolvidos e 40 atividades com gabarito.
Conteúdo Programático
Módulo 01 — Fundamentos
População, amostra, parâmetros, estimadores e tipos de amostragem.
Módulo 02 — Distrib. Amostrais
TCL, distribuição da média amostral e da proporção.
Módulo 03 — Estim. Pontual
Não-viés, eficiência, consistência e suficiência dos estimadores.
Módulo 04 — Intervalos
IC para média, proporção e variância. Tamanho amostral.
Módulo 05 — Testes Hipóteses
H₀, H₁, Erros Tipo I e II, valor-p, regiões críticas.
Módulo 06 — Uma Amostra
Testes Z, t de Student e Qui-Quadrado para variância.
Módulo 07 — Duas Amostras
Comparação de médias (t-pooled, Welch) e variâncias (F).
Módulo 08 — Correlação
Pearson, regressão linear simples e coeficiente R².
Módulo 09 — χ² & Guia
Qui-quadrado de independência e guia de decisão de testes.
Conceitos Fundamentais
Construindo a base da inferência estatística: população, amostra, parâmetros, estimadores e tipos de amostragem.
População vs. Amostra
📦 População (N)
- Conjunto completo de elementos de interesse
- Parâmetros: µ (média), σ² (variância), π (proporção)
- Geralmente desconhecidos
- Censo = levantamento completo (caro e lento)
- Ex.: todos os alunos de uma universidade
🔍 Amostra (n)
- Subconjunto selecionado da população
- Estatísticas: x̄ (média), s² (variância), p̂ (proporção)
- Calculadas a partir dos dados observados
- Deve ser representativa da população!
- Ex.: 500 alunos selecionados aleatoriamente
Tipos de Amostragem
- Aleatória Simples: cada elemento tem igual probabilidade de seleção. Padrão ouro — exige lista completa (cadastro).
- Estratificada: divide a população em estratos homogêneos (ex: faixa etária) e amostra cada estrato proporcionalmente.
- Por Conglomerados: seleciona grupos naturais inteiros (bairros, escolas, empresas) e amostra dentro deles.
- Sistemática: seleciona a cada k elementos: 1.º aleatório entre 1 e k, depois +k, +2k... Ex: k = N/n.
Parâmetros vs. Estatísticas
| Conceito | Notação Populacional | Notação Amostral | Observação |
|---|---|---|---|
| Média | µ (mu) | x̄ (x-barra) | x̄ estima µ |
| Variância | σ² (sigma²) | s² | s² usa (n−1) no denominador |
| Desvio Padrão | σ | s | s = √s² |
| Proporção | π (pi) ou p | p̂ (p-chapéu) | p̂ = x/n |
| Tamanho | N (maiúsculo) | n (minúsculo) | n ≤ N |
Atividades — Módulo 01
4 questõesDistribuições Amostrais
O comportamento estatístico das estimativas: Teorema Central do Limite e distribuição da proporção amostral.
Teorema Central do Limite (TCL)
Erro Padrão da média: σx̄ = σ / √n
Padronização (Z-score): Z = (x̄ − μ) / (σ/√n) • A média das médias amostrais é igual à média populacional.
• O erro padrão DIMINUI com o aumento de n — amostras maiores são mais precisas.
• Para n ≥ 30: podemos usar Z mesmo sem normalidade na população.
Uma população tem µ = 50 e σ = 12. Retira-se amostras de n = 36.
• σx̄ = 12/√36 = 12/6 = 2
• Distribuição de x̄ ~ N(50, 4) — Normal com média 50 e variância 4.
• P(x̄ > 53) = P(Z > (53−50)/2) = P(Z > 1,5) ≈ 0,067 = 6,7%
Distribuição Amostral da Proporção
Var(p̂) = π(1−π)/n
Erro Padrão: σp̂ = √[π(1−π)/n]
Padronização: Z = (p̂ − π) / σp̂ Condição de normalidade: n·π ≥ 5 e n·(1−π) ≥ 5
Eleição: π = 0,45. Amostra n = 200.
σp̂ = √(0,45 × 0,55 / 200) = √(0,001238) ≈ 0,0352
Verificando normalidade: n·π = 200×0,45 = 90 ≥ 5 ✓ | n·(1−π) = 110 ≥ 5 ✓
IC 95%: p̂ ± 1,96 × 0,0352 = p̂ ± 0,069
Atividades — Módulo 02
5 questõesEstimação Pontual
Propriedades que fazem um estimador ser "bom": não-viés, eficiência, consistência e suficiência.
As 4 Propriedades dos Estimadores
Não-Viesado
E(θ̂) = θ. O valor esperado do estimador é igual ao parâmetro verdadeiro. Não há tendência sistemática de super ou subestimar.
Eficiente
Var(θ̂) mínima. Entre todos os estimadores não-viesados, o mais eficiente tem menor variância — estimativa mais precisa.
Consistente
θ̂ →ᵖ θ quando n → ∞. Conforme o tamanho da amostra aumenta, o estimador converge para o verdadeiro parâmetro.
Suficiente
O estimador utiliza toda a informação disponível na amostra sobre o parâmetro de interesse — não descarta dados relevantes.
s² = Σ(xᵢ−x̄)²/(n−1) estima σ² → não-viesado (com n−1)
s²ₙ = Σ(xᵢ−x̄)²/n → VIESADO (subestima σ²)
p̂ = x/n estima π → não-viesado, consistente MVUE = Minimum Variance Unbiased Estimator (estimador de variância mínima não-viesado)
Atividades — Módulo 03
4 questõesIntervalos de Confiança
Estimação com margem de erro: IC para média (σ conhecido e desconhecido), proporção, variância e tamanho amostral.
IC para Média — σ Conhecido
Valores críticos:
Confiança 90% → Z = 1,645
Confiança 95% → Z = 1,960
Confiança 99% → Z = 2,576
Uma amostra de n=64 frascos tem x̄ = 500ml. σ = 8ml (conhecido). IC de 95%:
E = 1,96 × 8/√64 = 1,96 × 1 = 1,96ml
IC 95%: (498,04 ; 501,96) ml
Interpretação: em 95% das amostras possíveis, o intervalo calculado conterá µ.
IC para Média — σ Desconhecido (dist. t)
gl = n − 1 (graus de liberdade) • Usar quando σ é desconhecido (situação mais comum na prática)
• Distribuição t tem caudas mais pesadas que Z → IC mais largo (mais conservador)
• Converge para Normal quando gl → ∞
| Característica | Dist. t de Student | Dist. Normal (Z) |
|---|---|---|
| Parâmetro | Graus de liberdade (gl = n−1) | Nenhum |
| Caudas | Mais pesadas (maior incerteza) | Mais finas |
| Quando usar | σ desconhecido, qualquer n | σ conhecido ou n ≥ 30 |
| Converge para | Normal quando n → ∞ | — |
IC para Proporção
Margem de erro: E = Z(α/2) · √[p̂(1−p̂)/n]
Pesquisa com n=600 eleitores: p̂ = 0,52 favoráveis. IC de 95%:
E = 1,96 · √(0,52×0,48/600) = 1,96 · √0,000416 = 1,96 · 0,0204 ≈ 0,040
IC 95%: (0,480 ; 0,560) — o candidato tem entre 48% e 56% de intenção de voto.
Tamanho Amostral
Para proporção (com estimativa prévia π):
n = Z²(α/2) · π(1−π) / E²
Para proporção (sem estimativa prévia — máximo conservador):
n = Z²(α/2) · 0,25 / E² E = margem de erro desejada. π(1−π) é máximo em π = 0,5 → produto = 0,25
Quero estimar µ com margem de erro E = 2, σ = 10, confiança 95%:
n = (1,96 × 10 / 2)² = (9,8)² ≈ 97 → usar n = 97
Para proporção, erro ≤ 3%, confiança 95%, sem estimativa prévia:
n = (1,96)² × 0,25 / (0,03)² = 3,8416 × 0,25 / 0,0009 ≈ 1.068
Atividades — Módulo 04
5 questõesTestes de Hipóteses
Tomada de decisão sob incerteza: estrutura do teste, erros Tipo I e II, valor-p e tipos de região crítica.
Estrutura de um Teste — 5 Passos
Formular Hipóteses
H₀ (nula): afirmação conservadora a testar. H₁ (alternativa): o que queremos provar. H₀ sempre contém "=".
Definir Nível de Significância
α = P(Erro Tipo I) = P(rejeitar H₀ | H₀ verdadeira). Usual: α = 0,05 ou α = 0,01.
Calcular a Estatística de Teste
Calcula-se o valor Z, t, χ², F com base nos dados. Mede o quanto a amostra discrepa de H₀.
Regra de Decisão
Comparar com valor crítico OU comparar valor-p com α. Rejeitar H₀ se |est.| > crítico ou valor-p < α.
Conclusão Contextualizada
Interpretar no contexto do problema. "Há evidência estatística suficiente para concluir que..." ou "Não há evidência para rejeitar...".
Erros em Testes de Hipóteses
Tipos de Teste e Valor-p
| Tipo | Hipótese Alternativa | Região Crítica | Valor-p |
|---|---|---|---|
| Bilateral | H₁: µ ≠ µ₀ | Ambas as caudas (α/2 cada) | 2 × P(Z > |z|) |
| Unilateral Direita | H₁: µ > µ₀ | Cauda direita (α) | P(Z > z) |
| Unilateral Esquerda | H₁: µ < µ₀ | Cauda esquerda (α) | P(Z < z) |
Atividades — Módulo 05
4 questões(a) Testar se um novo remédio reduz a pressão arterial abaixo de 120mmHg.
(b) Testar se o salário médio dos engenheiros é diferente de R$8.000.
(c) Testar se a proporção de defeitos subiu acima de 2%.
Testes para Uma Amostra
Teste Z (σ conhecido), Teste t de Student (σ desconhecido) e Qui-Quadrado para variância.
Teste Z e Teste t — Comparação
Teste t (σ desconhecido): t = (x̄ − µ₀) / (s/√n) ~ t(n−1)
Teste Z (proporção): Z = (p̂ − π₀) / √[π₀(1−π₀)/n]
Teste Qui-Quadrado para Variância
χ² = (n−1)·s² / σ₀² ~ χ²(n−1) sob H₀
Rejeições (bilateral H₁: σ² ≠ σ₀²):
χ² < χ²(1−α/2, n−1) OU χ² > χ²(α/2, n−1) Premissas: população normal. Sensível à não-normalidade.
Atividades — Módulo 06
5 questõesTestes para Duas Amostras
Comparação de médias (t-pooled, Welch), variâncias (Teste F) e proporções entre dois grupos independentes.
Comparação de Duas Médias
Caso 1 — Variâncias iguais (σ₁=σ₂ desconhecidas):
t = (x̄₁ − x̄₂) / [sp · √(1/n₁ + 1/n₂)]
sp² = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁+n₂−2) gl = n₁+n₂−2
Caso 2 — Variâncias desiguais (Welch):
t ≈ (x̄₁ − x̄₂) / √(s₁²/n₁ + s₂²/n₂) Usar Teste F primeiro para decidir entre os dois casos
Teste F — Comparação de Variâncias
F = s₁² / s₂² ~ F(n₁−1, n₂−1) sob H₀
Convenção: colocar s maior no numerador (F ≥ 1)
Rejeitar H₀ se F > F(α/2, n₁−1, n₂−1) O Teste F é aplicado ANTES do teste de comparação de médias para escolher entre t-pooled ou Welch.
Atividades — Módulo 07
4 questõesCorrelação e Regressão Linear
Correlação de Pearson com teste de significância, regressão linear simples, R² e pressupostos do modelo.
Correlação de Pearson — Inferência
Teste de significância — H₀: ρ = 0
t = r√(n−2) / √(1−r²) ~ t(n−2) sob H₀
Regressão Linear Simples
b₁ = Σ(xᵢ−x̄)(yᵢ−ȳ) / Σ(xᵢ−x̄)² (inclinação)
b₀ = ȳ − b₁·x̄ (intercepto)
R² = SQReg / SQTotal (0 ≤ R² ≤ 1)
Teste H₀: β₁ = 0: t = b₁/s(b₁) ~ t(n−2)
Pressupostos da Regressão (LINE)
- L — Linearidade: relação linear entre X e Y (verificar scatter plot)
- I — Independência: erros (resíduos) são independentes entre si
- N — Normalidade: resíduos seguem distribuição Normal
- E — Equivariância (Homoscedasticidade): variância dos erros é constante para todos os valores de X
Atividades — Módulo 08
5 questõesQui-Quadrado de Independência & Guia de Decisão
Teste de associação entre variáveis categóricas e resumo completo: qual teste usar em cada situação.
Teste χ² de Independência
χ² = Σ (Oᵢⱼ − Eᵢⱼ)² / Eᵢⱼ ~ χ²(gl) sob H₀
gl = (r−1)(c−1) onde r = linhas, c = colunas
Eᵢⱼ = (Σ linha i × Σ coluna j) / n Condição: Eᵢⱼ ≥ 5 em todas as células. Verificar antes de aplicar.
Tabela observada: Homens(A=45, B=30), Mulheres(A=35, B=40) | n=150
Freq. esperadas: E₁₁=80×75/150=40, E₁₂=70×75/150=35, E₂₁=40, E₂₂=35
χ² = (45−40)²/40 + (30−35)²/35 + (35−40)²/40 + (40−35)²/35
χ² = 0,625 + 0,714 + 0,625 + 0,714 = 2,679
gl=(2−1)(2−1)=1 | χ²crítico(5%)=3,841
Decisão: Não rejeitar H₀ — sem evidência de associação entre sexo e preferência.
Guia Rápido: Qual Teste Usar?
| Objetivo | Condições | Teste |
|---|---|---|
| Testar µ de 1 amostra | σ conhecido ou n ≥ 30 | Teste Z |
| Testar µ de 1 amostra | σ desconhecido | Teste t (n−1 gl) |
| Comparar µ₁ vs µ₂ | σ₁=σ₂ desconhecidas | Teste t pooled |
| Comparar µ₁ vs µ₂ | σ₁≠σ₂ desconhecidas | Teste t Welch |
| Comparar σ₁² vs σ₂² | Populações normais | Teste F |
| Testar π (proporção) | np₀ ≥ 5, n(1−p₀) ≥ 5 | Teste Z |
| Testar σ² de 1 amostra | População normal | Teste χ² |
| Associação entre categ. | Eᵢⱼ ≥ 5 em cada célula | χ² Independência |
| Correlação entre X e Y | Bivariate normal, n ≥ 10 | Pearson + Teste t |
Atividades — Módulo 09
5 questõesE₁₁=110×100/200=55, E₁₂=90×100/200=45, E₂₁=55, E₂₂=45
(a) Comparar rendimento médio de dois grupos com variâncias desconhecidas e diferentes.
(b) Verificar se a proporção de defeitos de uma linha é maior que 5%.
(c) Verificar se a variabilidade de um processo aumentou (σ² > 9).
(d) Verificar se tipo de escola (pública/privada) está associado ao nível de escolaridade dos pais (fundamental/médio/superior).
1. Calculam uma estatística de teste que mede o afastamento dos dados em relação ao esperado sob H₀.
2. Comparam essa estatística com uma distribuição de referência (Normal, t, F ou χ²) que seria esperada sob H₀.
3. Se o resultado for muito improvável sob H₀ (valor-p < α), rejeitam H₀.