Estatística
probabilidade
definições
Pode ser repetido sob as mesmas condições “n” vezes. Resultados não poderão ser previstos com absoluta certeza. Contudo, é possível descrever espaço amostral.
probabilidade: modelos para estudar experimentos aleatórios
espaço amostral (U): conjunto de todos os resultados possíveis do experimento.
evento (A): Sub conjunto do espaço amostral
evento = espaço amostral (evento certo)
La Place
P(A) = n(A) / n(U) = “n” casos favoráveis / “n” casos possíveis
definição: probabilidade de evento qualquer A
frequência relativa: quando o número de realizações do experimento tende ao infinito. Definição limitada a número de eventos que pode crescer indefinidamente.
(𝑓) = lim∞ n / N = 54/200 = 27%
n= ocorrência do evento N=número de vezes
U= {1,2,3,4,5,6}
Ex: 54x cara em 200 arremessos de moeda. Com a repetição ao infinito, a tendência é uma distribuição equitativa (50%).
combinação de evento
Eventos mutuamente exclusivos A ∩ B = ∅
Complementar de um evento: ~A
Evento exaustivo: A ∪ B = U
Somente se "A ou B" ou "A e B"
A ocorre se ~A ~ocorre.
Somente se "A e B"
probabilidade sobre probabilidade
definição: 0≤P(A)≤1
∴ P(~A) = 1 - P(A)
tipos
com intersecção: P(A) + P(B) = [P(A) ∪ P(B)] – [P(A) ∩ P(B)]
sem intersecção: P(A) + P(B) = [P(A) ∪ P(B)]
probabilidade condicional
definição: com evento prévio (tendência a redução do espaço amostral)
P (A|B) = P ( A∩B) / P(B)
Probabilidade condicional de “B” dado “A”:
amostragem
definições
população (N): é um conjunto formado por elementos com pelo menos uma característica em comum.
amostra (n) é qualquer subconjunto próprio da população.
pressupostos
n ⊂ N
-∞<N<+∞
n ≠ ∅
n ≠ N
determinação de amostras de tamanho "n"
sem reposição (N n)
com reposição: N exponencial n
definições ⚠
Parâmetro (θ)
estimador de um parâmetro
amostragem: processo de seleção de uma amostra [representativa] que permite tirar conclusões sobre a população.
definição: medida que descreve alguma característica numérica da população. É sempre constante, invariável.
tipos ⭐
variância (σ²)
desvio padrão (σ)
média (μ)
estatística
definição: característica numérica que é determinada na amostra. Varia conforme o tamanho da amostra.
É uma função matemática (fórmula) de seus elementos.
tipos
variância amostral: s²
desvio padrão amostral: s²
média amostral: x_
particularidades ⭐
erro amostral: θ^ - θ
Esperança da média amostral: E (x_)
Diferença entre o estimador e o parâmetro populacional.
Tipos de amostragem
definição: critérios e processos para tirar conclusões sobre a população
Tipos
probabilística 🚩
~probabilísticos 🚩
definição: I. entrevistador imparcial e II. possibilidade de calcular a probabilidade de cada população pertencer à amostra.
tipos
2.estratificação
- por conglomerados: definição: inverso da estratificação – baixa variabilidade interestratos, alta intraestrato
- aleatória simples
- sistemática: ordena-se os elementos por um critério e os seleciona por padrão.
definição: todos os elementos da população têm a mesma probabilidade de serem selecionados.
tipos
independente: população infinita ou amostragem com reposição de população finita.
dependente: população finita com reposição ⚠
definição: população dividida em estratos (subconjuntos) sendo homogênia (intraestrato) e heterogênea (interestrato)
em cada estrato realiza-se amostra aleatória simples
tipos
Alocação uniforme: amostra (n) divida pelo número de estratos
Alocação proporcional: amostra (n) proporcional a cada estrato
Sorteia-se um ou mais conglomerados e entrevista-se todos os elementos daquele conglomerado.
De 7 em 7, 10 em 10, 50 em 50.
Teorema de Bayes
P (A|B) = P ( A∩B) / P(B)
definição:interferência do entrevistador.
tipos
por julgamento: buscará elementos que possuem características de acordo com seu interesse.
por cotas ou proporcional: amostra por cotas proporcionais com características semelhantes da população.
A diferença entre a amostragem por cotas da estratificada é que esta aplica uma amostragem aleatória simples em cada estrato. Na por cotas, amostra é selecionada por método não probabilístico.
análise combinatória
medidas
posição 🚩
dispersão 🚩
definição: resumir em si características significativas de distribuição de frequências.
tipos
tendência central
separatrizes
Moda
Médias
ponderada
geométrica: n√xi
aritmética: dados agrupados: Σ(fn*xn) / n
harmônica: inverso da Ma
quartis, decis e percentis
mediana
definição: promédias, em torno desses valores que os dados observados tendem a se concentrar.
fn=frequência absoluta simples de cada classe.
xn=Ponto médio do intervalo de classe.
"n"exponencial da raiz: número e elementos
n√x1x2xn
a1xp1 + anxpn / a1+an
n / Σ (1/xi)
definição: valor da série para o qual se verifica a maior frequência simples (picos de frequência).
Análise de dados agrupados em classe só é possível com todas as classes com a mesma amplitude.
Tipos
Fórmula de Czuber: considera avizinhados e sua própria frequência
Fórmula de King: considera avizinhados e sem sua própria frequência
moda bruta: ponto médio da classe modal
Desconsidera a influência das frequências das classes avizinhadas.
Moc= Limo + c* (Δ1/Δ1 + Δ2)
Lmo=Limite inferior da classe modal.
c=Amplitude do intervalo da classe modal.
Δ1 Diferença entre as frequências simples das classes modal e anterior à modal.
Δ2 Diferença entre as frequências simples das classes modal e posterior à modal.
Mok = Lmio + c* (Fpos / Fant + Fpos)
Fant = frequência simples anterior
Fpos = frequência simples posterior
definição: valor que separa um rol em duas partes com a mesma quantidade de ocorrências (frequências acumuladas).
Σ50%≤n≤Σ50%
tipos
dados não-agrupados
dados agrupados: Md= Limd + c* (Δ / Fmd)
ímpar: termo do meio que separa quantidades iguais antes e depois.
par: média aritmética dos termos do meio
Δ = Parcela da Fmd necessária para acumular 50% na classe mediana.
Fmd=Frequência simples da classe mediana.
Pode ser unimodal, bimodal, multimodal ou amodal.
relação MMM
Distribuição assimétrica à esquerda: Mo>Md>Ma
Distribuição assimétrica à direita: Mo<Md<Ma
Distribuição simétrica: mesmo número às 3
decis: D5 equivale à mediana.
Centis ou percentis: C50 equivale à mediana.
quartis: Q1: detém 25% dos valores menores ou iguais a ele
definição: avaliam o grau de variabilidade dos valores de uma variável em relação a um valor fixo escolhido como referência.
Estimar a representatividade de uma média: valores concentrados em torno de uma média tem maior valor resumitivo da série.
▼dispersão ▲homogeneidade (representatividade)
tipos
absolutas
relativas
desvio quartil ✅
variância: 🚩
desvio médio: ✅ Ma das distâncias de cada valor de x à Ma da série.
desvio padrão 🚩
amplitude total ✅
Thorndike
quartílico de variação
Pearson 🚩
desvio quartil reduzido
coeficientes: sem unidade de medida
At = xmáx – xmín
Dm= Σ |xi - ma| / n
Dq= Q3 – Q1 / 2
S²= x² - (x_)²
definição: diferença entre ma dos quadrados dos valores da série com o quadrado da Ma da mesma.
Bessel S²(n-1): corrige a imprecisão de amostras pequenas.
S² * n / (n-1)
amostra pequena < 30
Adição ou subtração de um mesmo valor a todos da série não altera S²
média dos quadrados x² = [(a1-ma)² + (an-ma)² ] / n
quadrados das médias (x)²= {[(a1-ma) + (an-ma)] / n}²
A unidade de medida que expressa uma variância é ao quadrado da variável estudada.
Multiplicação ou subtração alteram pelo quadrado a variância
definição: indica, em termos absolutos, o afastamento dos valores observados em relação à ma estudada.
Fórmula: √S²
representatividade: valores concentrados ao redor da média.
propriedades
adição e subtração aplicados à série: não alteram S ⭐
multiplicação e divisão: alteram pela mesma razão S
Simplificação: 1.aplica-se divisão para todos os pontos médios da série 2. obtém-se o resultado da medida de dispersão desejada 3.multiplica-se o resultado pelo mesmo fator de divisão
A=(2,3,5) e B=(40,41,43) tem S iguais. r=38.
definição: quociente entre S e Ma. Medida de dispersão relativa, adimensional. Assim, pode ser apresentada em forma percentual. Serve para comparar dispersões de duas séries.
CVp = S / |Ma|
propriedades
Subtração e adição alteram ⭐
multiplicação ou divisão não alteram o coeficiente.
comparação entre séries: CV dá usar sempre.
CVt = S / |Md|
CVq= Dq / |Q3 + Q1|
Dq= |Q3-Q1| / 2
|Q3-Q1/ 2* |Md|
S, só quando medidas e médias similares.
c=Li-li
Regressão
Simples 🚩
Múltipla 🚩
correlação linear
regressão ⚠
definição:Gráfico granulado que pode aparentar ter uma reta chama-se gráfico de dispersão. Se houver a aparente linha, afirma-se correlação linear entre as variáveis.
mensuração (grau ou força)
definição: coeficiente de correlação linear de Pearson (r)
fórmula (r)
Σ [(Xi-X)(Yi-Y)] / √Σ [(Xi-X)²(Yi-Y)²]
Σ (Xi-X)² = Σ Xi² – nx(X)²
Σ [(Xi-X)x(Yi-Y)]= Σ (XixYi) - nx(XxY) ⭐
n: número de pares ordenados
Σ (Yi-Y)² = Σ Yi² – nx(Y)²
Cálculo pp.13-15 #malmente, a ques#
intervalo: [-1,1]
Quanto mais próximo do extremo do intervalo r, maior a força. Mais ao centro (0), menor. O sinal só indica a relação direta/gráfico crescente (+) ou inversa/ gráfico decrescente (-).
interpretação: risco de correlação espúria
Mede-se a relação linear entre duas variáveis, não significa relação causa e efeito.
modificadores
“+” ou “-” de ‘k” à variância: Não altera coeficiente.
“x” ou “/” de ‘k” à variância: não se altera ou inverte sinal quando constantes tem sinal inverso.
definição: Nos casos em que existe relação linear (grau forte), a expressão matemática que relaciona Y em função de X.
equação básica de uma reta 🚩
definição: y = p + mx
léxico
p: Coeficiente linear da reta, onde a reta corta o eixo y.
m: Taxa de variação: coeficiente angular da reta. Dadas 2 coordenadas da reta (x1,y1) e (x2,y2), m= Δy/Δx = y2-y1/x2-x1
Indica se ela é crescente (m>0), decrescente (m<0) ou constante (m=0).
modelo estatístico 🚩
fórmula: Yi = α + 𝛽Xi + 𝑢i
Yi= ^Y + 𝑢i
pura assim, há erros (desvios) cometidos entre valores observados e estimados de Y.
obtenção dos estimadores α e 𝛽 via método dos mínimos quadrados
fórmula: ^Y = a + bXi
e= Yi - ^Yi
Erro ou desvio
léxico
Yi= valor observado.
^Yi= valor estimado.
definição: O método dos mínimos quadrados é aquele que determina as estimativas 𝑎 e 𝑏 dos parâmetros minimizando a soma dos quadrados dos desvios.
b=Σ (Xi – X)x(Yi-Y) / Σ (Xi - X)²
Calculado, “a” vem por tabela.
Reta que passa pela origem 🚩
definição: modelo teórico requer que a reta de regressão passe pela origem, portanto 𝛼=0.
cálculo
Yi= 𝛽Xi + 𝜀i
^𝛽= ΣXY / ΣX²
x: variável explicativa (independente)
y: variável explicada (dependente)
Análise de variância da regressão 🚩
definição: queremos testar se a equação de regressão é estatisticamente significativa, ou seja, se tem algum valor explicativo.
Em resumo, testar se a variável explicativa (independente) está relacionada com a variável explicada (independente).
O teste de hipóteses trabalhado pela Análise de Variância está relacionado ao coeficiente angular 𝛽.
léxico
desvio total de Y (Yi - Y): desvio de cada valor de Yi em relação à média de desvios Y
Σ dos quadrados(SQT) ou variação total de Y em torno de sua média (SQT)
SQT= SQM + SQR
SQM= Variação explicada pelo modelo de regressão.
diferença entre o valor que o modelo de regressão prevê ^Yi e o valor de médio Y. SQM=Σ(^Yi-Y)² ou bx[(Xi-X)(Yi-Y) ou b²*Σ(Xi-X)²]
SQR=Soma dos quadrados dos resíduos ou erros.Variação não explicada pelo modelo.
SQR= Σ(Yi-^Yi)²
coeficiente de correlação (r) [-1;1]: R=√SQM/SQT
coeficiente de determinação [0,1]: R²=SQM/SQT
Próximo de 1: grande parte da variação de Y é explicada pelo modelo de regressão linear. Próximo de 0: correlação fraca, baixa explicação.
O coeficiente de determinação exprime a proporção da variação total de Y que é explicada pela reta de regressão.
ANOVA
hipótese
H0:𝛽=0 não existe relação linear significativa entre as variáveis XY
H1:𝛽≠0
tabela ANOVA
definição: para montar a tabela ANOVA, é necessário calcular o grau de liberdade (Gl) das somas dos quadrados.
Gl
Gl(total)= n-1
Gl(total) = Gl(modelos) + Gl(resíduos)
n-1=1 + Gl(resíduos)
Gl(resíduos)= n-2
Uma prática comum para a regressão múltipla é calcular o coeficente de determinação ajustado, simbolizado por R². Esta estatística ajusta a medida da força de explicação para o número de graus de liberdade. O coeficiente de detrminação ajustado é obtido dividindo SQR e SQT pelos respectivos graus de liberdade.
R_²i= [1 – SQR / (n-2)] / SQT / (n-1)
Minimizar as estimativas 𝑎 e 𝑏
resumo
grau de uma correlação linear 🚩
Σ (Xi-X)(Yi-Y) / √Σ(Xi-X)²(Yi-Y)²
Σ(Xi-X)²=ΣXi² -n(X)²
Σ (Xi-X)(Yi-Y)= (Xi-Yi) - n(XY)
regressão linear 🚩
Σ(Yi-Y)²=ΣYi² -n(Y)²
^𝛽= Σ (Xi-X) (Yi-Y) / Σ (Xi-X)²
^α= Y - ^𝛽X
parâmetros desconhecidos estimados
Quando o modelo de equação f(x) = mx, a ausência de 'p" indica origem
ANOVA
SQM=Σ(^Yi-Y)² ou bx[(Xi-X)(Yi-Y) ou b²Σ(Xi-*X)²]
SQR= Σ(Yi-^Yi)²
SQT= SQM + SQR
regressão ponto de origem 🚩
Yi= 𝛽Xi + 𝜀i
^𝛽= ΣXY / ΣX²
coeficientes
coeficiente decorrelação (R): √SQM/SQT
coeficiente de determinação (R²): SQM/SQT
associação: R²: [1 – SQR / (n-2)] / SQT / (n-1)
H0:𝛽=0 não existe relação linear significativa entre as variáveis XY
H1:𝛽≠0
cálculo ode graus de liberdade
coeficiente 𝛽.
Gltotal = Glmodelos + Glresíduos
Gltotal= n-1
n-1= 1 +Glresíduos
Glresíduos=n -2
Esta estatística ajusta a medida da força de explicação para o número de graus de liberdade
Definição: uso de diversas variáveis explicativas. 𝛽i são coeficientes parciais de regressão e 𝜀 é o erro.
Y= 𝛽0 + 𝛽1xX1+𝛽2xX2+𝛽kxXk + 𝜀
consideração: O número de observações da amostra deve exceder o número de variáveis explicativas por pelo menos 2.
Estimando:
^Y= b0 + (b1)x(X1)+(b2)x(X2)+(bk)x(Xk) + 𝜀
pressuposições
Homocedasticidade: erros são variáveis aleatórias com variância constante.
Ausência de autocorrelação no erro. Assegura que os erros são independentes
erro tem média zero: 𝐸( 𝜀 ) =0 Não tem influência na explicação de Y.
Erros têm distribuição normal. Nenhuma relação linear (multicolinearidade) pode existir entre as variáveis independentes.
fórmulas
^y= x^ 𝛽
^𝛽= (xt(x))-¹ xt(y)
y = x𝛽 + 𝐸
t: Exponencial, indica a operação de transposição.
As estimativas de máxima verossimilhança coincidem com as estimativas de mínimos quadrados, desde que a distribuição de erros seja normal.
léxico
𝛽: vetor de parâmetros
𝜺: vetor de erros aleatórios independentes e identicamente distribuídos.
t: operação de transposição
y= vetor de resposta
Cada componente seu segue uma distribuição normal com média nula e variância 𝝈²
teste ANOVA
para testar pelo menos uma das variáveis explicativas (independentes) está relacionada com a variável explicada (dependente).
hipóteses
H0= 𝛽1= 𝛽2= 𝛽k=0
H1= 𝛽i≠0
Amostragem
amostragem 🚩
Distribuição amostral dos estimadores 🚩
definições
população (N): conjunto formado por elementos com pelo menos uma característica em comum
amostra (n): subconjunto da população.
número de amostras da população
com reposição: "N" exponencial "n"
sem reposição: CNn
Combinação de ‘N” elementos tomados “n” a “n”.
léxico
parâmetro (θ): descreve alguma característica constante e numérica da população
estatística (^θ): estimador é uma função matemática (fórmula) de seus elementos, expressão matemática obtida a partir dos valores da amostra
amostragem: processo de seleção de uma amostra
Parâmetros populacionais importantes: média, variância e desvio padrão.
Estimadores importantes: média amostral (x_), variância amostral (s²), desvio padrão amostral (s) e coeficiente de correlação (r).
erro amostral (𝜀): ^𝜃 - 𝜃 O valor do estimador varia em cada uma das possíveis amostraas tiradas da população. Assim, trata-se de uma variável aleatória com distribuição igual a da população.
Ex: (1,3,7,9) 𝜇=5 (2,4,4,8) 𝜇=4,5
Como o estimador ^𝜃 é uma variável aleatória, podemos calcular a sua média (esperança) e sua variância.
tipos de amostragem
probabilísticas
não probabilísticas
2.por estratificação: divide-se a população em estratos (sub-conjuntos) e aplica-se amostragem simples
3.conglomerados: contrário da estratificação. Ex: salário entre montadoras apresentam baixa variabilidade, contudo, dentro de cada montadora há uma grande variabilidade.
1.aleatória simples
4.sistemática: ordena-se os dados por algum critério e seleciona-se de acordo com uma constante.
definição: todos os elementos da população têm a mesma probabilidade de serem selecionados.
tipos
∞ ou finita com reposição: valores independentes
sem reposição: valores dependentes
pode ser direta ou proporcional. Ex de amostra com 5% em faixas salariais.
Método: divide-se a população em conglomerados, sorteia-se conglomerado(s) e entrevista todos os elementos daquele conglomerado.
Pode ser por ordem alfabética, por exemplo. Amostra de altura para mil alunos selecionando de 20 em 20.
2.por julgamento: entrevistador buscará por elementos que possuem características definidas de acordo com seu interesse.
3.por cotas: Na amostragem por cotas, a amostra extraída de cada estratificação é selecionada por um método não probabilístico.
1.por conveniência ou disponibilidade: sem relação com perfil do entrevistado, meramente facilidade.
diferente da probabilística pro estratificação em que se aplica aleatória simples para selecionar nos estratos.
fundamento: valor do estimador varia em cada uma das possíveis amostradas tiradas da população. Assim, é considerado uma variável aleatória com distribuição igual a da população.
Distribuição amostral: distribuição de probabilidade de um estimador
léxico
distribuição amostral: distribuição de probabilidade de um estimador
distribuição população ou amostral com reposição: mesma distribuição de probabilidades da população, mesma média 𝜇 a mesma variância 𝜎² da população.
Distribuição amostral com reposição: mesma da população, mesmos possíveis elementos com mesmas probabilidades. Coleção de variáveis aleatórias independentes e identicamente distribuídas.
X (média da amostra)= Σxi/n = 𝜇
variância da amostra: igual à populacional Var(X): 𝜎 ²/n
∴ 𝜎= 𝜎/ √n
a esperança de X é igual à média populacional 𝜇
E(X)=Σxi/n = 𝜇
lançamento de dados
𝜎 ² = E(X²) - 𝜇²
𝜎²
𝜇=3,5
população: 91/6 – (3,5)²
amostra: 𝜎²/n
Assim, 𝑋é uma variável aleatória. A média em torno dos quais devem variar os possíveis valores de 𝑋 éa própria média da população. Ademais, a variância com que 𝑋se dispersa em torno de sua média é 𝑛vezes menor do que a variância populacional de onde é retirada a amostra.
Fator de correção para população finita com reposição
𝜎²=(𝜎²/n)*(N-n/N-1)
média amostral e distribuição normal
se a distribuição da população não for normal, mas a amostra for suficientemente grande, a distribuição amostral de 𝑋 será aproximadamente normal (sem reposição mas com amostra grande)
se a população tiver distribuição normal, então 𝑋 terá distribuição normal independente do tamanho da amostra (não é aproximação, é exato)
características da média amostral
definição: quando a esperança de um estimador ^𝜃 é igual ao parâmetro populacional 𝜃, então diz-se que é um estimador não-tendencioso. 𝜇 = X_
características desejadas
base: risco de amostra enviesada.
estimadores sejam eficientes: variância mínima
Estimadores de máxima verossimilhança: maximizam a probabilidade de a amostra observada ter sido obtida.
Média amostral é aquele que possui a menor variância possível: minimiza desvios, estimador de mínimos quadrados.
probabilidade2
probabilidade 🚩
definição clássica
frequência relativa
Combinação de eventos
definição: igual incerteza sobre o resultado. Determinável número de possibilidades e evento favorável.
léxico
experimento: pode ser repetido sob as mesmas condições inúmeras vezes e os resultados não podem ser previstos com absoluta certeza.
espaço amostral (U): conjunto de todos os resultados possíveis do experimento.
Evento = espaço amostral (evento certo)
Evento = ∅ (evento impossível)
combinações
A∩B ocorre se e somente se os dois eventos ocorrerem. Ocorrência de x ou y eventos: ocorrência de um número par ou ímpar.
A ou ~A ocorre se e somente se não ocorrer o outro.
A U B Ocorre se e somente se A ou B ou ambos ocorrerem. Ocorrência de x e y eventos: ocorrência de um número par e ímpar.
P(A) + P(B) - P(A∩B)
P(A) = 1 - (P(~A)
evento mutuamente exclusivo: A∩B=∅:
evento exaustivo: AUB=U
Revisão ❤
estatística descritiva 🚩
Mediana: Termo do meio.
Moda: Termo ou termos que mais aparecem.
Média populacional (μ)
desvios
Σxi/n
"X_" para amostra.
pode ser amodal
se houver número par de termos, Ma dos termos do meio.
definição: diferença entre cada valor e a média
Ex: D1= x1 – μ
Soma dos desvios sempre tem que ser igual a zero.
tipos
2.1. variância (𝝈²)= Σ(di)²/n
2.2 (𝝈²): di² - (di)²
1.desvio médio: Σ|di|/n
3.3. desvio padrão (𝝈): √Σ(di)²/n
A Correção de Bessel corresponde à divisão por n−1 e não por n, no cálculo da variância amostral (s²)
4.coeficiente de variação: 𝝈 / μ
pode ser expresso em porcentagem multiplicando-se por 100%
quartis
encontra a mediana. Dela, encontra novamente mediana dos valores a direita e à esquerda da mediana originária.
Q1, Q2, Q3
léxico
amplitude ou distância interquartílica (box plot): Q3-Q1.
Desvio interquartílico: (Q3-Q1)/2
box Plot
dentro: [Q3:Q1]
fora (bigode): valor mínimo ao Q1 e valor máximo ao Q3
valor máximo para o bigode é 1,5x amplitude box plot
amostra x população: variância (s²) = [xi² - (xi)²]*(n/n-1)
estatística inferencial 🚩
esperança
definição: mesma coisa que média, que valor esperado, que expectância.
Cálculo de média/esperança : Σvalor x Σfrequência
propriedades
2.Multiplicando-se uma variável aleatória X por uma constante, sua média fica multiplicada por essa constante.E(K.X)= KE(X)
3.A média da soma ou da diferença de duas variáveis aleatórias é, respectivamente, a soma ou diferença das médias.E(X ± Y)= E(X) ± E(Y)
1.A média de uma constante é a própria constante. E(K)= K
distribuição normal
variância(𝝈²)= E(x²) - E(x)² = (x1²px1...+xn²pxn) - μ²
definição: comanda a estatística inferencial
pesquisar: distribuição binomial e distribuição de poisson
assuntos
intervalos de confiança ✅
teste de hipótese ✅
estimadores ✅
definição: N(0;1)
padrão ou reduzida: ponto médio é igual a zero e variância e (decorrentemente) desvio padrão = 1 ∴ N(0,1) μ=0 𝝈²=1
máquina normatizadora
Z= valor - μ / 𝝈
testes de hipótese
hipóteses
Hipótese nula (H0): aquilo que se afirma sobre a população e a ser testado.
Hipótese alternativa (H1): hipótese teste que vai contra a hipótese nula.
Ex: μ=400g do bife de um restaurante
Ex: μ<400g
nível de significância: alor a partir do qual começa a ser rejeitada a hipótese nula.
Plano esquemático
Verdadeiro
Falso
Aceita H0
Rejeita H0
Aceita H0
Rejeita H0
Ex: μ=400g do bife
decisão correta ✅
erro #1(α): 1. afirma-se verdadeiramente que a carne tem em média 400g mas pego amostras pequenas que falsamente rejeitam a hipótese nula. ⛔
- P(RejH0/H0éV)=α. Nível de significância.
aceita H0 quando ele é verdadeiro. Nível de confiança = 1 – α
decisão correta ✅
erro #2: 2. afirma-se falsamente que a carne tem em média 400g mas pego amostras grandes que falsamente aceitam a hipótese nula. ⛔
Desvio médio: variabilidade dos dados em torno da média aritmética, representatividade da média.
Desvio padrão: representa o quanto um conjunto de dados é uniforme ou o grau de dispersão do conjunto. Mais próximo de zero, mais homogênea. Homogeneidade do conjunto.
Coeficiente de variação: variabilidade dos dados estatísticos excluindo a influência da ordem de grandeza da variável. DP para mesma ordem de grandeza.
Potência ou poder do teste = 1– ẞ
- .P(AceH0/H0éF)=ẞ.
Não existe fórmula que relacione α e ẞ. Ou seja, α + ẞ = 1 ou qualquer outro valor é falso.
Fórmula normalizadora: x_ - μ / [𝝈/√n]
distribuição amostral da média
definição: X_, em estatística inferencial, é uma variável aleatória. Toda variável aleatória tem uma esperança (=μ) e uma variância (=𝝈²/n). Decorrentemente, um desvio padrão (=𝝈/√n)
Erro padrão de X_ é o desvio padrão da média amostral, 𝝈/√n.
intervalo de confiança
1.com 𝝈² conhecida: 1. X ± Zo*1. 𝝈x
Zo: Valor da distribuição normal padrão associado à confiança pedida para o intervalo.
𝝈x_Desvio padrão da média amostral.
Quando não se tem o desvio padrão da população mas a amostra é grande, pode-se utilizar o 𝝈 da amostra. Nesse caso, x_ ± To*s/√n. To≅Zo. Nível de confiança: 95% z=1,96. Nesse caso, o grau d liberdade é n-1.
amplitude: 2Zo𝝈x
E=[A/2]Zo𝝈x
click to edit
Variáveis aleatórias
discretas 🚩
definição: variável aleatória assume um número finito ou infinito de valores contáveis (listáveis)
Valor numérico casual associado a cada resultado de um experimento de probabilidade.
Variáveis aleatórias são representadas por letras maiúsculas (X) e seus valores, por minúsculas (x). Variável aleatória X (nº de filhos) assume um valor numérico x (7 filhos).
Ex: número de ligações a um escritório.
características
Média da função de probabilidade (esperança) E(X): basta multiplicar cada valor pela respectiva probabilidade e somar.
Covariância: medida de como 2 variáveis variam conjuntamente.
Cov(X,Y) = Σ (Xi - ^X)*(Yi - ^Y) / n-1
n=Dados observados.
Moda: Valor associado à maior probabilidade.
Mediana: Valor em que F(x) > 50% pela primeira vez.
𝑣𝑎𝑟(𝑋 + 𝑌) = 𝑣𝑎𝑟(𝑋) + 𝑣𝑎𝑟(𝑌) + 2 ∙ 𝑐𝑜𝑣(𝑋, 𝑌)
Se forem independentes, cov (X,Y) = 0. Contudo, cov 0 não quer dizer necessariamente que sejam independentes.
E(X + Y) = E(X) + E(Y)
Verdade absoluta, independente da dependência ou independência entre as variáveis.
E(XxY) = E(X)xE(Y)
Se as variáveis forem independentes. A recíproca não é verdadeira.
MPSC
análise combinatória
Permutação
grupo menor dentro do maior
princípio da contagem
arranjo: senha
combinação: equipe
6:00-23:48
23:49-27:12
geral
circular
27:13-28:23
33:50-