Estatística

3 grandes grupos

Descritivas

Probabilística

Inferencial

image

como as áreas da estatística se relacionam

Inferencial

população

amostra

estatística descritiva

tabelas, gráficos e medidas

estatística probabilística

erro

definições

população ou universo

conjunto de tudo que sera estudado

Amostra

subconjunto da população

usados para generalizarm, inferir ou tirar conclusões da população (estatística inferencial)

Censo

conjunto das operações que consiste em recolher, agrupar e publicar dados demográficos, econômicos e sociais relativos a determinado momento ou em
certos períodos, a todos os habitantes de um país ou território

Variável

exemplo, faturamento, quantidade de funcionários

é uma característica ou atributo que se deseja observar, medir ou contar

Dados

dados

Parâmetro

Medidas estatísticas numéricas que precisam ser estimadas a partir de critérios ou métodos definidos pelo pesquisador para representar determinadas características da população geralmente desconhecidas

varáveis

não métricas ou qualitativas

Variáveis métricas ou quantitativas

Faixas são qualitativas, ou seja não é só pq tem número que ela é quantitativa

As variáveis discretas podem assumir um conjunto finito ou enumerável de valores que são provenientes, frequentemente, de uma contagem, por exemplo, o número de filhos (O, 1, 2, ... )

Já as variáveis contínuas assumem valores pertencentes a um intervalo de números reais, por exemplo, peso ou renda de um indivíduo

Variável Qualitativa

Nominal

Ordinal

Variável Quantitativa

Intervalar

Razão

image

Escala nominal

status do usuário

e é necessário que cada número tenha um rótulo

Variáveis não métricas - escala ordinal

image

A ordem importa

Variável quantitativa - escala intervalar

A escala intervalar, além de ordenar as unidades quanto à característica mensurada, possui uma unidade de
medida constante.A origem ou o ponto zero dessa escala de medida é arbitrário e não expressa ausência de quantidade

Exemplo: temperatura 30 graus celsius

image

Frequências

a) Frequência absoluta (F;): número de ocorrências de cada elemento i na amostra.

b) Frequência relativa (Fr;): porcentagem relativa à frequência absoluta.

c) Frequência acumulada (F4 ,): soma de todas as ocorrências até o elemento analisado.

d) Frequência relativa acumulada (Fr4 c}

Diagrama de Pareto

image

Solução

O primeiro passo para a construção do diagrama de Pareto é ordenar os defeitos por ordem de prioridade (da maior frequência para a menor). O gráfico de barras representa a frequência absoluta de cada defeito. Para a construção do gráfico de linhas, é necessário calcular a frequência relativa acumulada (%) até o defeito analisado

Gráfico de ramo-e-folhas

Passo 1: Ordenar os dados em forma crescente, para facilitar a visualização dos dados.

Passo 2: Definir o número de dígitos iniciais que irão compor o ramo ou o número de dígitos complementares que irão compor a folha.

Passo 3: Construir os ramos, representados em uma única coluna do lado esquerdo da linha vertical. Seus diferentes valores são representados ao longo de várias linhas, em ordem crescente. Quando o número de folhas por ramo for muito grande, criam-se duas ou mais linhas para o mesmo ramo.

Passo 4: Colocar as folhas correspondentes aos respectivos ramos, do lado direito da linha vertical, ao longo de várias colunas (em ordem crescente).

image

é uma alternativa para representar distribuições de frequências de variáveis quantitativas discretas e contínuas com poucas observações, com a vantagem de manter o valor original de cada observação (possibilita a visualização de toda a informação dos dados).

Boxplot

image

medidas

de tendencia central

separatrizes

quartis

decis

percentis

media

mediana

moda

Média aritmética para dados contínuos agrupados em classes

multiplicar os agrupamentos e depois somar e dividir pela a média =

image

Mediana

Mediana para dados discretos agrupados

click to edit

para dados discretos e contínuos não agrupados

Mediana normal

Mediana para dados contínuos agrupados em classes

image

Medidas de dispersão ou variabilidade

Amplitude

Desvio-médio

amplitude total A = Xmáx - Xmin

erro-padrão

Coeficiente de Variação CV

O coeficiente de variação (CV) é uma medida de dispersão relativa que fornece a variação dos dados em relação à média. Quanto menor for o seu valor, mais homogêneos serão os dados, ou seja, menor será a dispersão
em torno da média.

O erro-padrão é o desvio-padrão da média. É obtido dividindo-se o desvio-padrão pela raiz quadrada do tamanho da população ou amostra

Como a variância considera a média dos desvios quadrados, seu valor tende a ser muito grande e de difícil
interpretação. Para resolver esse problema, extrai-se a raiz quadrada da variância, medida conhecida como desviopadrão.

Variância

A variância é uma medida de dispersão ou variabilidade que avalia o quanto os dados estão dispersos em relação à média aritmética. Assim, quanto maior a variância, maior a dispersão dos dados.

Medidas de forma

Kurtosis

skewness

média > mediana > moda

image

Ou seja, é uma distruibuição assimétrica negativa ou à esquerda

média < mediana < moda

image

Distribuição Positiva, ou à direita

image

image

Se As2 = O, a distribuição é simétrica;

Se As2 > O, a distribuição é assimétrica positiva (à direita);

Se As2 < O, a distribuição é assimétrica negativa (à esquerda).

O seu valor em módulo indica a intensidade da assimetria, isto é,
quanto maior o coeficiente de assimetria de Pearson, mais assimétrica é a curva

Logo

Se O < 1As1 < O, 15, a assimetria é fraca;

Se 0,15:::; IAsl :::; 1, a assimetria é moderada;

Se 1As1 > 1, a assimetria é forte.

Coeficiente de assimetria de Bowley

feito a partir do calculo de quartil

image

Logo:

Se AsB = O, a distribuição é simétrica;

Se AsB > O, a distribuição é assimétrica positiva (à direita);

Se AsB < O, a distribuição é assimétrica negativa (à esquerda).

Coeficiente de assimetria de Fisher

image

logo:

Se g1 = O, a distribuição é simétrica;

Se g1 > O, a distribuição é assimétrica positiva (à direita);

Se g1 < O, a distribuição é assimétrica negativa (à esquerda).

Medidas de curtose

a mesocúrtica

quando é uma curva de gauss normal e alongada

platicúrtica

Curva normal de gauss, mas mais achatada

image

image

leptocúrtica

quando é muito mais alongada

image

uma das formas para medir o grau de achatamento da curtose é o coeficiente percentílico de curtose, ou simplesmente coeficiente de curtose( K)

k

Se k = 0,263, diz-se que a curva é mesocúrtica;

Se k > 0,263, diz-se que a curva é platicúrtica;

Por fim, se k < 0,263, diz-se que a curva é leptocúrtica.

Também é usado para medir o grau de achatamento da curva

Se g2 = O, a curva apresenta uma distribuição normal (mesocúrtica);

Se g2 < O, a curva é muito achatada (platicúrtica);

Se g2 > O, a curva é muito alongada (leptocúrtica).

image

Considerações finais

análise descritiva para só 1 variavel (univariada). Por meio de tabelas, gráficos e medidas-resumo, identificando tendências, variabilidade e outliers

Antes de iniciarmos uma análise descritiva, é necessário identificcar tipo de variável, existem várias

variáveis quantitativas, as estatísticas descritivas mais utilizadas são os gráficos e as medidas-resumo (medidas de posição ou localização, dispersão ou variabilidade e medidas de forma)

uma variável qualitativa são tabelas de distribuição de frequência e gráficos. A tabela de distribuição de frequências para uma variável qualitativa representa a frequência de ocorrências de cada categoria da variável.A representação gráfica de variáveis qualitativas pode ser ilustrada por meio de gráficos de barras (horizontal e vertical), de setores ou pizzas e do diagrama de Pareto.