Please enable JavaScript.
Coggle requires JavaScript to display documents.
INTRO CIÊNCIA DE DADOS (AULA 1 E 2: CONTEXTUALIZAÇÃO E CONCEITOS (5 CD…
INTRO CIÊNCIA DE DADOS
AULA 1 E 2: CONTEXTUALIZAÇÃO E CONCEITOS
1HOJE
DECISÕES EM EMOÇÕES (É INSTINTO)
90% DA WEB FOI GERADA EM 2 ANOS
CRESCIMENTO 40% ANO
2004-2014: MAIS QUE TODA HISTÓRIA
BANDO DE DADOS
2TEMINOLOGIA
NECESSIDADE
PROBLEMA
SOLUÇÃO
BIG DATA-> IA
3MD (NÃO É SÓ EXTRAÇÃO DE DADOS)
ESTATÍSTICA
BD
IA
É UMA TÉCNICA PARA ML
ML
INFERÊNCIA EM CIMA DE UM CONJUNTO DE DADOS
EXTRAÇÃO DE CONHECIMENTO
EXISTE O DEEP LEARNING . EX.GOOGLE TRADUTOR
4CD
MAIS AMPLO
USA DADOS DE VÁRIAS FONTES
USA GRANDE QUANTIDADE DE DADOS DE FORMA SISTEMÁTICA
KDD - KNOWLEDGE DISCOVER IN DB
5IA
COMEÇOU EM 1942
1970 PAROU E VOLTOU EM 1987
ML
DL
5 CD FONTE DATA SCIENCE ACADEMY (INTERSEÇÃO DAS FONTES DE CONHECIMENTO)
MÉTODO CIENTÍFICO
PENSAMENTO HACKER
Observam o óbvio;
Imaginam o pior;
Exploram todos os pontos de acesso possíveis;
Amam todos tipos de dados;
Entendem que os humanos são o elo fraco;
Adoram informações obscuras;
Encontram e exploram backdoors;
Exploraram a indiferença de terceiros;
Buscam credenciais;
Aproveitam do seu lixo.
MATEMÁTICA
ESTATÍSTICA
ANÁLISE DE DADOS
EVENTOS
DECISÕES COM INCERTEZA
APRENDIZADO
COLETAR, DESCREVER, ANALISAR, APRESENTAR, INTERPRETAR
PROBABILIDADE
EST DESCRITIVA
EST INFERENCIAL
TÉCNICAS ANTIGAS MAS SÃO USADAS APENAS HOJE
GOVERNO USA
SAUDE
VAREJO
GEOLOGIA
TEMOS VOLUME, DW, HARDWARE, SOFTWARE, COMPETIÇÃO, DADOS COMO ATIVO*
DADO->INFORMAÇÃO->CONHECIMENTO->TEORIA CONSPIRAÇÃO
CONHECIMENTO DE NEGÓCIO
COMPUTAÇÃO AVANÇADA
ENGENHARIA DE DADOS
VISUALIZAÇÃO
6 BI E CD
DESCRITIVA "O QUE ACONTECEU?" - BI
DIAGNÓSTICO "POR QUE ISSO ACONTECEU?" - BI
PREDITIVA "O QUE ACONTECERÁ?"
PRESCRITIVA "O QUE DEVE SER FEITO?"
TIPOS DE DADOS
ESTRUTURADO
SEMI ESTRUTURADO
NÃO ESTRUTURADO
DATAOPS
SUPORTA A QUANTIDADE, VELOCIDADE E VARIEDADE DE DADOS
INTERSEÇÃO DE ENG.DE DADOS, DATA INTEGRATION, PRIVACIDADE E SEGURANÇA (ÁREA TOP), QUALIDADE
DEVOPS
DATA LAKE
REPOSITÓRIO DE DADOS BRUTOS
ARMAZENAMENTO DISTRIBUÍDO
DEVE SER ORGANIZADO PARA NÃO VIRAR PÂNTANO - DATA SWAMP
DL X DW
DW É LIMPO É ORGANIZADO
ANÁLISE DIRETO NO DW
DL TEM DADOS BRUTOS
DL SÃO SELECIONADOS E ORGANIZADOS DE ACORDO COM NECESSIDADE
APRENDIZADO
ADAPTAR, MODIFICAR E MELHORAR
APRENDENDO OU TREINANDO OU CONSTRUINDO OU INDUZINDO MODELO DE CONHECIMENTO
A PARTIR DE UM CONJUNTO DE DADOS
SE PROCURAR PADRÕES
UMA ESTIMATIVA OU TESTE OU PREDIÇÃO
DE ATRIBUTOS OU VALORES
DIZ QUE O MODELO ESTÁ SENDO APLICADO
FORECAST
PREDICTION
O MODELO É CONTINUO E VIVO - DEVE SER SEMPRE VALIDADO
APRENDIZADO SUPERVISIONADO
CONHECIMENTO A PARTIR DE DADOS (DATASET)
OS DADOS SÃO APRESENTADOS DE FORMA PARES ORDENADOS (ENTRA-SAÍDA DESEJADA) ROTULADOS
O ALGORITIMO DEVE RECEBER UM NÚMERO SUFICIENTE DE EXEMPLOS OU REGISTROS OU INSTÂNCIAS DE ENTRADAS E SAÍDAS JÁ ROTULADAS
O OBJETIVO É APRENDER UMA REGRA GERAL MAPEANDO A ENTRADA E SAÍDAS CORRETAS
DADOS DE ENTRADA
X (ATRIBUTOS OU CARACTERÍSTICAS) PARA FAZER A CLASSE DE SAÍDA (ATRIBUTOS PREVISORES OU PREDIÇÃO)
Y ATRIBUTOS DE PREDIÇÃO E O VALOR DA SAÍDA (ATRIBUTO ALVO OU TARGET)
DADOS HISTÓRICOS
DADO ENTRADA
ML
MODELO PREDITIVO
ENTRADA NOVO DADO
SAÍDA ESPERADA
RÓTULO DE ENTRADA
DADO->AMOSTRA->ALGORITMO->MODELO->TESTE->VALIDAÇÃO->PRODUÇÃO
APRENDIZADO NÃO SUPERVISIONADO
NÃO EXISTE RÓTULO HISTÓRICO OU SEJA, SEM DADOS DE SAÍDA
NÃO RECEBE DADOS PARA TREINAMENTO. DESCOBRI POR SI SÓ EXPLORANDO OS DADOS ENCONTRADOS
BUSCA REGULARIDADE ENTRE OS DADOS BUSCANDO AGRUPAR CONFORME CHEGA OS DADOS
NÃO HÁ TREINO E NÃO HÁ TESTE
GARBAGE IN GARBAGE OUT
AULA 2: CONTEXTUALIZAÇÃO E CONCEITOS
CAMADAS PROCESSO KDD
PROBLEMA QUE SERÁ APLICADO
BASE DE DADOS RUINS (70% DO TEMPO DE TODO TRABALHO É ARRUMAR)
OBJETIVOS
RECURSOS DISPONÍVEIS
FERRAMENTAS
PESSOAS
HARDWARE
RESULTADO OBTIDO
AÇÕES
MODELO
A DIFICULDADE É NEGOCIAR COM OS DONOS DOS DADOS( GESTOR DOS DADOS)
CICLO DE VIDA PROJETO CD
1 ENTENDER
PROBLEMA
OBJETIVOS
PRECISA DO ESPECIALISTA DO DOMÍNIO
2 COLETAR
ONDE?
O QUE?
3 PREPARAR
70% DO TEMPO
4 CONSTRUIR
QUE PADRÕES LEVAM A SOLUÇÃO?
5 AVALIAR E CRITICAR
6 APRESENTAR
TAXA DE ACURÁCIA
7 PRODUÇÃO
ESQUEMA PROJETO CD (É O CHECK LIST)
1 PROBLEMA (QUAL É A PRECISÃO?)
1 ELENCAR PERGUNTAS
2 IDENTIFICAR VARIÁVEIS
3 CLASSIFICAR PERGUNTA X PROBLEMA
2 COLETA DADOS
1 VERIFICAR VARIÁVEIS
2 MODELAR DEFINIR ETL
3 ANALISAR
AQUI ACHA CURIOSIDADES
3 PRÉ-PROCESSAMENTO ETL MELHORADO (EXTRAÇÃO, TRANSFORMAÇÃO E CARGA)
SELEÇÃO
CODIFICAÇÃO
LIMPEZA
ENRIQUECIMENTO
1 REMOVER
2 CORRIGIR OU AMENIZAR OUTLIERS
3 SELECIONAR VARIÁVEIS
4 MODELAGEM E INFERÊNCIA
BUSCA POR INFORMAÇÃO E CONHECIMENTO ÚTIL
TÉCNICAS EST
1 ELENCAR MODELOS
2 ESTIMAR PARâMETROS
3 AVALIAR RESULTADOS
TESTAR OS PARÂMETROS
5 PÓS-PROCESSAMENTO
1 COMBINAR HEURÍSTICA
2 PÓS-AVALIAR ACURÁCIA
6 RESULTADOS
1 RELATAR METODOLOGIA
2 COMPARAR BENCHMARK
3 PLANEJAR IMPLEMENTAÇÃO
7 IMPLANTAÇÃO
1 QUALITATIVA
GANHOS
2 QUANTITATIVO ROI
PAPEL DO SER HUMANO
1 LEVANTAR OBJETIVOS
2 ESCOLHER ALGORITIMO
3 TÉC. DE PROCESSAMENTO
4 PARAMETRIZAÇÃO
5 CONHECIMENTO
6 INTUIÇÃO
CD HJ É MAIS ARTE QUE CIÊNCIA E O FEELING OU INTUIÇÃO DO ESPECIALISTA NÃO PODE SER DESPREZADO
TIPOS
CLASSIFICAÇÃO
UMA VEZ CLASSIFICADO PODE SE PREVER O COMPORTAMENTO FUTURO - CLUSTER
COM A BASE ROTULADA, FAZEMOS 70% TREINO OU VALIDAÇÃO E 30% TESTE
DEPOIS DO TESTE É FEITO A CALIBRAÇÃO
DE DO TESTE AVALIA A QUALIDADE DO MODELO OU A CAPACIDADE DE ACERTAR
UMA VEZ AVALIADA A HIPÓTESE (CLASSIFICADOR), PODE FICAR ESPECÍFICA COM O TREINO
O TESTE VAI FICAR RUIM
CHAMADO DE OVERFITING (SÓ IDENTIFICA O TESTE)
UNDERFITTING PODE SER EM FUNÇÃO DO PUCO AO TREINO
REGRESSÃO (PREDITIVO) - DILEMA FLEXIBILIDADE X QUALIDADE (BIAS X VARIÂNCIA)
DEVE SER FLEXÍVEL PARA TREINOS ESTAREM PRÓXIMOS AO TESTE E NÃO ABSORVER RUÍDOS
SOLUÇÃO É INTERROMPER NO MOMENTO CERTO
DM
ASSOCIAÇÃO
AGRUPAMENTO
AULA 3 ANÁLISE EXPLORATÓRIA DE DADOS
ANÁLISE EXPLORATÓRIA DE DADOS
1 COMPREENDER BEM P/ BUSCAR SOLUÇÃO
2 LIMPAR, TRANSFORMAR E APRESENTAR
3 ENTENDER PARA INTERPRETAR ML
4 VISUALIZAR EM GRÁFICOS AJUDA A ENTENDER
OUTLIERS
ATRIBUTOS REDUNDANTES
MELHOR FORMA PARA O CÉREBRO
EXPLORANDO COM ESTI
DESCRITIVA
POSIÇÃO E TENDÊNCIA CENTRAL
DISPERSÃO
CLASSIFICANDO VARIÁVEIS
QUANTITATIVAS
DISCRETA
CONTÍNUA
EX: PESO
QUALITATIVAS
NOMINAL (EX.SEXO)
ORDINAL (EX. CLASSE SOCIAL)
TIPOS DE GRÁFICO
QUALITATIVO
PIZZA
BARRAS E COLUNAS
QUANTITATIVO
DISCRETAS
DISPERSÃO (SCATTERPLOT)
CONTÍNUAS
TABELA DE FREQUÊNCIA E HISTOGRAMA
LINHAS
SW R
COMANDOS
SUMARIZAR
HISTOGRAMA
GRÁFICO DENSIDADE
BLOXPLOT
QUARTIS
CORRELAÇÃO
DISPERSÃO
APRENDENDO R DE FORMA RÁPIDO
AULA 4: PRÉ-PROCESSAMENTO DE DADOS
MOTIVAÇÃO: PROBLEMAS DE PRE-PROCESSAMENTO
UNIDADES DE MEDIDAS
VALORES FALTANTES
VALORES INCONSISTENTES
INVÁLIDOS
OUTLIERS
INTERVALO DE DADOS
TRANSFORMAÇÃO LOGARITIMA
INTERVALOS PEQUENOS (SEM INFORMAÇÕES ÚTEIS)
O INTERVALO ADEQUADO VARIA COM O DOMINIO DA APLICAÇÃO
EXEMPLO
SE FALTA DADOS, EXCLUI OU SUBSTITUI
VALORES NEGATIVOS ERRADOS DEVE COLOCAR 0
RANGE GRANDE COLOCAR BASE LOG
SE PARECER NORMAL TRANSFORMAR PARA NORMAL
TEC
LIMPEZA
AGREGAÇÃO
AMOSTRAGEM
REDUÇÃO DE DIMENSIONALIDADE
SELEÇÃO DE SUBCONJUNTO
CRIAÇÃO DE RECURSOS
NORMALIZAÇÃO E PADRONIZAÇÃO
OUTRAS: DISCRETIZAÇÃO, ONE-HOT ENCONDING, ENRIQUECIMENTO
RECOMENDAÇÃO: SEMPRE FAZER COPIAS A CADA ATUALIZAÇÃO DO BANCO
CADA TEC TEM SUAS VANTAGENS E DESVATENGENS
PARTIÇÃO DO CONJUNTO DE DADOS
HOLDOUT
TESTE
TREINO
K-FOLD CROSSVALIDATION
TEMOS A ESTRATIFICADA
LEAVE-ONE-OUT
AULAS LABORATÓRIO R E WEKA
AULA 5: INTRODUÇÃO AO WEKA
TIPO ESPECÍFICO DADO WEKA (ARFF)
NOME DATASET
NOME E TIPO DE ATRIBUTO
ATRIBUTOS
DADOS
VALOR MISSING
COMENTÁRIO
PARECIDO COM CVS
VOCABULÁRIO
INSTANCE
ATRRIBUTE
OUTPUT
AULA 6: DATA MINING 1 - ANÁLISE EXPLORATÓRIA
VISUALIZE ALL: TODOS OS HISTOGRAMAS NA MESMA TELA
VISUALIZE: TODOS OS GRÁFICOS PARA ANÁLISE DE CORRELAÇÃO
AULA 7: PRÁTICA DE PRE-PROCESSAMENTO
MELHORAR A ESCALA DAS VARIÁVEIS PARA AS SUPOSIÇÕES DOS ALGORITIMOS EM ML
REDIMENSIONAMENTO PARA DEIXAR OS ATRIBUTOS NA MESMA ESCALA
APLICAÇÃO DO FILTER
SUPERVISIONADO
NÃO SUPERVISIONADO
AULA 8: DATA MINING 1 - PRÁTICAS DE SELEÇÃO DE ATRIBUTOS
ATTRIBUTE EVALUATOR
CADA ATRIBUTO É AVALIADO NO CONTEXTO DE SAÍDA
SEARCH METHOD
EXPERIMENTA DIFERENTES COMBINAÇÕES PARA CHEGAR NA LISTA DE ESCOLHIDOS
CORRELAÇÃO É UMA FORMA FAMOSA
GANHO DE INFORMAÇÃO
REPROCESSAR SEM OS ATRIBUTOS AVALIADOS
AULA 9: APLICAÇÃO E AVALIAÇÃO DE ALGORÍTIMOS DE DE ML
REGRESSÃO LOGÍSTICA
CLASSIFICAÇÃO BINÁRIA
MULTI-CLASSE
ASSUME QUE É NORMAL
Aprende um coeficiente para cada valor de entrada, que são linearmente
combinados em uma função de regressão e transformados usando uma
função logística (em forma de s ), que mapeia a saída em valores entre 0 e 1.
ÁRVORE DE DECISÃO
COMO O SER HUMANO TOMA DECISÕES
DA RAIZ PARA FOLHA
VAI FAZENDO DIVISÕES ATÉ UM PONTO DE PARADA
K VIZINHOS MAIS PRÓXIMOS (KNN)
NOVO PADRÃO É SIMILAR AOS K PADRÕES DE TREINAMENTOS MAIS PRÓXIMOS
É SIMPLES E ASSUME A DISTÂNCIA ENTRE AS INSTÂNCIAS
RETORNA A CLASSE MAIS COMUM DAS K DISTÂNCIAS
SUPPORT VECTOR MACHINE (SVM)
COMPLICADO
ENCONTRA UMA LINHA QUE SEPARA OS DADOS
EXISTE A CRIAÇÃO DE OUTRAS DIMENSÕES PARA MELHOR RESULTADO DO MODELO
NA PRÁTICA COM WEKA
oferece muitos algoritmos de aprendizado de
máquina já implementados e de fácil parametrização.
pode ser difícil escolher quais algoritmos
usar, como parametrizar e quando usar. A nomenclatura dos
algoritmos é um pouco confusa e nem sempre corresponde
aos nomes conhecidos.
ETAPAS
1-ESCOLHER
2-CONFIGURAR
3-CAPABILITIES
4-TREINAR E AVALIAR
PERFOMANCE DOS ALGORITMOS