Please enable JavaScript.
Coggle requires JavaScript to display documents.
Cap 1: Introdução à Mineração de Dados (Exemplos de aplicação (Detecção de…
Cap 1: Introdução à Mineração de Dados
Introdução
Lei de Moore
Avanços tecnológicos
Superabundância de dados
Métodos para análise de dados
Técnicas e ferramentas
Transformação de dados em informações
Representação de conhecimento
Tomada de decisão estratégica
Cloud Computing
Serviço em vez de produto
Recursos compartilhados via rede
Fornecimento de recursos (hardware e software) computacionais
Aplicações hospedadas em servidores remotos
Quantidade quase ilimitada de dados
Desafio
Armazenar
Processar
Gerenciar
Extrair conhecimento
O que é mineração de dados
Principais tarefas da mineração de dados
Análise de grupos
Agrupamento/Clustering
Separar um conjunto de objetos em grupos de objetos similares
Considera dados de entrada não rotulados
Este processo normalmente é usado para identificar os grupos (classes)
Cada grupo formado pode ser visto como uma classe de objetos
Treinamento não surpevisionado
Cluster
Coleção de objetos similares uns aos outros
São dissimilares aos objetos dos outros clusters
Objetos agrupados com o objetivo de
Maximizar a distância/similaridade interclasse
Minimizar a distância/similaridade intraclasse
Objetivo
Encontrar relações entre objetos da base
Relações = grupos, classes e estimativas
Associação
Análise por associação / Mineração de regras de associação
Descoberta de regras de associação que apresentam valores de atributos que ocorrem concomitantemente em uma base de dados
Usado em
Ações de marketing
Bases de dados transacionais
Objetivo
Encontrar relações entre atributos/variáveis
Predição
Construção e uso de um modelo para
Regressão/Estimação
Estimar o valor de um ou mais atributos de um objeto
Usada para predizer valores contínuos
Exemplos
Estimativa de desempenho de atletas
Estimativa de crédito
Predição de produtividade de grãos
Estimativa de valores futuros em bolsas de valores
Previsão do clima
Classificação
Avaliar a classe de um objeto não rotulado
Usada para predizer valores discretos
Exemplos
Classificação de objetos
Atribuição de crédito
Identificação de spams
Detecção de fraudes
Detecção de anomalias
Anomalias / valores discrepantes (outliers)
Objetos que não seguem o comportamento
Objetos que não possuem característica comum dos dados ou de um modelo
Ruídos e exceções
Detecção através
Métodos estatísticos
Modelo de probabilidade dos dados
Medidas de distância
Objetos muito distantes são considerados anomalias
Característica das anomalias
Compõem uma classe que ocorre com uma frequência inferior à das classes normais
Análise descritiva de dados
Uso de ferramentas capazes de medir, explorar e descrever características intrínsecas dos dados
Permitem investigar
Medidas de centro e variação
Medidas de posição relativa
Distribuição de frequência
Associação dos dados
Permite a sumarização e compreensão dos objetos da base e seu atributos
Classificação
Descritivas
Caracterizam propriedades gerais dos dados
Preditivas
Fazem inferência a partir dos dados objetivando predições
Dicas para uma análise eficiente e eficaz
Necessidade de conhecer os dados
Técnicas de análise devem ser aplicadas
Objetivo: entender a base antes de iniciar a mineração
Buscar pela parcimônia
Parcimônia da solução = complexidade do modelo resultante
Alguns algoritmos de mineração resultam modelos de dados
Esses modelos podem ser usados para inferência ou predição
A escolha pelo modelo deve considerar a parcimônia da solução
Reconhecer que as características da base de dados influenciam todos os resutados
É importante reconhecer que os seguintes fatores afetam a resultado da análise
Os tipos de atributos e seus domínios
Ausência de valores na base
Dimensão (número de atributos) desses objetos
Inter-relações entre atributos
Quantidade de objetos na base
Outras características dos dados
Verificar os erros
É preciso fazer um diagnóstico de desempenho do algoritmo
Identificar o porquê da ocorrência
Empregar conhecimento para realimentar o processo de análise
Identificar erros
Estabelecer a significância da mineração
Considerar a significância estatística
Significância estatística
Tem relação com a confiabilidade dos resultados obtidos
Se a base foi preparada corretamente para análise
Se os resultados são coerentes
Se os algoritmos propostos tem o desempenho desejado
Considerar a significância prática da mineração
Significância prática
Questiona a aplicabilidade prática das análises realizadas
Se as análises podem ser usadas na tomada de decisão
Validar seus resultados
Resultados de uma análise precisam ser validados
Usando especialista de domínio capaz de validar os resultados
Combinando com outras técnicas
Analisando a capacidade de generalização dos métodos
Comparando com o resultado de outras técnicas
Conceito
Processo sistemático, interativo e iterativo
Processo de preparação e extração de conhecimentos a partir de grandes bases de dados
Surgiu do contexto de superabundância de dados
Alusão ao processo de mineração
Extração de minerais valiosos a partir de uma mina
Data Mining
Uma base de dados é explorada (mina)
Usando algoritmos (ferramentas)
Para obter conhecimento (minerais preciosos)
Conhecimento
Permite tomada de decisão para agregação de valor
Informações
Agrega significado e utilidade aos dados
Dados
Símbolos não estruturados
Sem significado
É parte integrante do KDD
Descoberta de conhecimento em bases de dados
4 partes
Preparação ou pré-processamento de dados
Etapas anteriores à mineração
Integração
Seleção
Limpeza
Transformação
Visam preparar os dados para uma análise mais eficiente e eficaz
Mineração de dados
Aplicação de algoritmos capazes de extrair conhecimento a partir dos dados
Base de dados
Coleção organizada de dados
Valores quantitativos ou qualitativos
Avaliação ou validação de conhecimento
Avaliação dos dados da mineração
Envolve conhecimento de algumas áreas
Reconhecimento de padrões
Computação natural
Computação de alto desempenho
Visualização de dados
Aprendizagem de máquina
Recuperação de informação
Estatística
Processamento de imagens e de sinais
Banco de dados
Análise espacial de dados
Inteligência artificial
As diferentes nomenclaturas
Aprendizagem de máquina
Visa desenvolver programas computacionais capazes de automaticamente melhorar seu desempenho por meio da experiência
"Aprender a resolver problemas"
Baseada em conceitos e resultados de algumas áreas
Biologia
Ciências cognitivas
Teoria da informação
Complexidade computacional
Filosofia
Teoria de controle
IA
Estatística
Utilizar experiências passadas
Sistemas que sofrem aprendizagem são aqueles capazes de se adaptar ou mudar seu comportamento com base em exemplos
Quando um sistema aprende, ele muda seu padrão comportamental
Paradigmas de aprendizagem
Aprendizagem/Treinamento
Processo de ajuste e/ou construção do modelo usando mecanismo de apresentação ou uso dos objetos da base de dados
Conceito
Maneira pela qual o ambiente influencia a técnica em seu aprendizado
Algoritmo de aprendizagem/treinamento
Procedimento bem definido para treinar uma técnica de aprendizagem de máquina
Tipos
Aprendizado supervisionado
Baseado em um conjunto de objetos para os quais as saídas desejadas são conhecidas
Aprendizado não supervisionado
Baseado apenas nos objetos da base, cujos rótulos são desconhecidos
Inteligência computacional
Houve-se necessidade de dissociar algumas áreas das técnicas que compunham a IA clássica
Criou-se então a inteligência computacional, uma nova linha de pesquisa
Computação natural
Linha de pesquisa que investiga modelos e técnicas computacionais inspiradas na natureza
Tenta compreender o mundo sob a perspectiva de processamento de informação
Fundamentada numa relação próxima entre natureza e computação
É multidisciplinar
Exemplos
Redes neurais artificiais
Algoritmos evolutivos
Sistemas imunológicos artificiais
Computação com moléculas
Computação quântica
Inteligência artificial clássica
IA: Ciência e engenharia de máquinas inteligentes
IA clássica
Técnicas mais tradicionais da IA
Eram essencialmente simbólicas
Propunham que uma manipulação algorítmica de estruturas simbólicas seria necessária e suficiente para o desenvolvimento de sistemas inteligente
Característica marcante para construir o sistema inteligente
Sistemas especialistas / baseados em conhecimento
Atualmente envolve
Sistemas especialista
Métodos de busca
Sistemas de raciocínio ou inferência baseados em lógica
Sistemas baseados em agentes
Aprendizagem de máquina
Exemplos de aplicação
Combate a perdas não técnicas de energia elétrica
Perdas categorizadas em:
Perdas técnicas
Perdas intrínsecas ao sistema elétrico
Perdas comerciais (não técnicas)
Consequência de erros ou ausência de medição, medidores com defeito, consumidores clandestinos, desvio de consumo e furto de energia
Formas de reduzir as perdas comerciais
Realizar inspeções técnicas no local de consumo em busca de irregularidades
Com base nos dados da fiscalização obtidos, pode ser feita uma análise para investigar inter-relações entre amostras, permitindo definir pontos estratégicos de fiscalização
Classificação automática dos cadastros disponíveis
Sistema de classificação que permite identificar automaticamente consumidores que provavelmente estejam causando perda
Segmentação de curvas de carga em sistemas de energia elétrica
A falta de planejamento e investimento no setor produtivo de energia elétrica pode causar
Apagões
Cortes indesejáveis no fornecimento de energia
Paralisar a produção industrial
Deteriorar o desempenho de outros serviços
Com o objetivo de melhorar o planejamento da produção de energia elétrica, é possível usar técnicas de análise de dados para previsão de carga (consumo)
Previsão de demanda de carga
Fornecer informações para tomada de decisão criteriosa que proporciona economia e segurança no fornecimento de energia elétrica
Detecção de fraudes em cartões de crédito
Fraudes: transações fraudulentas
O controle eficiente de transações comerciais feitas com cartões de crédito requer
Mecanismos de verificação
Mecanismos de autenticação rápidos e eficazes
Garantia de detecção de tentativas de fraudes
Categorias de fraudes em cartões de crédito
Fraudes comportamentais
Transações ilegítimas são autorizadas
Dados de um usuário legítimo são usados de forma fraudulenta
Fraudes de aplicação
Indivíduo adquire um novo cartão usando informações falsas
O mesmo indivíduo gasta o máximo que pode
Combate às fraudes
Prevenção
Medidas que visam impedir a ocorrência de fraudes
Detecção
Identificação rápida e eficiente de transações ilegítimas
Análise de sentimento em redes sociais
A análise de dados de redes sociais pode evidenciar por que determinados eventos repercutem na população
A aplicação de técnicas de mineração de dados possibilita extrair informações escondidas nos dados
Posicionamento de candidatos a uma eleição
Informações sobre catástrofes
Dispersão de doenças
Monitoramento de marcas
Outras informações úteis para tomada de decisões
A análise de sentimento é um tipo de classificação de textos, que busca rotular um documento de acordo com suas características
Modelagem de processos siderúrgicos
Indústrias siderúrgicas investem em tecnologias e dispositivos capazes de aumentar a produtividade das usinas
Aumento na produtividade
Ações corretivas
Continuidade e uniformidade da operação
Padronização
Predição de produtividade de grãos
Algoritmos de estimação podem ser usados para prever a produtividade de grãos em lavouras
Estimar/prever o resultado de uma colheita pode resultar em benefícios, evitando prejuízos financeiros e ambientais