Please enable JavaScript.
Coggle requires JavaScript to display documents.
Introdução a Inteligência Artificial (Introdução, Diferenças e Conceitos…
Introdução a Inteligência Artificial
Introdução, Diferenças e Conceitos Básicos
Aprendizado
Representação
Underfitting (Muito Simples)
Bem Ajustado
Overfitting (Muito Complexo)
Avaliação
Medir Performance - Distancia das Amostras com a Função
Separar Hipóteses - Boas das Ruins
Otimização
Ajustar Parâmetros Para
Ou Diminuir Erro
Ou Aumentar Recompensa
Tipos de IA
Inspirada em Humanos
Cognitiva e Emocional
Além de considerar questões cognitivas também consideram as emoções para tomadas de decisões
Exemplos: Chatbots
Automação de Recrutamento
Humanizada
Cognitiva, Emocional e Social
Faltaria Criatividade para ser um humano
Autoconsciente e adaptável em interações
Analítica
Usa experiência passada para tomar decisões futuras
Exemplos: Sistema Antifraude
Reconhecimento Imagem
Carros Autômatos
Somente Cognitiva
Divisões da IA
IA Fraca
Automação Inteligente
Tarefas Repetitivas
Requerem Inteligência
Ex. Sistema Automático de Separação de Recicláveis
Assistente Inteligente
Revisam e Identificam padrões em dados históricos
Ajudam pessoas executar tarefas mais rapidamente
Ex. Deep Learning, Processador de linguagem natural
IA Forte
Inteligência Aumentada
Ajudam prever futuro incerto
Ex. Sistema para simular cenários pelas politicas climáticas
Consegue perceber outros agentes e entidades e consideram isso para ajustar seu comportamento
Inteligência Autônoma
Sistemas de tomada de decisão sem Intervenção humana
Ex. Sistemas que identificam padrões de consumo e custo de aquecedor para adaptar o uso
Possui autoconsciência
Teste de Turing
Visualização de Dados
Gráfico de Linhas
Usado para apresentar observações coletadas em intervalos regulares.
Úteis para apresentar dados de séries temporais, bem como quaisquer dados de sequência, onde há uma ordenação entre observações.
Plot de Barras
Usado para apresentar quantidades relativas para várias categorias.
São úteis para comparar várias grandezas pontuais ou estimativas.
Histograma
Usado para resumir a distribuição de uma amostra de dados.
Essencialmente um gráfico de barras, onde cada categoria no eixo x representa um intervalo de valores de observação
Gráfico de Dispersão
Usado para resumir a relação entre duas amostras de dados emparelhadas.
Os eixos são distribuídos entre as amostras e os pontos são cada observação
Tipos de Aprendizado de Máquina
Aprofundamento de Conceitos
Baseline
Base de comparação para a eficácia
de um algoritmo
Ruído
Dados indesejados presentes na coleção que podem gerar efeitos inesperados para o modelo
Generalizaçã0
É a habilidade do modelo de predizer corretamente instâncias ainda não vistas
Underfitting
Ocorre quando um modelo é muito simples e não consegue generalizar todas as características dos dados
Overfitting
Modelo excessivamente complexo para um dado conjunto de dados
Faz com que a entrada de treino seja memorizada ao invés de aprendida
Erro de Treino
Erro empírico: Erro do modelo nos dados de treino
Erro de Teste
Erro de validação: Erro do modelo nos dados de teste
Viés
A habilidade do modelo de generalizar os dados, portanto, um viés alto é relacionado ao underfitting
Variância
Como o modelo reage a novas entradas de treino
Modelos com alta variância podem mudar suas predições em resposta à nova composição da entrada de treino (Overfitting)
Bias Trade-off
É o ponto no modelo on se minimiza simultaneamente os efeitos de viés e variância que impedem que os algoritmos generalizem bem
Tipos de Algoritmos de Aprendizado de Máquina
Supervisionado
Semi Supervisionado
Aprende utilizando dados rotulados e não rotulados
Este método permite-nos melhorar significativamente a acurácia por usar dados rotulados e não rotulados
Utilizado quando não se consegue rotular todos os seus dados
Aprendizado Ativo
O algoritmo aprende através de iteração humana para identificação dos rótulos
Classes de Algoritmos
Classificação
Classificação compreende a uma tarefa de Aprendizado Não Supervisionado, similar aos algoritmos de Clustering
Utilizado quando o rótulo vem de um conjunto finito e não ordenado
Regressão
Quando o rótulo é um número real e não uma característica
Exemplos de Algoritmos
Random Forest
Gradiente Boosting Machines
Árvore de Decisão
Support Vector Machines
Regressão Linear
Aprendem a executar uma dada tarefa a partir de exemplos rotulados
Interativamente o algoritmo faz previsões e aprimora sua função até atingir um nível aceitável de acerto
Não Supervisionado
Encontrar features relevantes sobre o dado de forma automática
Permite detectar anomalias automaticamente, ou seja, valores que destoam do conjunto de dados
Em visualização de dados, permite encontrar padrões visuais em coleções com muitas observações de features diferentes
Utiliza dados não rotulados para aprender características a partir de padrões semelhantes
Alguns objetos podem diferir largamente de todos os grupos e, deste modo, podemos detectar anomalias
Utilizado como pré-processamento para identificar características importantes para melhorar Regressão/Classificação
Classes de Algoritmos
#
Agrupamento
Associação
Sumarização
Aprendizado por Reforço
Algoritmos
K-armed bandits
Contextual Bandits
Não existe conjunto de treinamento, rotulado ou não
Agentes
Se relaciona com o Ambiente através de ações
Estado
O estado do ambiente é atualizado a cada ação do agente
Reforço (Recompensa)
Cada ação tem um nível de castigo ou recompensa
Maior a recompensa em relação a ação que deixa mais próximo o agente do objetivo
A recompensa é dada logo após o resultado da ação em alguns algoritmos, em outros, somente após a exploração de todo o ambiente.
Ambiente
É o ambiente no qual está inserido o agente
O ambiente dá uma resposta a ação do agente
Ação
São as ações que o agente consegue praticar
Algumas mudanças no ambiente podem permitir novas ações
Baseado em tentativa e erro
Online Learning
Cobre todos os tipos de aprendizado de máquina
Ajusta o modelo de forma iterativa conforme mais dados são carregados no modelo
Offline Learning
Cobre todos os tipos de aprendizado de máquina
Os dados já foram trabalhados e utilizados para o treino e os dados novos são somente para efetuar as previsões
Datasets, Tipos de Dados, Atributos e Features
Metadados
São dados sobre outros dados
Ex: Nome, Artista e Álbum acerca de uma música
Pode facilitar o entendimento de um dado ou sua organização
Dados
Requerem Interpretação para ser informação.
Valores ou ocorrências em um estado bruto
Problemas Com Dados
Omissos
Não foram salvos ou não podem ser lidos
Valores nulos
Ruidosos
Valores armazenados pouco confiáveis,
aleatórios ou improváveis
Idade: 180 anos
CPF: 999.999.999-99
Codificação
Dados armazenados em codificações diferentes
Um registro em ASCII e outro em Base64
Conflitantes
Dados divergentes para uma mesma observação
Pais: EUA
Cidade: São Paulo
O Conjunto de Dados pode constituir uma Informação
São registros soltos, aleatórios, sem quaisquer análise
Isoladamente não podem transmitir uma mensagem ou representar algum conhecimento
Ex. A temperatura atual é 15ºC em Belo Horizonte às 12:00 do dia 12 de Janeiro
Tipos de Dados
Categóricos ou
Qualitativos
(Categorias podem ser expressadas em forma de números)
Nominais
Ordinais
Numéricos ou
Quantitativos
Discretos
Contínuos
Proporções
Intervalos
Atributos
Features
Atributo útil para solução de problema
É crucial para algoritmo efetivo
Propriedade mensurável de um fenômeno observado
São numéricos
Tipos de Features
Textuais
São elementos de texto
Ex: Frases, Nomes ou Endereços
Transformações Comuns
Conversão em Upper/Lower Case
Remoção de pontuação
Remoção de Acentos e Caracteres Especiais
Remoção de Stopwords
Contagem de Palavras
Imagem / Áudio / Vídeo
Ex: Frequência de Áudio ou Textura de Imagem
Depende de um processamento mais específico
Categóricas
Representam uma característica
Ex: Idioma ou Gênero
Derivadas
Combinar, criar ou remover feature que descreve problema
Ex: Razão entre duas features (X/Y)
Engenharia de Features
Objetivo é a Generalização
Transformar dados brutos em características que melhor representem o problema para que o algoritmo possa compreender
Melhorar resultados de modelos de Machine Learning
Feature Selection
Feature Importance
Auxilia na extração e construção de novas
features similares
Avaliar as features através de pontuações que podem ser atribuídas através de algoritmos
Garantir que use features que sejam realmente úteis para o modelo
Derivar features consideradas importantes para buscar novos contextos
Remove features irrelevantes para o problema
Processo automática para selecionar subconjunto de features
Métodos de regularização como o LASSO e o
RIDGE são considerados feature selection
Diminui Overfitting, Reduz Tempo de Treino e
Aumenta a Precisão
Principais Técnicas
Log Transform
Log(X+1)
É uma das mais usadas em engenharia de feature
Ajuda a lidar com dados assimétricos e, após a transformação, a distribuição se torna mais aproximada ao normal.
Diminui o efeito dos outliers, devido à normalização das diferenças de magnitude.
Ex. 15 a 20 anos tem magnitude diferente de 60 a 65 anos
Os dados aplicados à transformação de log devem ter apenas valores positivos
One-Hot Encoding
Espalha valores de uma coluna em várias colunas e atribui os valores 0 e 1.
Altera dados categóricos para numéricos sem perder informação
Binning
Pode ser aplicado em dados Categóricos e Numéricos
Objetivo é ter um modelo mais robusto e evitar overfitting, no entanto, isso tem um custo para o desempenho.
Ao selecionar algo, sacrifica informações e torna seus dados mais regularizados.
Ex. Países podem virar regiões
Peso pode ser Magro, Normal, Obeso
A troca entre desempenho e overfitting é o ponto principal do processo de binning.
É interessante aplicar essa técnica em rótulos com baixa frequência, exemplo "Outros", para melhorar a robustez do modelo
Grouping Operations
Transformar uma dataset muito grande em um menor
Categorical Column Grouping
Técnica 1: Selecionar os dados com maior frequência através de função lambda
Técnica 2: Espalha valores de uma coluna em várias colunas porém de forma agregada
Técnica 3: Utilizar a técnica 1 porém após a técnica One-Hot Encoding, preservando todos os dados
Numerical Column Grouping
Agrupamentos tradicionais de números: Soma, Média, Proporção
Handling Outliers
Melhor maneira de identificar Outliers é através de visualização de dados
Outlier Detection with Standard Deviation
Tratar valores que estiverem muito distante do desvio padrão
Solução simples é utilizar valores entre 2 e 4
Pode ser gerado um Standard Score que padroniza a distância entre um valor e a média usando o desvio padrão
Outlier Detection with Percentiles
Assumir uma certa porcentagem do valor de cima ou de baixo como um erro externo
O percentual deve ser definido através de análise da distribuição dos dados
Identificação através de estatística é menos precisa, porém mais rápida
Os Outliers podem ser removidos ou limitados. Se limitados podem afetar a distribuição dos dados enquanto que se removidos afetam a quantidade de dados.
Feature Split
Organizar dados do tipo string para facilitar a compreensão
Permite agrupar dados que não eram agrupáveis
Não existe regra fixa, depende basicamente das características da feature
Exemplo de dados que podem sofrer essa técnica:
Leandro Carnevali Ferro -> Leandro / Ferro
Toy Story (1995) -> Toy Story / 1995
Imputation
Técnica para tratamento de valores nulos visto que esses valores afetam o desempenho do modelo
A solução mais simples seria descartar as linhas ou a coluna inteira.
Numerical Imputation
Aplicar tratamento para preencher os campos nulos
Exceto que se tenha um valor padrão para valores ausentes, o ideal é utilizar as medianas das colunas. Médias são sensível a pontos extremos.
Categorical Imputation
Para valores uniformes pode-se criar uma categoria Outros ou Não Informado
Uma solução também utilizada é substituir valores ausentes pela categoria que houver mais ocorrência
Scaling
Normalization
Dimensiona os valores entre 0 e 1.
Antes de utilizar essa técnica é interessante usar técnica Handling Outlinier, visto que serão considerados os valores de MAX e MIN.
Norm = (X -X(min) ) / (X(max) - X(min))
Standardization
Escala os valores levando em consideração o desvio padrão
Diminui efeito dos Outliers
Standardization (Z Score) = (X - Média) / Desvio Padrão
Utilizado em dados numéricos para pegar features de diferentes grandezas, exemplo kg e metros e colocar na mesma escala.
Extracting Date
Extrair parte das datas em diferentes colunas
Extrair diferença entre data atual e as colunas em termos de anos, meses, dias etc
Extrair alguns recursos específicos da data: Nome do dia da semana, Fim de semana ou não, feriado ou não, etc
Feature Extraction
Geração automática de novas features
a partir do dados bruto
Redução de Dimensionalidade
Diminuir número de recursos necessário para
processamento sem perder informações
Conjunto inicial de dados brutos é reduzido a
grupos mais gerenciáveis
Utilizado em processamento de imagens,
textos em linguagem natural
Feature Construction
Construção manual de novas features
a partir de dados brutos
Derivação baseada nas features existentes
Requer muito tempo para estruturar e analisar
Ex: Combinação, Agregação, decomposição
Feature Learning
Processo Iterativo
Criar
Usar feature extraction automáticas e
criação de features manuais (ou os dois)
Seleção
Usar feature importance e selection,
crie visões para os modelos
Brainstorm
Entender o problema, analisar os dados,
estudar e propor o conjunto de features
Avaliar
Estimar a precisão (qualidade) dos modelos
usando as features selecionadas
O conjunto de atributos representa uma Entidade
Os atributos são considerados metadados
Tipos
Arquivo (nome, extensão)
Banco de Dados (colunas + regras -> valores)
Objeto (nome -> valor)
Informação
São dados com alguma estruturação ou organização
Não é conhecimento
Atribui significado a realidade mediante seus códigos e o conjunto de dados
São dotados de relevância e propósito
Exige consenso em relação ao significado
Ex. Através dos dados de exemplo a informação é que está mais frio que o normal
Conhecimento
É a informação processada e transformada em experiência pelo indivíduo.
Ex. Através do exemplo de informação com o conhecimento chega na decisão de será necessário sair com um casaco.
Através de um conjunto de informações gera uma ação.ou o entendimento das causas de uma ação.
Através dele que determina-se quais são as decisões a tomar
É gerado através de reflexão, síntese e contexto.