Please enable JavaScript.
Coggle requires JavaScript to display documents.
RAG - Coggle Diagram
RAG
Ideias de solução
Alterar o tamanho do chunk para 800 tokens como a OpenAI (3.200 caracteres)
Simples, troca direto na RPA
Só vai acontecer para os novos arquivos
Corrigir o bug
Já está sendo atacado
Implementar Chunk Overlap
Construir de uma forma parametrizável pela RPA (Default: 400 tokens)
Desejos
Ter overlap anterior
Ter overlap posterior
Ter tamanho do overlap
Desenvolvimento
Trocar ordem ou não dar ordem para delimitadores para ter melhor resultado
Desenvolvimento
Atual
Como funciona
Armazenamento Mongo
Google Embeding
text-multilingual-embedding-002
Escolhemos por custo
Tamanho de 128 dimensões
Estratégias de embedding
PDF
Por página
Delimitador
<--- PAGE --->
Genérica
Todos os arquivos que não são PDF
Por caracter
Delimitador
"\n"
.
;
" "
chunk_size: 512 caracteres
Até 512 caracteres olhando o separador de trás para frente
Definido pela RPA
Consulta para Conexão com a LLM
Número de arquivos máximos
Para o Embedding não possui
Nivel de correlação
Configurado dentro da plataforma
Máximo de chunks
Chunks de todos os arquivos
Configurado dentro da plataforma
Problemas
Chunks pequenos
Chunks sem overlap
Bug: Não está enviado o nome do arquivo
Trocar ordem ou não dar ordem para delimitadores para ter melhor resultado