Tecnologia & IA

RAG (Retrieval-Augmented Generation)

Também conhecido como: Retrieval-Augmented Generation, Geração aumentada por recuperação

Definição

RAG (Retrieval-Augmented Generation) é uma arquitetura de IA que combina busca semântica em base de conhecimento com geração via LLM. O LLM consulta sua documentação real antes de responder, eliminando alucinação e mantendo respostas atualizadas sem retreinar o modelo.

↳ Explicação completa

Retrieval-Augmented Generation (RAG) é uma arquitetura técnica essencial pra agentes de IA empresariais. O fluxo: quando o usuário pergunta algo, o sistema (1) gera embeddings vetoriais da pergunta, (2) busca semanticamente nos documentos da empresa indexados, (3) recupera os trechos mais relevantes, (4) envia pergunta + trechos como contexto pro LLM gerar a resposta. RAG resolve dois problemas críticos do LLM puro: alucinação (modelo inventa fatos) e desatualização (modelo só sabe do treino). Aplicado a suporte ao cliente, RAG significa que o agente responde com base na documentação atual da sua empresa — quando você atualiza o help center, o agente já considera a nova versão sem retreinar nada. Stack típico no Brasil: vector database (Pinecone, Weaviate, pgvector), embeddings (OpenAI text-embedding-3, Cohere multilingual), LLM (GPT-4, Claude). Performance típica: 92-97% de respostas factualmente corretas vs 60-75% de LLM puro sem RAG.

Atualizado em 8 de maio de 2026

Termos relacionados

LLM Agente de IA Conversacional

Quer aplicar RAG (Retrieval-Augmented Generation) na sua operação?

Diagnóstico gratuito de 30 minutos pra clínicas. Mapeamos gargalos onde IA conversacional encaixa.

Agendar diagnóstico gratuito

Outros termos · Tecnologia & IA

LLM (Large Language Model)

LLM (Large Language Model) é um modelo de inteligência artificial treinado em volumes massivos de texto pra gerar e compreender linguagem natural. Exemplos: GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta). É a base técnica de agentes de IA conversacional modernos.

Embedding

Embedding é a representação de texto, imagem ou áudio como vetor numérico de alta dimensão (768-3.072 valores). Permite comparar significado semanticamente — frases parecidas ficam próximas no espaço vetorial. É a base de busca semântica, RAG e recomendação por IA.

Vector Database

Vector database é um banco de dados especializado em armazenar e buscar embeddings vetoriais com latência baixa. Suporta busca por similaridade (k-NN) em milhões de vetores em milissegundos. Stack típico: Pinecone, Weaviate, Qdrant ou pgvector (extensão PostgreSQL).

Function Calling

Function calling é a capacidade do LLM de pedir execução de funções concretas — buscar agenda, criar ticket, enviar e-mail — em vez de só gerar texto. O modelo retorna JSON com nome da função e parâmetros, sua aplicação executa e devolve o resultado pro LLM continuar. Base técnica de agentes que executam ações reais.

MCP (Model Context Protocol)

MCP (Model Context Protocol) é um protocolo aberto criado pela Anthropic em 2024 que padroniza como aplicações de IA expõem dados e ferramentas pra LLMs. Funciona como "USB-C dos agentes" — qualquer servidor MCP plugado a qualquer cliente MCP. Já tem servidores oficiais pra Postgres, Slack, GitHub, Google Drive.

Token

Token é a unidade mínima de processamento de um LLM — geralmente um pedaço de palavra. Português brasileiro usa ~1,3 tokens por palavra em média. APIs de LLM cobram por token (input + output), tipicamente US$ 0,01-0,15 por 1.000 tokens. Entender token é entender custo e latência de IA.

Ver glossário completo →