Tecnologia & IA

Vector Database

Também conhecido como: Banco de dados vetorial, Banco vetorial

Definição

Vector database é um banco de dados especializado em armazenar e buscar embeddings vetoriais com latência baixa. Suporta busca por similaridade (k-NN) em milhões de vetores em milissegundos. Stack típico: Pinecone, Weaviate, Qdrant ou pgvector (extensão PostgreSQL).

↳ Explicação completa

Vector database é a infraestrutura que torna RAG viável em produção. Bancos relacionais tradicionais não foram desenhados pra busca por similaridade vetorial em alta dimensão — vector databases sim. Funcionam indexando milhões de embeddings com algoritmos como HNSW (Hierarchical Navigable Small World) ou IVF (Inverted File), permitindo busca k-NN (k vizinhos mais próximos) em milissegundos mesmo em datasets de bilhões. Opções principais em 2026: (1) Pinecone — SaaS gerenciado, integração mais simples mas custa mais; (2) Weaviate — open-source self-hosted ou cloud, suporta filtros estruturados além de vetor; (3) Qdrant — open-source com performance excelente e API limpa; (4) pgvector — extensão PostgreSQL, encaixa em stacks que já usam Postgres (caso da NeuralNets em produção). A escolha depende de volume (até 1M vetores → pgvector resolve; 10M+ → considerar Pinecone ou Qdrant), latência alvo (<50ms p99), e necessidade de filtros (busca vetorial + metadados estruturados). Custo típico em produção brasileira: pgvector self-hosted com Postgres na Railway ~R$ 200-500/mês; Pinecone gerenciado ~US$ 70-300/mês.

Atualizado em 8 de maio de 2026

Termos relacionados

Embedding RAG

Quer aplicar Vector Database na sua operação?

Diagnóstico gratuito de 30 minutos pra clínicas. Mapeamos gargalos onde IA conversacional encaixa.

Agendar diagnóstico gratuito

Outros termos · Tecnologia & IA

LLM (Large Language Model)

LLM (Large Language Model) é um modelo de inteligência artificial treinado em volumes massivos de texto pra gerar e compreender linguagem natural. Exemplos: GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta). É a base técnica de agentes de IA conversacional modernos.

RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation) é uma arquitetura de IA que combina busca semântica em base de conhecimento com geração via LLM. O LLM consulta sua documentação real antes de responder, eliminando alucinação e mantendo respostas atualizadas sem retreinar o modelo.

Embedding

Embedding é a representação de texto, imagem ou áudio como vetor numérico de alta dimensão (768-3.072 valores). Permite comparar significado semanticamente — frases parecidas ficam próximas no espaço vetorial. É a base de busca semântica, RAG e recomendação por IA.

Function Calling

Function calling é a capacidade do LLM de pedir execução de funções concretas — buscar agenda, criar ticket, enviar e-mail — em vez de só gerar texto. O modelo retorna JSON com nome da função e parâmetros, sua aplicação executa e devolve o resultado pro LLM continuar. Base técnica de agentes que executam ações reais.

MCP (Model Context Protocol)

MCP (Model Context Protocol) é um protocolo aberto criado pela Anthropic em 2024 que padroniza como aplicações de IA expõem dados e ferramentas pra LLMs. Funciona como "USB-C dos agentes" — qualquer servidor MCP plugado a qualquer cliente MCP. Já tem servidores oficiais pra Postgres, Slack, GitHub, Google Drive.

Token

Token é a unidade mínima de processamento de um LLM — geralmente um pedaço de palavra. Português brasileiro usa ~1,3 tokens por palavra em média. APIs de LLM cobram por token (input + output), tipicamente US$ 0,01-0,15 por 1.000 tokens. Entender token é entender custo e latência de IA.

Ver glossário completo →