Vector Database
Também conhecido como: Banco de dados vetorial, Banco vetorial
Definição
Vector database é um banco de dados especializado em armazenar e buscar embeddings vetoriais com latência baixa. Suporta busca por similaridade (k-NN) em milhões de vetores em milissegundos. Stack típico: Pinecone, Weaviate, Qdrant ou pgvector (extensão PostgreSQL).
↳ Explicação completa
Vector database é a infraestrutura que torna RAG viável em produção. Bancos relacionais tradicionais não foram desenhados pra busca por similaridade vetorial em alta dimensão — vector databases sim. Funcionam indexando milhões de embeddings com algoritmos como HNSW (Hierarchical Navigable Small World) ou IVF (Inverted File), permitindo busca k-NN (k vizinhos mais próximos) em milissegundos mesmo em datasets de bilhões. Opções principais em 2026: (1) Pinecone — SaaS gerenciado, integração mais simples mas custa mais; (2) Weaviate — open-source self-hosted ou cloud, suporta filtros estruturados além de vetor; (3) Qdrant — open-source com performance excelente e API limpa; (4) pgvector — extensão PostgreSQL, encaixa em stacks que já usam Postgres (caso da NeuralNets em produção). A escolha depende de volume (até 1M vetores → pgvector resolve; 10M+ → considerar Pinecone ou Qdrant), latência alvo (<50ms p99), e necessidade de filtros (busca vetorial + metadados estruturados). Custo típico em produção brasileira: pgvector self-hosted com Postgres na Railway ~R$ 200-500/mês; Pinecone gerenciado ~US$ 70-300/mês.
Atualizado em
Quer aplicar Vector Database na sua operação?
Diagnóstico gratuito de 30 minutos pra clínicas. Mapeamos gargalos onde IA conversacional encaixa.
Agendar diagnóstico gratuitoOutros termos · Tecnologia & IA
LLM (Large Language Model)
LLM (Large Language Model) é um modelo de inteligência artificial treinado em volumes massivos de texto pra gerar e compreender linguagem natural. Exemplos: GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta). É a base técnica de agentes de IA conversacional modernos.
RAG (Retrieval-Augmented Generation)
RAG (Retrieval-Augmented Generation) é uma arquitetura de IA que combina busca semântica em base de conhecimento com geração via LLM. O LLM consulta sua documentação real antes de responder, eliminando alucinação e mantendo respostas atualizadas sem retreinar o modelo.
Embedding
Embedding é a representação de texto, imagem ou áudio como vetor numérico de alta dimensão (768-3.072 valores). Permite comparar significado semanticamente — frases parecidas ficam próximas no espaço vetorial. É a base de busca semântica, RAG e recomendação por IA.
Function Calling
Function calling é a capacidade do LLM de pedir execução de funções concretas — buscar agenda, criar ticket, enviar e-mail — em vez de só gerar texto. O modelo retorna JSON com nome da função e parâmetros, sua aplicação executa e devolve o resultado pro LLM continuar. Base técnica de agentes que executam ações reais.
MCP (Model Context Protocol)
MCP (Model Context Protocol) é um protocolo aberto criado pela Anthropic em 2024 que padroniza como aplicações de IA expõem dados e ferramentas pra LLMs. Funciona como "USB-C dos agentes" — qualquer servidor MCP plugado a qualquer cliente MCP. Já tem servidores oficiais pra Postgres, Slack, GitHub, Google Drive.
Token
Token é a unidade mínima de processamento de um LLM — geralmente um pedaço de palavra. Português brasileiro usa ~1,3 tokens por palavra em média. APIs de LLM cobram por token (input + output), tipicamente US$ 0,01-0,15 por 1.000 tokens. Entender token é entender custo e latência de IA.