Tecnologia & IA

Embedding

Também conhecido como: Vetor semântico, Word embedding, Embedding vetorial

Definição

Embedding é a representação de texto, imagem ou áudio como vetor numérico de alta dimensão (768-3.072 valores). Permite comparar significado semanticamente — frases parecidas ficam próximas no espaço vetorial. É a base de busca semântica, RAG e recomendação por IA.

↳ Explicação completa

Embedding é uma técnica fundamental em sistemas de IA modernos. Um modelo de embedding (ex: OpenAI text-embedding-3-small, Cohere multilingual, ou modelos open-source como nomic-embed-text) converte qualquer texto numa lista de números — geralmente 768, 1.536 ou 3.072 dimensões. O ponto chave: textos com significado parecido geram vetores próximos no espaço, mesmo usando palavras diferentes. "Como agendar consulta?" e "Posso marcar um horário?" ficam vizinhos. Isso resolve o problema clássico de busca por palavra-chave, que falha quando o usuário não usa o mesmo vocabulário do documento. Embeddings são a base técnica de: (1) RAG — buscar trecho relevante na documentação antes de gerar resposta, (2) classificação automática de tickets/leads/sintomas, (3) detecção de duplicatas em FAQ, (4) sistemas de recomendação. No mercado brasileiro, embeddings multilíngues (que entendem PT-BR direito) são essenciais — modelos só-inglês falham em jargão local, gírias e variações regionais. Custo típico: US$ 0,02 por milhão de tokens (~750 mil palavras), o que torna indexação completa de help center comercialmente viável.

Atualizado em 8 de maio de 2026

Termos relacionados

RAG LLM Vector Database

Quer aplicar Embedding na sua operação?

Diagnóstico gratuito de 30 minutos pra clínicas. Mapeamos gargalos onde IA conversacional encaixa.

Agendar diagnóstico gratuito

Outros termos · Tecnologia & IA

LLM (Large Language Model)

LLM (Large Language Model) é um modelo de inteligência artificial treinado em volumes massivos de texto pra gerar e compreender linguagem natural. Exemplos: GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta). É a base técnica de agentes de IA conversacional modernos.

RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation) é uma arquitetura de IA que combina busca semântica em base de conhecimento com geração via LLM. O LLM consulta sua documentação real antes de responder, eliminando alucinação e mantendo respostas atualizadas sem retreinar o modelo.

Vector Database

Vector database é um banco de dados especializado em armazenar e buscar embeddings vetoriais com latência baixa. Suporta busca por similaridade (k-NN) em milhões de vetores em milissegundos. Stack típico: Pinecone, Weaviate, Qdrant ou pgvector (extensão PostgreSQL).

Function Calling

Function calling é a capacidade do LLM de pedir execução de funções concretas — buscar agenda, criar ticket, enviar e-mail — em vez de só gerar texto. O modelo retorna JSON com nome da função e parâmetros, sua aplicação executa e devolve o resultado pro LLM continuar. Base técnica de agentes que executam ações reais.

MCP (Model Context Protocol)

MCP (Model Context Protocol) é um protocolo aberto criado pela Anthropic em 2024 que padroniza como aplicações de IA expõem dados e ferramentas pra LLMs. Funciona como "USB-C dos agentes" — qualquer servidor MCP plugado a qualquer cliente MCP. Já tem servidores oficiais pra Postgres, Slack, GitHub, Google Drive.

Token

Token é a unidade mínima de processamento de um LLM — geralmente um pedaço de palavra. Português brasileiro usa ~1,3 tokens por palavra em média. APIs de LLM cobram por token (input + output), tipicamente US$ 0,01-0,15 por 1.000 tokens. Entender token é entender custo e latência de IA.

Ver glossário completo →