Tecnologia & IA

Token

Também conhecido como: Token de LLM, Token de modelo, BPE token

Definição

Token é a unidade mínima de processamento de um LLM — geralmente um pedaço de palavra. Português brasileiro usa ~1,3 tokens por palavra em média. APIs de LLM cobram por token (input + output), tipicamente US$ 0,01-0,15 por 1.000 tokens. Entender token é entender custo e latência de IA.

↳ Explicação completa

Token é a unidade fundamental que LLMs processam internamente. Um tokenizador (BPE — Byte Pair Encoding na maioria dos modelos) divide texto em pedaços de tamanho variável: palavras comuns viram 1 token (ex: "agente"), palavras raras quebram em sub-palavras (ex: "telemedicina" pode virar "tele" + "medicina"), espaços e pontuação contam separadamente. Em português brasileiro, a média é 1,3 tokens por palavra (vs 1,0 em inglês — daí prompts em PT-BR custarem ~30% mais). Tokens importam por três razões: (1) Custo — APIs cobram por token (GPT-4 Turbo ~US$ 0,01/1k input + US$ 0,03/1k output em 2026; Claude Sonnet ~US$ 0,003/1k); (2) Context window — modelos têm limite total (GPT-4 Turbo 128k, Claude 3.5 200k, Gemini 2 2M); (3) Latência — quanto mais tokens, mais lento (output a 50-150 tokens/s típico). Pra estimar custo: 750 palavras ≈ 1.000 tokens em PT-BR. Conversa típica de suporte (10 turnos, 100 palavras cada) consome ~1.300 tokens input + 1.300 output = US$ 0,053.

Atualizado em 8 de maio de 2026

Termos relacionados

LLM Latência

Quer aplicar Token na sua operação?

Diagnóstico gratuito de 30 minutos pra clínicas. Mapeamos gargalos onde IA conversacional encaixa.

Agendar diagnóstico gratuito

Outros termos · Tecnologia & IA

LLM (Large Language Model)

LLM (Large Language Model) é um modelo de inteligência artificial treinado em volumes massivos de texto pra gerar e compreender linguagem natural. Exemplos: GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta). É a base técnica de agentes de IA conversacional modernos.

RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation) é uma arquitetura de IA que combina busca semântica em base de conhecimento com geração via LLM. O LLM consulta sua documentação real antes de responder, eliminando alucinação e mantendo respostas atualizadas sem retreinar o modelo.

Embedding

Embedding é a representação de texto, imagem ou áudio como vetor numérico de alta dimensão (768-3.072 valores). Permite comparar significado semanticamente — frases parecidas ficam próximas no espaço vetorial. É a base de busca semântica, RAG e recomendação por IA.

Vector Database

Vector database é um banco de dados especializado em armazenar e buscar embeddings vetoriais com latência baixa. Suporta busca por similaridade (k-NN) em milhões de vetores em milissegundos. Stack típico: Pinecone, Weaviate, Qdrant ou pgvector (extensão PostgreSQL).

Function Calling

Function calling é a capacidade do LLM de pedir execução de funções concretas — buscar agenda, criar ticket, enviar e-mail — em vez de só gerar texto. O modelo retorna JSON com nome da função e parâmetros, sua aplicação executa e devolve o resultado pro LLM continuar. Base técnica de agentes que executam ações reais.

MCP (Model Context Protocol)

MCP (Model Context Protocol) é um protocolo aberto criado pela Anthropic em 2024 que padroniza como aplicações de IA expõem dados e ferramentas pra LLMs. Funciona como "USB-C dos agentes" — qualquer servidor MCP plugado a qualquer cliente MCP. Já tem servidores oficiais pra Postgres, Slack, GitHub, Google Drive.

Ver glossário completo →