Function Calling
Também conhecido como: Tool use, Function call, Chamada de função
Definição
Function calling é a capacidade do LLM de pedir execução de funções concretas — buscar agenda, criar ticket, enviar e-mail — em vez de só gerar texto. O modelo retorna JSON com nome da função e parâmetros, sua aplicação executa e devolve o resultado pro LLM continuar. Base técnica de agentes que executam ações reais.
↳ Explicação completa
Function calling (também chamado tool use ou tool calling) é o que transforma LLM de "gerador de texto" em "agente que executa ações". Sem function calling, um LLM puro só pode responder "sugira que o usuário ligue na clínica" — com function calling, ele literalmente busca a agenda real, encontra horário disponível e marca a consulta. O fluxo: você define um conjunto de funções com schema JSON (ex: `agendar_consulta(profissional, data, horario)`, `buscar_horarios_disponiveis(especialidade, data)`, `enviar_lembrete(paciente_id, mensagem)`). Passa essa lista junto com o prompt pro LLM. Quando o usuário pede algo que requer ação, o LLM responde com JSON estruturado: `{"function": "buscar_horarios_disponiveis", "args": {"especialidade": "fisio", "data": "2026-05-15"}}`. Sua aplicação executa a função real (consulta o iClinic via API), devolve o resultado pro LLM, e ele continua a conversa: "Tenho 14h ou 16h, qual prefere?". Em produção, agentes complexos usam 10-30 funções diferentes — buscar/criar/atualizar registros, integrar com WhatsApp, gerar PDF, enviar e-mail, escalar humano. Modelos atuais (GPT-4 Turbo, Claude 3.5+) atingem 95%+ de acurácia em function calling estruturado.
Atualizado em
Termos relacionados
Quer aplicar Function Calling na sua operação?
Diagnóstico gratuito de 30 minutos pra clínicas. Mapeamos gargalos onde IA conversacional encaixa.
Agendar diagnóstico gratuitoOutros termos · Tecnologia & IA
LLM (Large Language Model)
LLM (Large Language Model) é um modelo de inteligência artificial treinado em volumes massivos de texto pra gerar e compreender linguagem natural. Exemplos: GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta). É a base técnica de agentes de IA conversacional modernos.
RAG (Retrieval-Augmented Generation)
RAG (Retrieval-Augmented Generation) é uma arquitetura de IA que combina busca semântica em base de conhecimento com geração via LLM. O LLM consulta sua documentação real antes de responder, eliminando alucinação e mantendo respostas atualizadas sem retreinar o modelo.
Embedding
Embedding é a representação de texto, imagem ou áudio como vetor numérico de alta dimensão (768-3.072 valores). Permite comparar significado semanticamente — frases parecidas ficam próximas no espaço vetorial. É a base de busca semântica, RAG e recomendação por IA.
Vector Database
Vector database é um banco de dados especializado em armazenar e buscar embeddings vetoriais com latência baixa. Suporta busca por similaridade (k-NN) em milhões de vetores em milissegundos. Stack típico: Pinecone, Weaviate, Qdrant ou pgvector (extensão PostgreSQL).
MCP (Model Context Protocol)
MCP (Model Context Protocol) é um protocolo aberto criado pela Anthropic em 2024 que padroniza como aplicações de IA expõem dados e ferramentas pra LLMs. Funciona como "USB-C dos agentes" — qualquer servidor MCP plugado a qualquer cliente MCP. Já tem servidores oficiais pra Postgres, Slack, GitHub, Google Drive.
Token
Token é a unidade mínima de processamento de um LLM — geralmente um pedaço de palavra. Português brasileiro usa ~1,3 tokens por palavra em média. APIs de LLM cobram por token (input + output), tipicamente US$ 0,01-0,15 por 1.000 tokens. Entender token é entender custo e latência de IA.