Latência (LLM)
Também conhecido como: Latência de IA, Time-to-first-token, TTFT
Definição
Latência em LLM é o tempo entre enviar prompt e receber resposta. Mede em duas partes: TTFT (time-to-first-token, ~300-800ms) e tokens-por-segundo de geração (~50-150). Latência alta destrói experiência conversacional — alvo em produção é p95 < 3s pra resposta completa.
↳ Explicação completa
Latência é uma métrica crítica de produção em agentes conversacionais. Diferente de batch processing, conversa em tempo real exige resposta rápida — usuário desiste se WhatsApp demora 8 segundos pra "..." virar mensagem. Há dois componentes: (1) Time-to-first-token (TTFT) — quanto demora pro modelo começar a gerar, depende de provider, região do servidor, tamanho do prompt e modelo; em 2026, GPT-4 Turbo TTFT ~400ms p50, Claude Sonnet ~500ms p50, Haiku ~150ms p50. (2) Throughput de geração — tokens por segundo após o primeiro; modelos pequenos (Haiku, GPT-4o-mini) geram 100-200 tok/s, modelos grandes (Opus, GPT-4) geram 30-60 tok/s. Pra resposta de 200 tokens (típico de support reply), latência total = TTFT + 200/throughput. Exemplo Claude Sonnet em 2026: 500ms + 200/80 = 3s.
Atualizado em
Quer aplicar Latência (LLM) na sua operação?
Diagnóstico gratuito de 30 minutos pra clínicas. Mapeamos gargalos onde IA conversacional encaixa.
Agendar diagnóstico gratuitoOutros termos · Métricas
No-show
No-show é a métrica de pacientes ou clientes que agendaram um compromisso mas não compareceram nem cancelaram com antecedência. Em clínicas brasileiras a média é 15-30% de no-show; com agente de IA pra confirmar agendamento e oferecer remarcação, a taxa cai pra 8-12%.
CSAT (Customer Satisfaction Score)
CSAT (Customer Satisfaction Score) é a métrica que mede a satisfação imediata do cliente após uma interação específica — geralmente nota de 1-5 ou 1-10 logo após o atendimento. Difere do NPS, que mede lealdade ao longo do tempo. Benchmark SaaS B2B: CSAT > 85% é considerado bom.