Neural Nets - Consultoria em Inteligência Artificial
Sobre
Soluções

Por produto

Agente de VendasAgente SDR AutônomoAgente Call CenterWorkshop IA para DevsCapacitação em IA

Por segmento

Clínicas e SaúdeAdvogados e JurídicoE-commerce e VarejoImobiliáriasEducação e CursosSuporte e SaaS

Clínicas

EstéticaFisioterapiaMédicaOdontologiaHub geral →
Como funcionaFAQBlog
Início/Glossário/Latência (LLM)
Métricas

Latência (LLM)

Também conhecido como: Latência de IA, Time-to-first-token, TTFT

Definição

Latência em LLM é o tempo entre enviar prompt e receber resposta. Mede em duas partes: TTFT (time-to-first-token, ~300-800ms) e tokens-por-segundo de geração (~50-150). Latência alta destrói experiência conversacional — alvo em produção é p95 < 3s pra resposta completa.

↳ Explicação completa

Latência é uma métrica crítica de produção em agentes conversacionais. Diferente de batch processing, conversa em tempo real exige resposta rápida — usuário desiste se WhatsApp demora 8 segundos pra "..." virar mensagem. Há dois componentes: (1) Time-to-first-token (TTFT) — quanto demora pro modelo começar a gerar, depende de provider, região do servidor, tamanho do prompt e modelo; em 2026, GPT-4 Turbo TTFT ~400ms p50, Claude Sonnet ~500ms p50, Haiku ~150ms p50. (2) Throughput de geração — tokens por segundo após o primeiro; modelos pequenos (Haiku, GPT-4o-mini) geram 100-200 tok/s, modelos grandes (Opus, GPT-4) geram 30-60 tok/s. Pra resposta de 200 tokens (típico de support reply), latência total = TTFT + 200/throughput. Exemplo Claude Sonnet em 2026: 500ms + 200/80 = 3s.

Atualizado em 8 de maio de 2026

Termos relacionados

TokenLLMCSAT

Quer aplicar Latência (LLM) na sua operação?

Diagnóstico gratuito de 30 minutos pra clínicas. Mapeamos gargalos onde IA conversacional encaixa.

Agendar diagnóstico gratuito

Outros termos · Métricas

No-show

No-show é a métrica de pacientes ou clientes que agendaram um compromisso mas não compareceram nem cancelaram com antecedência. Em clínicas brasileiras a média é 15-30% de no-show; com agente de IA pra confirmar agendamento e oferecer remarcação, a taxa cai pra 8-12%.

CSAT (Customer Satisfaction Score)

CSAT (Customer Satisfaction Score) é a métrica que mede a satisfação imediata do cliente após uma interação específica — geralmente nota de 1-5 ou 1-10 logo após o atendimento. Difere do NPS, que mede lealdade ao longo do tempo. Benchmark SaaS B2B: CSAT > 85% é considerado bom.

Ver glossário completo →
Neural Nets

IA que trabalha pelo seu negócio, não contra o seu tempo.

Navegação

SobreSoluçõesComo funcionaFAQBlog

Por produto

Agente de VendasAgente SDR AutônomoAgente Call CenterWorkshop IA para DevsCapacitação em IA

Por segmento

Clínicas e SaúdeAdvogados e JurídicoE-commerce e VarejoImobiliáriasEducação e CursosSuporte e SaaS

Clínicas

EstéticaFisioterapiaMédicaOdontologiaHub geral →

Contato

contato@neuralnets.com.br+55 11 95213-9169

© 2026 Neural Nets. Todos os direitos reservados. — CNPJ: 61.422.433/0001-20

Política de PrivacidadeTermos de Uso