Tecnologia & IA

LLM (Large Language Model)

Também conhecido como: Large Language Model, Modelo de Linguagem Grande, Modelo de IA generativa

Definição

LLM (Large Language Model) é um modelo de inteligência artificial treinado em volumes massivos de texto pra gerar e compreender linguagem natural. Exemplos: GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta). É a base técnica de agentes de IA conversacional modernos.

↳ Explicação completa

Large Language Model (LLM) é uma classe de modelo de inteligência artificial treinada em quantidades massivas de texto (geralmente trilhões de tokens) pra prever a próxima palavra dado um contexto. Os principais LLMs comerciais em 2026 são GPT-4 e GPT-5 da OpenAI, Claude 3 e Claude Opus da Anthropic, Gemini 2 do Google, e Llama 3 da Meta (open-source). LLMs são a base técnica de agentes conversacionais modernos — quando você fala com ChatGPT ou com um agente de IA num WhatsApp Business, está interagindo com um LLM por trás. A capacidade que torna LLMs revolucionários comparados a NLP tradicional é zero-shot e few-shot learning: o modelo entende e executa tarefas que nunca viu nos dados de treino, apenas com instrução em linguagem natural. No contexto B2B brasileiro, LLMs são usados em atendimento (responder dúvida com base na sua documentação), prospecção (escrever cold email contextualizado), suporte (triagem de ticket), e operações internas (resumir reunião, redigir contrato).

Atualizado em 8 de maio de 2026

Termos relacionados

Agente de IA Conversacional RAG

Quer aplicar LLM (Large Language Model) na sua operação?

Diagnóstico gratuito de 30 minutos pra clínicas. Mapeamos gargalos onde IA conversacional encaixa.

Agendar diagnóstico gratuito

Outros termos · Tecnologia & IA

RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation) é uma arquitetura de IA que combina busca semântica em base de conhecimento com geração via LLM. O LLM consulta sua documentação real antes de responder, eliminando alucinação e mantendo respostas atualizadas sem retreinar o modelo.

Embedding

Embedding é a representação de texto, imagem ou áudio como vetor numérico de alta dimensão (768-3.072 valores). Permite comparar significado semanticamente — frases parecidas ficam próximas no espaço vetorial. É a base de busca semântica, RAG e recomendação por IA.

Vector Database

Vector database é um banco de dados especializado em armazenar e buscar embeddings vetoriais com latência baixa. Suporta busca por similaridade (k-NN) em milhões de vetores em milissegundos. Stack típico: Pinecone, Weaviate, Qdrant ou pgvector (extensão PostgreSQL).

Function Calling

Function calling é a capacidade do LLM de pedir execução de funções concretas — buscar agenda, criar ticket, enviar e-mail — em vez de só gerar texto. O modelo retorna JSON com nome da função e parâmetros, sua aplicação executa e devolve o resultado pro LLM continuar. Base técnica de agentes que executam ações reais.

MCP (Model Context Protocol)

MCP (Model Context Protocol) é um protocolo aberto criado pela Anthropic em 2024 que padroniza como aplicações de IA expõem dados e ferramentas pra LLMs. Funciona como "USB-C dos agentes" — qualquer servidor MCP plugado a qualquer cliente MCP. Já tem servidores oficiais pra Postgres, Slack, GitHub, Google Drive.

Token

Token é a unidade mínima de processamento de um LLM — geralmente um pedaço de palavra. Português brasileiro usa ~1,3 tokens por palavra em média. APIs de LLM cobram por token (input + output), tipicamente US$ 0,01-0,15 por 1.000 tokens. Entender token é entender custo e latência de IA.

Ver glossário completo →