📊 Os 3 modelos atuais (2026)
A família Claude 4.x em maio de 2026: Haiku 4.5 (rápido e barato), Sonnet 4.6 (equilibrado de produção), Opus 4.7 (mais capaz, raciocínio denso). Cada um tem perfil cognitivo diferente — não é "mais inteligente vs menos".
🗂️ Tabela comparativa rápida
Modelo Lançamento Cutoff Context Output
Haiku 4.5 15/out/2025 fev 2025 200k 64k
Sonnet 4.6 ~nov 2025 ago 2025 1M 64k
Opus 4.7 ~2026 jan 2026 1M 128k
IDs API:
claude-haiku-4-5-20251001
claude-sonnet-4-6
claude-opus-4-7
🚗 Analogia: câmbios de um carro
- Haiku 4.5 — Câmbio 5: alta rotação, máxima eficiência em cruzeiro. Mude antes da ladeira.
- Sonnet 4.6 — Câmbio 3: potência intermediária. Sobe ladeiras moderadas, não é ideal pra fora-de-estrada.
- Opus 4.7 — Câmbio 1 em 4x4: máxima força de tração. Lento, mas atravessa qualquer terreno. Caro manter em alta rotação.
💵 Preços ($1/$5, $3/$15, $5/$25 por MTok)
A tabela de bolso. Decore — quem decora decide por ROI, quem não decora decide por intuição (e quase sempre paga mais).
💰 Preços por milhão de tokens
Input Output Cache write Cache read
Haiku 4.5 $1 $5 $1.25 (5min) $0.10
Sonnet 4.6 $3 $15 $3.75 (5min) $0.30
$6.00 (1h)
Opus 4.7 $5 $25 $6.25 (5min) $0.50
$10.00 (1h)
Batch API: 50% off em input E output (qualquer modelo)
📉 Prompt caching — o multiplicador
- Cache read = 10% do input padrão (todos os modelos)
- Break-even: cache de 5min paga após 1 leitura. Cache de 1h paga após 2 leituras.
- Em produção: system prompts estáveis dão cache hit 80-95% → 60-90% de economia no input
✓ Otimizações que pagam
- ✓System prompt fixo + cache write (5min)
- ✓Batch API pra workloads assíncronos (-50%)
- ✓Sub-agentes em Haiku quando dá
- ✓Mesa-redonda: rascunho Haiku, revisão Sonnet
✗ Custos invisíveis
- ✗Opus em pipeline de alto volume (5x desnecessário)
- ✗Sem caching em system prompt repetido
- ✗Ignorar Batch quando latência não importa
- ✗Extended thinking em pergunta trivial
💡 Dica prática
A pergunta certa pra escolher modelo não é "qual é o melhor?" — é "qual é o menor que resolve esse caso?". O default deve ser Haiku; só sobe quando ele dá ré.
🪟 Context window (Haiku 200k, Sonnet/Opus 1M)
Tamanho da janela define o que cabe na cabeça do modelo de uma vez. Haiku 4.5 tem 200k tokens (~500 páginas), sem versão 1M. Sonnet 4.6 e Opus 4.7 têm 1M tokens — já no preço padrão, sem premium de long-context.
📏 O que cabe em cada janela
- 200k tokens (Haiku): ~500 páginas de texto, ou ~150 mil linhas de código pequeno
- 1M tokens (Sonnet/Opus): ~2500 páginas, ou repositório de tamanho médio inteiro
- Max output: Haiku/Sonnet 64k, Opus 4.7 dobra pra 128k
Cabe em Haiku
FAQ bot, classificação em lote, chat de suporte com knowledge limitado, sub-agentes especializados que só leem 5-10 arquivos.
Precisa de Sonnet/Opus (1M)
Análise de repositório inteiro, contratos longos com referências cruzadas, code review de PR grande com contexto histórico, agentes de longa duração com memória.
Precisa de Opus (128k output)
Geração de relatórios longos, refactoring que produz arquivos extensos, documentação completa a partir de código.
💡 Dica prática
Mesmo com 1M de janela, qualidade cai conforme enche. Use subagentes pra carregar contexto isolado e retornar só resumo — preserva a janela principal pra raciocínio, não pra acúmulo.
🧠 Adaptive thinking + breaking change Opus 4.7
Adaptive thinking deixa o modelo decidir dinamicamente quando raciocinar
mais devagar. Disponível em Sonnet 4.6 e Opus 4.6/4.7. Combina com o parâmetro effort
(low/medium/high/xhigh/max).
🎚️ Níveis de effort
max → sempre pensa, sem limite de profundidade
xhigh → exploração profunda estendida (só Opus 4.7)
high → sempre pensa, raciocínio profundo (padrão)
medium → pensamento moderado, pula em queries simples
low → minimiza pensamento, prioriza velocidade
API: thinking: {type: "adaptive"} + effort param
⚠️ Breaking change: Opus 4.7 REMOVEU extended thinking
- Opus 4.6: tinha extended thinking (modo binário liga/desliga)
- Opus 4.7: extended thinking NÃO está disponível — apenas adaptive thinking
- Impacto: quem migrou esperando o mesmo recurso foi pego de surpresa
- Saída: migrar pra adaptive thinking (Anthropic diz que supera extended em avaliações internas)
- Bonus pegadinha: novo tokenizer no 4.7 pode usar até 35% mais tokens que versões anteriores
✓ Quando ativar effort alto
- ✓Raciocínio multi-passo denso
- ✓Código com lógica de negócio complexa
- ✓Análise jurídica/médica com nuance
- ✓Tarefa onde "errar" custa caro
✗ Quando NÃO ativar
- ✗FAQ, resumo simples, tradução
- ✗Alto volume com baixa complexidade
- ✗Pra "garantir qualidade" sem motivo
- ✗UX em tempo real (< 500ms)
🎯 Quando usar cada um
Decisão de bolso. A regra deve sair em 2 segundos — sem ela, todo mundo defaulta no mesmo modelo (quase sempre o errado pra carga).
🧭 Regra de bolso (decore)
- Volume alto + latência crítica + tarefa bem-definida → Haiku 4.5
- Raciocínio moderado + contexto longo + pipeline de produto → Sonnet 4.6
- Agente autônomo + tarefa aberta + horas de execução → Opus 4.7
📋 Matriz de decisão por cenário
Cenário Modelo
FAQ bot, classificação em lote Haiku
Pair programming, autocompletion Haiku
Sub-agente de pesquisa de arquivo Haiku
Code review de PR médio Sonnet
Refactor com dependências cruzadas Sonnet
Análise de repo inteiro Sonnet/Opus
Agente rodando > 30 min Opus
Refactor crítico (legacy) Opus
Análise jurídica/médica complexa Opus
🚫 Erros típicos de quem usa o errado
Cada modelo errado tem assinatura clara. Reconhecer o sintoma cedo evita semanas otimizando o modelo errado.
✗ Haiku onde precisava Sonnet/Opus
- ✗Agente de coding perde fio após 10 passos
- ✗Raciocínio incompleto em multi-step
- ✗Falta memória entre tool calls
- ✗200k estoura em análise de repo grande
✗ Sonnet onde Haiku bastava
- ✗$3/MTok pra responder "qual o horário?"
- ✗Latência 2-3s onde UX exigia <500ms
- ✗3x desnecessário em pipeline alto volume
- ✗Overhead em sub-agente simples
✗ Opus onde Sonnet bastava
- ✗5x custo sem ganho mensurável
- ✗Latência moderada afetando UX real-time
- ✗Tokenizer 4.7 inflando custo +35%
- ✗Migrar 4.6→4.7 esperando extended thinking
✗ Erros de escopo (qualquer modelo)
- ✗Extended thinking em pergunta simples
- ✗Sem prompt caching em system prompt longo
- ✗Ignorar Batch API (perde 50% off)
- ✗1M context com qualidade já degradada
💡 Dica prática
Em workshop com sala que tem painel de custo, abra o console.anthropic.com e mostre a divisão por modelo. Quem vê o gráfico de Opus dominando "tarefas triviais" entende em 5 segundos o que demora 30 minutos pra explicar.
📋 Resumo do Módulo
Próximo Módulo:
2.5 — 🎯 Prompt ruim vs mega-prompt (anatomia, ROI, exemplos lado a lado)