Módulo 2.4 — Hierarquia Haiku → Sonnet → Opus

📊 Os 3 modelos atuais (2026)

A família Claude 4.x em maio de 2026: Haiku 4.5 (rápido e barato), Sonnet 4.6 (equilibrado de produção), Opus 4.7 (mais capaz, raciocínio denso). Cada um tem perfil cognitivo diferente — não é "mais inteligente vs menos".

🗂️ Tabela comparativa rápida

Modelo        Lançamento   Cutoff      Context   Output
Haiku 4.5     15/out/2025  fev 2025    200k      64k
Sonnet 4.6    ~nov 2025    ago 2025    1M        64k
Opus 4.7      ~2026        jan 2026    1M        128k

IDs API:
  claude-haiku-4-5-20251001
  claude-sonnet-4-6
  claude-opus-4-7

🚗 Analogia: câmbios de um carro

Haiku 4.5 — Câmbio 5: alta rotação, máxima eficiência em cruzeiro. Mude antes da ladeira.
Sonnet 4.6 — Câmbio 3: potência intermediária. Sobe ladeiras moderadas, não é ideal pra fora-de-estrada.
Opus 4.7 — Câmbio 1 em 4x4: máxima força de tração. Lento, mas atravessa qualquer terreno. Caro manter em alta rotação.

Velocidade

Haiku > Sonnet > Opus

Profundidade

Opus > Sonnet > Haiku

Custo

5x entre Haiku e Opus

Context

Haiku 200k · outros 1M

💵 Preços ($1/$5, $3/$15, $5/$25 por MTok)

A tabela de bolso. Decore — quem decora decide por ROI, quem não decora decide por intuição (e quase sempre paga mais).

💰 Preços por milhão de tokens

                Input    Output   Cache write  Cache read
Haiku 4.5       $1       $5       $1.25 (5min) $0.10
Sonnet 4.6      $3       $15      $3.75 (5min) $0.30
                                  $6.00 (1h)
Opus 4.7        $5       $25      $6.25 (5min) $0.50
                                  $10.00 (1h)

Batch API: 50% off em input E output (qualquer modelo)

📉 Prompt caching — o multiplicador

Cache read = 10% do input padrão (todos os modelos)
Break-even: cache de 5min paga após 1 leitura. Cache de 1h paga após 2 leituras.
Em produção: system prompts estáveis dão cache hit 80-95% → 60-90% de economia no input

✓ Otimizações que pagam

✓System prompt fixo + cache write (5min)
✓Batch API pra workloads assíncronos (-50%)
✓Sub-agentes em Haiku quando dá
✓Mesa-redonda: rascunho Haiku, revisão Sonnet

✗ Custos invisíveis

✗Opus em pipeline de alto volume (5x desnecessário)
✗Sem caching em system prompt repetido
✗Ignorar Batch quando latência não importa
✗Extended thinking em pergunta trivial

💡 Dica prática

A pergunta certa pra escolher modelo não é "qual é o melhor?" — é "qual é o menor que resolve esse caso?". O default deve ser Haiku; só sobe quando ele dá ré.

🪟 Context window (Haiku 200k, Sonnet/Opus 1M)

Tamanho da janela define o que cabe na cabeça do modelo de uma vez. Haiku 4.5 tem 200k tokens (~500 páginas), sem versão 1M. Sonnet 4.6 e Opus 4.7 têm 1M tokens — já no preço padrão, sem premium de long-context.

📏 O que cabe em cada janela

200k tokens (Haiku): ~500 páginas de texto, ou ~150 mil linhas de código pequeno
1M tokens (Sonnet/Opus): ~2500 páginas, ou repositório de tamanho médio inteiro
Max output: Haiku/Sonnet 64k, Opus 4.7 dobra pra 128k

Cabe em Haiku

FAQ bot, classificação em lote, chat de suporte com knowledge limitado, sub-agentes especializados que só leem 5-10 arquivos.

Precisa de Sonnet/Opus (1M)

Análise de repositório inteiro, contratos longos com referências cruzadas, code review de PR grande com contexto histórico, agentes de longa duração com memória.

Precisa de Opus (128k output)

Geração de relatórios longos, refactoring que produz arquivos extensos, documentação completa a partir de código.

💡 Dica prática

Mesmo com 1M de janela, qualidade cai conforme enche. Use subagentes pra carregar contexto isolado e retornar só resumo — preserva a janela principal pra raciocínio, não pra acúmulo.

🧠 Adaptive thinking + breaking change Opus 4.7

Adaptive thinking deixa o modelo decidir dinamicamente quando raciocinar mais devagar. Disponível em Sonnet 4.6 e Opus 4.6/4.7. Combina com o parâmetro effort (low/medium/high/xhigh/max).

🎚️ Níveis de effort

max     → sempre pensa, sem limite de profundidade
xhigh   → exploração profunda estendida (só Opus 4.7)
high    → sempre pensa, raciocínio profundo (padrão)
medium  → pensamento moderado, pula em queries simples
low     → minimiza pensamento, prioriza velocidade

API: thinking: {type: "adaptive"} + effort param

⚠️ Breaking change: Opus 4.7 REMOVEU extended thinking

Opus 4.6: tinha extended thinking (modo binário liga/desliga)
Opus 4.7: extended thinking NÃO está disponível — apenas adaptive thinking
Impacto: quem migrou esperando o mesmo recurso foi pego de surpresa
Saída: migrar pra adaptive thinking (Anthropic diz que supera extended em avaliações internas)
Bonus pegadinha: novo tokenizer no 4.7 pode usar até 35% mais tokens que versões anteriores

✓ Quando ativar effort alto

✓Raciocínio multi-passo denso
✓Código com lógica de negócio complexa
✓Análise jurídica/médica com nuance
✓Tarefa onde "errar" custa caro

✗ Quando NÃO ativar

✗FAQ, resumo simples, tradução
✗Alto volume com baixa complexidade
✗Pra "garantir qualidade" sem motivo
✗UX em tempo real (< 500ms)

🎯 Quando usar cada um

Decisão de bolso. A regra deve sair em 2 segundos — sem ela, todo mundo defaulta no mesmo modelo (quase sempre o errado pra carga).

🧭 Regra de bolso (decore)

Volume alto + latência crítica + tarefa bem-definida → Haiku 4.5
Raciocínio moderado + contexto longo + pipeline de produto → Sonnet 4.6
Agente autônomo + tarefa aberta + horas de execução → Opus 4.7

📋 Matriz de decisão por cenário

Cenário                              Modelo
FAQ bot, classificação em lote       Haiku
Pair programming, autocompletion     Haiku
Sub-agente de pesquisa de arquivo    Haiku
Code review de PR médio              Sonnet
Refactor com dependências cruzadas   Sonnet
Análise de repo inteiro              Sonnet/Opus
Agente rodando > 30 min              Opus
Refactor crítico (legacy)            Opus
Análise jurídica/médica complexa     Opus

Haiku

Estagiário brilhante

Sonnet

Dev pleno

Opus

Arquiteto sênior

Default

O menor que resolve

🚫 Erros típicos de quem usa o errado

Cada modelo errado tem assinatura clara. Reconhecer o sintoma cedo evita semanas otimizando o modelo errado.

✗ Haiku onde precisava Sonnet/Opus

✗Agente de coding perde fio após 10 passos
✗Raciocínio incompleto em multi-step
✗Falta memória entre tool calls
✗200k estoura em análise de repo grande

✗ Sonnet onde Haiku bastava

✗$3/MTok pra responder "qual o horário?"
✗Latência 2-3s onde UX exigia <500ms
✗3x desnecessário em pipeline alto volume
✗Overhead em sub-agente simples

✗ Opus onde Sonnet bastava

✗5x custo sem ganho mensurável
✗Latência moderada afetando UX real-time
✗Tokenizer 4.7 inflando custo +35%
✗Migrar 4.6→4.7 esperando extended thinking

✗ Erros de escopo (qualquer modelo)

✗Extended thinking em pergunta simples
✗Sem prompt caching em system prompt longo
✗Ignorar Batch API (perde 50% off)
✗1M context com qualidade já degradada

💡 Dica prática

Em workshop com sala que tem painel de custo, abra o console.anthropic.com e mostre a divisão por modelo. Quem vê o gráfico de Opus dominando "tarefas triviais" entende em 5 segundos o que demora 30 minutos pra explicar.

📋 Resumo do Módulo

✓

Haiku 4.5 / Sonnet 4.6 / Opus 4.7 — três marchas, três perfis cognitivos

✓

$1/$5, $3/$15, $5/$25 por MTok — decore. Prompt caching corta 60-90%

✓

Context 200k vs 1M — Haiku menor, Sonnet/Opus 1M no preço padrão

✓

Adaptive thinking + breaking change Opus 4.7 — extended thinking foi removido. Tokenizer novo pode +35% custo

✓

Regra de bolso em 2s — volume/latência → Haiku · contexto longo → Sonnet · agente autônomo → Opus

✓

Cada erro tem assinatura — sintoma → modelo errado → trocar antes de otimizar mais

Próximo Módulo:

2.5 — 🎯 Prompt ruim vs mega-prompt (anatomia, ROI, exemplos lado a lado)

← Módulo anterior Próximo Módulo →