Verificando acesso...

MÓDULO 2.4

📊 Hierarquia Haiku 4.5 → Sonnet 4.6 → Opus 4.7

Três modelos, três marchas. Preço, contexto, latência, capacidades. Saber quando subir e quando descer é o que separa quem paga 5x desnecessário de quem extrai ROI real. E sim — o Opus 4.7 trouxe um breaking change que pegou muita gente de surpresa.

6
Tópicos
45
Minutos
Médio
Nível
Técnico
Tipo
1

📊 Os 3 modelos atuais (2026)

A família Claude 4.x em maio de 2026: Haiku 4.5 (rápido e barato), Sonnet 4.6 (equilibrado de produção), Opus 4.7 (mais capaz, raciocínio denso). Cada um tem perfil cognitivo diferente — não é "mais inteligente vs menos".

🗂️ Tabela comparativa rápida

Modelo        Lançamento   Cutoff      Context   Output
Haiku 4.5     15/out/2025  fev 2025    200k      64k
Sonnet 4.6    ~nov 2025    ago 2025    1M        64k
Opus 4.7      ~2026        jan 2026    1M        128k

IDs API:
  claude-haiku-4-5-20251001
  claude-sonnet-4-6
  claude-opus-4-7

🚗 Analogia: câmbios de um carro

  • Haiku 4.5 — Câmbio 5: alta rotação, máxima eficiência em cruzeiro. Mude antes da ladeira.
  • Sonnet 4.6 — Câmbio 3: potência intermediária. Sobe ladeiras moderadas, não é ideal pra fora-de-estrada.
  • Opus 4.7 — Câmbio 1 em 4x4: máxima força de tração. Lento, mas atravessa qualquer terreno. Caro manter em alta rotação.
Velocidade
Haiku > Sonnet > Opus
Profundidade
Opus > Sonnet > Haiku
Custo
5x entre Haiku e Opus
Context
Haiku 200k · outros 1M
2

💵 Preços ($1/$5, $3/$15, $5/$25 por MTok)

A tabela de bolso. Decore — quem decora decide por ROI, quem não decora decide por intuição (e quase sempre paga mais).

💰 Preços por milhão de tokens

                Input    Output   Cache write  Cache read
Haiku 4.5       $1       $5       $1.25 (5min) $0.10
Sonnet 4.6      $3       $15      $3.75 (5min) $0.30
                                  $6.00 (1h)
Opus 4.7        $5       $25      $6.25 (5min) $0.50
                                  $10.00 (1h)

Batch API: 50% off em input E output (qualquer modelo)

📉 Prompt caching — o multiplicador

  • Cache read = 10% do input padrão (todos os modelos)
  • Break-even: cache de 5min paga após 1 leitura. Cache de 1h paga após 2 leituras.
  • Em produção: system prompts estáveis dão cache hit 80-95% → 60-90% de economia no input

✓ Otimizações que pagam

  • System prompt fixo + cache write (5min)
  • Batch API pra workloads assíncronos (-50%)
  • Sub-agentes em Haiku quando dá
  • Mesa-redonda: rascunho Haiku, revisão Sonnet

✗ Custos invisíveis

  • Opus em pipeline de alto volume (5x desnecessário)
  • Sem caching em system prompt repetido
  • Ignorar Batch quando latência não importa
  • Extended thinking em pergunta trivial

💡 Dica prática

A pergunta certa pra escolher modelo não é "qual é o melhor?" — é "qual é o menor que resolve esse caso?". O default deve ser Haiku; só sobe quando ele dá ré.

3

🪟 Context window (Haiku 200k, Sonnet/Opus 1M)

Tamanho da janela define o que cabe na cabeça do modelo de uma vez. Haiku 4.5 tem 200k tokens (~500 páginas), sem versão 1M. Sonnet 4.6 e Opus 4.7 têm 1M tokens — já no preço padrão, sem premium de long-context.

📏 O que cabe em cada janela

  • 200k tokens (Haiku): ~500 páginas de texto, ou ~150 mil linhas de código pequeno
  • 1M tokens (Sonnet/Opus): ~2500 páginas, ou repositório de tamanho médio inteiro
  • Max output: Haiku/Sonnet 64k, Opus 4.7 dobra pra 128k
A

Cabe em Haiku

FAQ bot, classificação em lote, chat de suporte com knowledge limitado, sub-agentes especializados que só leem 5-10 arquivos.

B

Precisa de Sonnet/Opus (1M)

Análise de repositório inteiro, contratos longos com referências cruzadas, code review de PR grande com contexto histórico, agentes de longa duração com memória.

C

Precisa de Opus (128k output)

Geração de relatórios longos, refactoring que produz arquivos extensos, documentação completa a partir de código.

💡 Dica prática

Mesmo com 1M de janela, qualidade cai conforme enche. Use subagentes pra carregar contexto isolado e retornar só resumo — preserva a janela principal pra raciocínio, não pra acúmulo.

4

🧠 Adaptive thinking + breaking change Opus 4.7

Adaptive thinking deixa o modelo decidir dinamicamente quando raciocinar mais devagar. Disponível em Sonnet 4.6 e Opus 4.6/4.7. Combina com o parâmetro effort (low/medium/high/xhigh/max).

🎚️ Níveis de effort

max     → sempre pensa, sem limite de profundidade
xhigh   → exploração profunda estendida (só Opus 4.7)
high    → sempre pensa, raciocínio profundo (padrão)
medium  → pensamento moderado, pula em queries simples
low     → minimiza pensamento, prioriza velocidade

API: thinking: {type: "adaptive"} + effort param

⚠️ Breaking change: Opus 4.7 REMOVEU extended thinking

  • Opus 4.6: tinha extended thinking (modo binário liga/desliga)
  • Opus 4.7: extended thinking NÃO está disponível — apenas adaptive thinking
  • Impacto: quem migrou esperando o mesmo recurso foi pego de surpresa
  • Saída: migrar pra adaptive thinking (Anthropic diz que supera extended em avaliações internas)
  • Bonus pegadinha: novo tokenizer no 4.7 pode usar até 35% mais tokens que versões anteriores

✓ Quando ativar effort alto

  • Raciocínio multi-passo denso
  • Código com lógica de negócio complexa
  • Análise jurídica/médica com nuance
  • Tarefa onde "errar" custa caro

✗ Quando NÃO ativar

  • FAQ, resumo simples, tradução
  • Alto volume com baixa complexidade
  • Pra "garantir qualidade" sem motivo
  • UX em tempo real (< 500ms)
5

🎯 Quando usar cada um

Decisão de bolso. A regra deve sair em 2 segundos — sem ela, todo mundo defaulta no mesmo modelo (quase sempre o errado pra carga).

🧭 Regra de bolso (decore)

  • Volume alto + latência crítica + tarefa bem-definidaHaiku 4.5
  • Raciocínio moderado + contexto longo + pipeline de produtoSonnet 4.6
  • Agente autônomo + tarefa aberta + horas de execuçãoOpus 4.7

📋 Matriz de decisão por cenário

Cenário                              Modelo
FAQ bot, classificação em lote       Haiku
Pair programming, autocompletion     Haiku
Sub-agente de pesquisa de arquivo    Haiku
Code review de PR médio              Sonnet
Refactor com dependências cruzadas   Sonnet
Análise de repo inteiro              Sonnet/Opus
Agente rodando > 30 min              Opus
Refactor crítico (legacy)            Opus
Análise jurídica/médica complexa     Opus
Haiku
Estagiário brilhante
Sonnet
Dev pleno
Opus
Arquiteto sênior
Default
O menor que resolve
6

🚫 Erros típicos de quem usa o errado

Cada modelo errado tem assinatura clara. Reconhecer o sintoma cedo evita semanas otimizando o modelo errado.

✗ Haiku onde precisava Sonnet/Opus

  • Agente de coding perde fio após 10 passos
  • Raciocínio incompleto em multi-step
  • Falta memória entre tool calls
  • 200k estoura em análise de repo grande

✗ Sonnet onde Haiku bastava

  • $3/MTok pra responder "qual o horário?"
  • Latência 2-3s onde UX exigia <500ms
  • 3x desnecessário em pipeline alto volume
  • Overhead em sub-agente simples

✗ Opus onde Sonnet bastava

  • 5x custo sem ganho mensurável
  • Latência moderada afetando UX real-time
  • Tokenizer 4.7 inflando custo +35%
  • Migrar 4.6→4.7 esperando extended thinking

✗ Erros de escopo (qualquer modelo)

  • Extended thinking em pergunta simples
  • Sem prompt caching em system prompt longo
  • Ignorar Batch API (perde 50% off)
  • 1M context com qualidade já degradada

💡 Dica prática

Em workshop com sala que tem painel de custo, abra o console.anthropic.com e mostre a divisão por modelo. Quem vê o gráfico de Opus dominando "tarefas triviais" entende em 5 segundos o que demora 30 minutos pra explicar.

📋 Resumo do Módulo

Haiku 4.5 / Sonnet 4.6 / Opus 4.7 — três marchas, três perfis cognitivos
$1/$5, $3/$15, $5/$25 por MTok — decore. Prompt caching corta 60-90%
Context 200k vs 1M — Haiku menor, Sonnet/Opus 1M no preço padrão
Adaptive thinking + breaking change Opus 4.7 — extended thinking foi removido. Tokenizer novo pode +35% custo
Regra de bolso em 2s — volume/latência → Haiku · contexto longo → Sonnet · agente autônomo → Opus
Cada erro tem assinatura — sintoma → modelo errado → trocar antes de otimizar mais

Próximo Módulo:

2.5 — 🎯 Prompt ruim vs mega-prompt (anatomia, ROI, exemplos lado a lado)