🧠 O que substituiu o extended thinking
Extended Thinking (Claude 3.7 Sonnet) era binário: liga/desliga com
budget_tokens fixo. Adaptive Thinking (Opus 4.6+, Sonnet 4.6+)
é dinâmico — Claude decide quando vale a pena pensar fundo e por quanto tempo. A Anthropic recomenda migrar:
adaptive supera extended de forma consistente em avaliações internas.
✗ Extended (legado)
{
"thinking": {
"type": "enabled",
"budget_tokens": 8000
}
}
- • Liga/desliga binário
- • Budget fixo, gasta tudo
- • Modelo de 2025
✓ Adaptive (atual)
{
"thinking": {
"type": "adaptive"
},
"effort": "high"
}
- • Decisão dinâmica
- • Efforts em 5 níveis
- • Opus 4.6+, Sonnet 4.6+
💡 Dica prática
Em código novo, use sempre type: "adaptive". Extended continua existindo por compatibilidade, mas é caminho de uma via — Anthropic está investindo no adaptive.
🎚️ Os 5 níveis de effort
O parâmetro effort é o controle principal do tradeoff
inteligência × velocidade × custo. Cinco níveis, do mais leve ao mais pesado.
low — minimiza pensamento
Pula raciocínio em tarefas simples onde velocidade importa. Resumo, classificação, tradução.
medium — moderado
Pensamento intermediário. Pode pular pra consultas muito simples.
high — padrão
Sempre pensa. Raciocínio profundo em tarefas complexas. Default recomendado.
xhigh — exploração profunda (só Opus 4.7)
Sempre pensa com exploração estendida. Exclusivo do Opus 4.7. Para problemas onde vale esperar mais.
max — sem limite
Sempre pensa, sem cap de profundidade. Disponível em Mythos Preview, Opus 4.7, Opus 4.6, Sonnet 4.6.
👑 xhigh é exclusivo do Opus 4.7
xhigh é o modo "pensa demais até resolver" — exploração profunda estendida que só existe no Opus 4.7. Sonnet/Haiku não aceitam o parâmetro. Usado quando você prefere esperar 90s e receber a resposta certa do que iterar 4 vezes em 10s.
🎯 Quando xhigh vale o custo
- • Debug de bug que você já tentou 3 vezes
- • Refatoração de sistema legado com efeitos colaterais
- • Análise jurídica densa (contrato 100+ pgs, parecer)
- • Design arquitetural de software com tradeoffs
- • Prova matemática, derivação algorítmica
✓ Bom uso de xhigh
- ✓1 problema complexo por execução
- ✓Aceitar 60-120s de espera
- ✓Tarefa raramente repetida
✗ Mau uso de xhigh
- ✗Em batch de 1000 itens
- ✗Tradução, resumo, classificação
- ✗"Por via das dúvidas, sempre xhigh"
🎯 Quando ativar
Heurística rápida: tarefa simples = low/medium; tarefa densa = high/xhigh; tarefa cabeluda = max. Calibrar isso vira instinto após algumas dezenas de chamadas.
🧭 Tabela de decisão
TAREFA | EFFORT
-------------------------------|--------
Tradução, resumo, classificação| low
Escrita criativa rotineira | medium
Análise multi-parte | high
Código longo, refatoração | high
Debug profundo, arquitetura | xhigh
Prova matemática, teoria | max
💡 Dica prática
Comece com high como padrão. Suba pra xhigh/max só quando a resposta de high não satisfez. Desça pra medium/low quando o batch crescer.
💰 Custo dos thinking tokens
Thinking tokens são cobrados como output tokens. xhigh pode gerar milhares de tokens "pensando" antes de responder. Em batch grande, isso vira surpresa na fatura.
🧮 Ordem de magnitude
- • low: raramente passa de 0-200 tokens "pensando"
- • medium: 200-1000
- • high: 1000-3000 típico
- • xhigh: 3000-10000+, depende do problema
- • max: sem cap — pode ir além de 20000
- Magnitude observacional. Calibre pela sua fatura real.
✓ Gestão de custo
- ✓Default em high é equilíbrio
- ✓Batch grande → desça pra low/medium
- ✓xhigh só em casos one-off
- ✓Monitorar usage no dashboard
✗ Pegadinhas
- ✗xhigh em loop de 10K itens
- ✗max em chatbot conversacional
- ✗Esquecer que thinking = output tokens
👁️ Ver o que ele pensou
Tanto claude.ai quanto Claude Code exibem o chain of thought em bloco recolhível antes da resposta final. Auditar esse raciocínio é onde o ouro mora — você descobre por que o modelo errou ou acertou, e ajusta o prompt em cima.
🔍 Como usar o CoT a seu favor
- • Resposta errada? Leia o CoT — onde ele tropeçou?
- • Resposta certa mas longa? CoT pode mostrar atalho que você não viu
- • Acoplado com thinking tokens visíveis na API, dá pra logar e auditar
- • Em demo, deixe o CoT aberto: a sala vê "como" Claude pensou e perde o medo da IA "caixa-preta"
💡 Dica prática
Em demo pra sala mista, abra o CoT em um exemplo cabeludo. Você vê 30 segundos de "Claude pensando" — e acelera a fala explicando o raciocínio. É um dos momentos mais "wow" possíveis em demo, especialmente pra leigos.
📋 Resumo do Módulo
Próximo Módulo:
4.3 — ⚡ Modo YOLO (--dangerously-skip-permissions vs Auto Mode)