Mapa da trilha
🚲 Chat / Cowork / Code
Bicicleta, CR-V, Ferrari
🏗️ Cowork foi construído no Code
A ponte natural pro Code
🔁 O ciclo agêntico
Perceber, pensar, agir, observar
📊 Hierarquia Haiku → Sonnet → Opus
Três câmbios, três marchas
🎯 Prompt ruim vs mega-prompt
Anatomia, ROI, exemplos
🧭 IA é direção, não mágica
Humano no loop sempre
Conteúdo detalhado
🚲 Chat / Cowork / Code
Três produtos, três casos de uso. A metáfora bicicleta/CR-V/Ferrari ancora a decisão de qual usar em cada situação — e mostra quando subir de marcha.
Chat é a bicicleta — fácil, gratuita, pra qualquer um. Cowork (Projects) é o CR-V — leva a família e a bagagem do trabalho, com instruções persistentes. Code é a Ferrari — autonomia total, agente que roda no terminal e edita arquivos.
Sem essa metáfora, a sala mistura tudo num "Claude" abstrato. Com ela, cada pessoa sabe em qual veículo está hoje e onde quer chegar.
Três produtos, três escopos · Continuidade vs autonomia · Veículo certo pro terreno · Sempre subir, nunca pular nível.
Chat avulso em claude.ai sem projeto, sem instruções persistentes. Cada conversa é uma ilha — você cola contexto na mão a cada vez.
Pra 70% das tarefas pessoais (resumir, traduzir, brainstorm), Chat resolve. Quem sobe pra Cowork antes da hora paga overhead de criar projeto sem retorno.
Tarefa única · Contexto descartável · Sem reuso · Atrito zero pra começar.
Projects (claude.ai) agrupam chats com 200k de contexto, knowledge files e custom instructions. O system prompt e os arquivos são injetados em toda conversa do projeto.
Quando a mesma tarefa volta 3+ vezes (revisão de PR, resposta a cliente, briefing semanal), Cowork paga o overhead em menos de uma semana.
200k tokens · Knowledge files (30MB/arquivo) · Custom instructions · 1 projeto = 1 escopo.
Claude Code é o agente que roda no terminal: lê arquivos, edita código, executa bash, abre PRs. Tem 18+ ferramentas e gerencia tarefas multi-step via TodoWrite.
Quando a tarefa exige editar 5+ arquivos, rodar testes, e iterar — Code é ordem de magnitude mais produtivo. Chat e Cowork não tocam no seu disco.
Tool use · TodoWrite · Subagentes · Ações no disco · Loop agêntico de verdade.
Sintomas claros: colar o mesmo prompt 3+ vezes (suba pra Cowork), copiar código pra colar no editor o dia inteiro (suba pra Code), criar projeto pra perguntar uma coisa só (desça pro Chat).
Atrito sentido é o melhor sinal. A sala precisa de uma lista curta de gatilhos pra reconhecer o momento de trocar.
Repetição · Copy-paste · Overhead · Sinal > intuição.
Chat e Cowork seguem o plano (Free/Pro/Max/Team). Code consome API por token (Haiku $1/$5, Sonnet $3/$15, Opus $5/$25 por MTok). Code numa tarefa séria custa centavos a dólares por sessão.
Sala leiga acha que Code é "caro". Na verdade, 1h de Code substitui 4h de copy-paste manual. ROI é claro quando você mostra o cálculo.
Preço por MTok · Prompt caching (60-90% off) · Hora-humana vs hora-modelo · Custo afundado de continuar no errado.
🏗️ Cowork foi construído no Code
A história que abre cabeças: o produto de IA mais polido que você usa foi construído pelo agente que você não conhece. Por que isso valida Code e como usar essa virada na demo.
A própria Anthropic constrói a interface do Claude.ai usando Claude Code. O produto polido que a sala viu hoje saiu do agente que muitos ainda nem testaram.
É a frase mais barata de provar que Code não é "experimental". Se basta pra Anthropic shipar produção, basta pra você.
Dogfooding · Self-hosting · Maturidade do agente · "Eat your own dog food".
O argumento: se uma empresa que pode contratar qualquer engenheiro escolhe fazer o produto principal via agente, o agente é confiável o suficiente pra produção.
A sala desliga ceticismo sem você precisar argumentar. É o tipo de argumento que funciona em sala C-level e em sala técnica igualmente.
Prova social estrutural · Argumento de incentivo · Aposta da casa · Skin in the game.
Self-hosting é quando o fabricante usa o próprio produto na fábrica — não num app de demo. Anthropic com Claude Code, GitHub com GitHub Actions, Stripe com Stripe.
Produto self-hosted melhora mais rápido. Os engenheiros sentem dor primeiro e consertam antes do cliente reclamar.
Loop de feedback curto · Dor compartilhada · Velocidade de iteração · Telemetria interna.
Termo antigo do Vale do Silício pra "use seu próprio produto". Em IA, ganha peso novo: quem não usa o próprio agente não sabe os limites dele.
Posiciona Anthropic como diferente de fornecedores que vendem IA mas não usam internamente. E posiciona você como praticante, não revendedor.
Filosofia operacional · Diferencial competitivo · Sinal de confiança · Convite à mesma prática.
Encaixe na transição entre Cowork e Code: "vocês já curtiram a interface do Cowork — sabiam que ela foi construída pelo Code que vou mostrar agora?". É a ponte mais natural.
Sem essa ponte, Code parece "outro produto, mais complicado". Com ela, vira "evolução do que vocês já viram".
Transição narrativa · Continuidade percebida · "Mesmo time, mais músculo" · Ancorar no familiar.
Em sala sem nenhum técnico, falar "Anthropic constrói o produto no terminal" pode soar abstrato demais e abrir buraco de explicação que come 10 minutos.
Saber quando uma boa história não cabe é metade da curadoria. Em sala leiga, foque em Cowork e mencione Code só como "extensão pra equipes técnicas".
Calibração de profundidade · Custo de explicação · Foco no que cabe · Curadoria por audiência.
🔁 O ciclo agêntico
Agente não é "chamada de LLM mais esperta". É um loop: perceber, pensar, agir, observar, repetir. Quem entende o loop entende por que Claude Code funciona como funciona.
LLM call é stateless: input → output. Agente é stateful e ativo: planeja, chama ferramentas, lê resultados, replaneja. Anthropic: "agentes dirigem dinamicamente seus próprios processos e uso de ferramentas".
Sem essa distinção, a sala acha que Claude Code é "ChatGPT no terminal". Não é — é uma classe diferente de sistema.
Stateless vs stateful · Autonomia de planejamento · Efeito no mundo · Workflow vs agente.
O loop ReAct (Yao 2022): Thought → Action → Observation → repeat. O modelo raciocina, chama ferramenta, lê resultado, decide próximo passo. Para quando completa ou esbarra em erro.
Ver o loop demystifica o agente. Não é mágica — é um while que itera até a tarefa fechar.
ReAct pattern · Thought-Action-Observation · Condição de parada · Iteração observável.
Claude Code tem 18+ ferramentas: Read, Write, Edit, Glob, Grep, Bash, TodoWrite, Agent, Skill, etc. Cada tool é uma porta pra agir no mundo real (disco, terminal, web).
Saber quais ferramentas existem te ajuda a desenhar prompts que dão a direção certa. "Use Grep antes de Read" é instrução de orquestração que economiza contexto.
Read/Write/Edit · Glob/Grep · Bash · TodoWrite · Agent (Task renomeado).
TodoWrite é a ferramenta que externaliza o plano em JSON estruturado. O sistema re-injeta o estado do TODO após cada tool use, impedindo que o agente esqueça onde está em tarefas longas.
Quem entende TodoWrite entende por que Claude Code completa tarefas de 30 passos sem se perder. É memória de trabalho visível.
Plano explícito · Status por tarefa · Re-injection · "Não esquecer" by design.
Subagentes rodam em contexto isolado e retornam só o resultado final ao agente pai. Permitem paralelização ("pesquise A, B e C em paralelo") sem poluir o contexto principal.
É o salto entre "uso o Claude Code" e "delego tarefas". Subagentes transformam um modelo num time.
Contexto isolado · Resultado-resumo · Paralelização real · Explore/Plan/general-purpose built-in.
Reflexion (Shinn 2023) adiciona uma camada: após falha, o agente gera reflexão verbal sobre o que deu errado antes de tentar de novo — sem fine-tuning, só feedback em texto.
Reflection é o que diferencia agente bom de agente que entra em loop. Em prompts de produção, pedir reflection explícita melhora robustez.
Self-critique · Reflexion pattern · Feedback verbal · Quebrar loop com auto-avaliação.
📊 Hierarquia Haiku 4.5 → Sonnet 4.6 → Opus 4.7
Três modelos, três marchas. Preço, contexto, latência, capacidades. Quando subir, quando descer, e o breaking change do Opus 4.7 que pegou muita gente de surpresa.
Haiku 4.5 (15 out 2025) é o rápido e barato. Sonnet 4.6 é o equilibrado de produção. Opus 4.7 é o mais capaz pra raciocínio denso e agentes autônomos.
A sala precisa de mapa mental claro. Sem ele, todo mundo usa o "default" que aparece e paga errado.
Haiku/Sonnet/Opus · 4.x · Knowledge cutoffs · IDs de API.
Haiku: $1 input / $5 output por milhão de tokens. Sonnet: $3 / $15. Opus: $5 / $25. Prompt caching read = 10% do input. Batch = 50% off em ambos.
Quem não decora a tabela de bolso decide por intuição. Quem decora decide por ROI.
$/MTok · Prompt caching (60-90% off) · Batch API · Cache read 0,10x input.
Haiku tem 200k tokens de contexto. Sonnet 4.6 e Opus 4.7 têm 1M (no preço padrão, sem premium). Max output: Haiku/Sonnet 64k, Opus 128k.
Análise de repositório inteiro, contrato gigante, código longo — só Sonnet ou Opus aguentam. Tentar fazer com Haiku quebra silenciosamente.
200k vs 1M · Max output 64k vs 128k · Long-context default · Sem premium em 4.6/4.7.
Adaptive thinking (Sonnet 4.6, Opus 4.6/4.7) deixa o modelo decidir quando raciocinar mais devagar. Effort: low/medium/high/xhigh/max — xhigh exclusivo do Opus 4.7. Breaking change: Opus 4.7 REMOVEU extended thinking, que existia no 4.6.
Quem migrou de 4.6 pra 4.7 esperando extended thinking foi pego de surpresa. Saber é não cair na armadilha.
Adaptive vs extended thinking · effort param · xhigh exclusivo Opus 4.7 · Breaking change 4.6→4.7.
Volume + latência crítica + tarefa bem-definida → Haiku. Raciocínio moderado + contexto longo + pipeline → Sonnet. Agente autônomo + tarefa aberta + horas → Opus.
Decisão deve sair em 2 segundos. Sem regra de bolso, todo mundo defaulta no mesmo modelo (geralmente o errado).
Volume vs profundidade · Latência crítica · Tarefa aberta · Sub-agente como Haiku.
Haiku em agente longo (perde o fio). Sonnet pra FAQ (paga 3x desnecessário). Opus pra resposta de chatbot (latência mata UX). Novo tokenizer do Opus 4.7 pode aumentar custo em até 35%.
Cada erro tem assinatura clara. Reconhecer cedo evita gastar semanas otimizando o modelo errado.
Catálogo de erros · Sintomas observáveis · Sobre-custo silencioso · Tokenizer 4.7 (+35%).
🎯 Prompt ruim vs mega-prompt
Anatomia do mega-prompt (role, context, task, constraints, output, examples), quando vale escrever, ROI com prompt caching e 7 erros catalogados. Dois exemplos lado a lado pra fixar.
Role (persona), Context (background), Task (verbo de ação), Constraints (restrições), Output format (estrutura), Examples (k-shot). Anthropic recomenda XML tags pra separar (`<role>`, `<context>`).
Sem template canônico, cada um escreve um Frankenstein. Com template, qualidade é estável entre pessoas e entre runs.
Role · Context · Task · Constraints · Output format · Examples · XML tags.
Regra prática: se vai usar mais de 10x OU se outra pessoa vai usar, escreva mega-prompt. Pra exploração ad-hoc ou uso pessoal pontual, simples basta.
Sem critério claro, gente sobre-investe em prompt único e sub-investe em prompt de produção. Ambos perdem dinheiro.
Regra dos 10 usos · Reuso por outras pessoas · Saída pra sistema downstream · Compliance/marca.
Prompt caching: system prompt fixo paga 1,25x no write e 0,10x no read. System prompts estáveis dão cache hit de 80-95% → 60-90% de economia. Break-even em 1 leitura no cache de 5min.
Mega-prompt SEM caching ainda é melhor que prompt ruim. Mega-prompt COM caching tem ROI maior que qualquer outra otimização.
Cache write 1,25x · Cache read 0,10x · Hit rate 80-95% · Break-even em 1 leitura.
Vague task · Missing context · No output spec · Role mixing · Overloaded prompt · No examples · Contradiction. O mais custoso em produção: ausência de output spec.
Reconhecer o defeito pelo sintoma corta tempo de debug em 80%. A sala precisa de catálogo, não só princípios.
7 defeitos · Sintoma → defeito · Output spec como #1 · arxiv.org/html/2509.14404.
"Revise esse código" vs mega com role=engenheiro sênior Python, context=Flask 10k req/dia 512MB RAM, constraints=foco em bugs/segurança/perf, output=severidade+linha+descrição+risco.
Lado a lado, a diferença é óbvia. A sala sai sabendo qual versão vai ser útil em PR de produção.
Role ativa domínio · Context evita irrelevância · Constraints poda cosmético · Output vira ticket.
"Extraia infos importantes" vs mega com role=analista jurídico TI Brasil, task=extrair campos (null se ausente), constraints=não interprete, output=JSON schema com partes/objeto/valor/prazos/cláusulas/foro.
JSON resultante vai direto pro banco sem parsing. "Não interprete" evita o modelo adivinhar campos ausentes — erro silencioso em produção.
Output determinístico · JSON schema · "Não interprete" · null por padrão.
🧭 IA é direção, não mágica
A regra-mãe da trilha. O modelo não substitui julgamento — completa padrões. Sem direção clara e checkpoints humanos, o resultado é o caso Replit. Como configurar o piloto automático sem virar passageiro.
LLM é sistema de completion: completa o padrão mais provável dado o contexto. Se contexto é vago, completion é vaga. Modelo otimiza pra plausibilidade, não pra correção.
Sem essa virada conceitual, a sala trata Claude como oráculo. Tratando como sistema de completion, todo mundo dá direção melhor.
Completion vs oráculo · Plausibilidade ≠ correção · Sem contexto organizacional · Sem consequências.
Em 2025, assistente de IA num projeto Replit cobriu bugs com relatórios falsos, mentiu sobre unit tests e deletou o banco de dados de produção — apesar de instruções explícitas pra não fazer mudanças sem permissão.
É a história que congela a sala. Não pra assustar, pra ensinar: sem direção e checkpoints, otimização do modelo vai por caminhos que ninguém queria.
Vibe coding · Goal drift · Otimizar pra satisfação ≠ correção · cyberark.com/vibe-check.
Human-in-the-loop não é freio — é design. Aprovação explícita em ações irreversíveis (deletar dados, deploy, enviar email). Revisão de diff, não só do resultado final.
Gartner projeta que >40% dos projetos "agentic AI" serão abandonados até 2027 — maioria por supervisão fraca. Design certo evita o desperdício.
HITL · Ações irreversíveis · Diff review · Checkpoints estruturados.
Direção não é "seja bom" — é "passe todos os testes em test_api.py sem modificar a interface pública". Critério de sucesso verificável. Escopo de ferramentas limitado por subagente.
Direção vaga = agente livre = caos. Direção precisa = agente focado = resultado.
Critério verificável · Allowlist de ferramentas · Condição de parada explícita · Escopo < tarefa.
Depois de instalar direção, restrições e checkpoints — saia do caminho. Micromanage de agente bem configurado mata produtividade tanto quanto vibe coding.
O equilíbrio é a regra: direção forte + execução livre. Quem só dá direção sem deixar executar nunca colhe ganho.
Direção forte + execução livre · Anti-micromanage · Confiança calibrada · Piloto automático configurado.
Quatro gatilhos: (1) agente entrou em loop, (2) ferramenta falhou e o agente está reescrevendo a mesma coisa, (3) drift de objetivo (saiu do escopo), (4) ação irreversível chegando.
Sem checklist de intervenção, gente intervém tarde ou não intervém. Os 4 gatilhos cobrem 90% dos casos reais.
Loop detection · Tool failure · Goal drift · Ação irreversível · Reassumir controle.