Técnica

Economia de tokens

11 de jun. de 2026

tokenscontextomodeloprodutividade

Problema

Com Claude Enterprise ou qualquer plano com limite de uso, o custo acumula rápido se você não entende onde ele vem. A maioria das pessoas olha pro número do mês e não faz ideia do que comeu o budget. Cada mensagem reenvia o histórico inteiro do chat. Sessões longas de agente releem arquivos, fazem múltiplas tool calls, empilham raciocínio. O grosso do gasto quase nunca está na resposta; está no input acumulado.

Quatro alavancas resolvem a maior parte disso. Nessa ordem de impacto.

Técnica

Alavanca 1: modelo certo por tarefa. Opus consome várias vezes mais tokens que Sonnet na mesma tarefa. Tokens de output custam cerca de 5x mais que input. A maioria das tarefas do dia a dia funciona perfeitamente com Sonnet. Haiku cobre o degrau de baixo: tarefas simples e de alto volume, como resumos e lookups. Só faz sentido subir pro Opus quando a tarefa tem 3 ou mais passos que dependem uns dos outros, e você travou com Sonnet. O seletor de modelo é sticky, fica no último escolhido. Conferir antes de começar evita surpresas.

Alavanca 2: superfície certa por tarefa. Chat é leve. Cowork e Claude Code são pesados: system prompts, leitura de arquivos, tool calls e raciocínio multi-turno em cada sessão. Perguntas rápidas, drafts de email e análises de texto curtas pertencem ao chat. Fluxo que precisa de agente de verdade, com múltiplos arquivos ou automação, vai pro Cowork ou pro Code. Usar o Cowork pra o que um chat resolve dobra o custo sem motivo.

Alavanca 3: conversas curtas. Tarefa nova, chat novo. Abrir um chat custa zero; continuar num chat de 50 mensagens custa reenviar tudo a cada turno. O sinal de que o chat está longo demais: você rola bastante pra chegar ao início, a conversa já cobriu dois assuntos distintos, ou o /context no Code mostra mais de 50% da janela consumida. Quando chegar aqui, use o compactador-de-contexto pra gerar um handoff e recomeçar limpo.

Alavanca 4: contexto enxuto. Suba só os trechos relevantes de arquivos, não o documento inteiro. Project knowledge enxuto: revise o que está carregado em cada projeto. Escope bem os pedidos a agentes: “atualize a seção X do arquivo Y” custa uma fração de “organize meu vault”.

Por que a conta cresce a cada turno

Vale entender o mecanismo por baixo das alavancas. Cada mensagem que você manda reenvia a conversa inteira como input. Num chat com 100 mil tokens de contexto, dez mensagens não custam dez mensagens: custam reprocessar esses 100 mil dez vezes. É por isso que um chat longo fica mais caro a cada turno, mesmo que suas perguntas sejam curtas.

O prompt caching alivia parte disso: o pedaço da conversa que não mudou volta a custar cerca de 10% do normal. Mas compactar ou editar o histórico quebra o cache, porque muda o que vinha antes. Por isso a janela boa de compactar é estreita, entre 65% e 75% do contexto. Antes disso você joga fora contexto que ainda era útil; muito depois de 90% você já pagou os turnos caros que queria evitar. O /clear entre assuntos sem relação continua sendo a alavanca de maior impacto, porque zera o acúmulo em vez de só resumir.

Como aplicar

No chat e Cowork:

Antes de abrir o Cowork pra qualquer tarefa, pergunte: isso é um agente de verdade ou é só uma pergunta? Se for só pergunta, abre o chat.
Ao iniciar uma sessão do Cowork, confirme o modelo ativo. Sonnet como padrão.
Conversas que cobrem dois assuntos distintos: abre um chat novo pro segundo.
No menu de ferramentas da conversa, desligue os conectores MCP que não vai usar naquele chat. O peso vem dos conectores habilitados na conversa; manter conectado nas configurações sem usar custa pouco.

No Claude Code:

/model sonnet no início de toda sessão (ou fixe em ~/.claude/settings.json).
/context como termômetro. Acima de 50% é sinal de alerta; entre 65% e 75% é a janela boa pra /compact. Use /clear quando muda de tarefa.
/clear entre tarefas distintas, sempre.
/cost ao final de sessões longas pra validar se os ajustes funcionaram.
Em tarefas simples, baixe a profundidade de raciocínio com /effort.
claude mcp list de tempos em tempos: as definições de tools dos MCPs entram no contexto de toda sessão. Remova os ociosos com claude mcp remove e deixe MCPs específicos só nos projetos que precisam deles.

Instrução de concisão nos agentes. Um bloco permanente no CLAUDE.md (global em ~/.claude/CLAUDE.md ou na raiz da pasta de trabalho) corta gasto recorrente:

## Economia de tokens
- Seja conciso. Responda o necessário, sem resumos
  do que acabou de fazer, sem preâmbulos.
- Não imprima conteúdo de arquivos de volta no chat;
  diga só o que mudou e onde.
- Leia apenas os arquivos relevantes para a tarefa.
  Nunca varra o vault/repo inteiro sem eu pedir.
- Em tarefas simples, não use subagentes.
- Se a tarefa for ambígua, faça 1 pergunta curta
  antes de executar, em vez de explorar às cegas.

Expectativa realista: concisão corta output, mas a economia maior vem das linhas do meio (não varrer tudo, não reimprimir arquivos), porque o custo dominante de agentes é o input intermediário.

Ritual de monitoramento: Todo início de semana, dois minutos no painel de Usage (Settings → Usage). O painel mostra consumo por superfície. Você vai ver rapidamente se o problema está no Cowork, no Code ou em sessões longas no chat. Qualquer gasto concentrado num dia específico quase sempre foi uma sessão de agente exploratória que podia ter sido mais escopada. Se quiser um guardrail duro, configure um spend limit pessoal no mesmo painel (planos Enterprise permitem limites por organização, grupo e usuário).

O resumo de bolso: Sonnet como padrão, chat novo por tarefa, contexto enxuto nos agentes e dois minutos de Usage por semana. O resto é detalhe.