Gestão de tokens — você é gestor de processamento

Certa manhã o Hélio me mandou uma mensagem reclamando que o plano Pro “não era suficiente” para ele. Estava consumindo rápido demais e ficando parado. A linguagem usada na mensagem era mais colorida do que vou reproduzir aqui — sobraram até umas palavras para a Anthropic.

Reconheço esse momento em todos os meus alunos. E a solução não é trocar de plano.

O que são tokens

Tokens são a unidade de processamento do Claude — a forma como o modelo conta o que entra e o que sai. Palavras, símbolos, espaços — tudo é convertido em tokens antes do processamento.

Quando você tem um plano Pro, tem uma cota de tokens por período. Gastar rápido demais não significa que o plano é insuficiente — significa que você está usando tokens de uma forma que não escala.

A boa notícia: a maioria dos padrões de alto consumo são evitáveis quando você organiza o trabalho de outro jeito.

Os cinco sinais de alto consumo

Reconhecer esses sinais antes que a janela esgote é o primeiro passo para gerir melhor.

Conversa longa sem fechar em arquivo. Mensagem após mensagem, contexto crescendo dentro da conversa, sem gerar um artefato revisável. Quanto mais longa a conversa, mais tokens são usados a cada nova mensagem para reprocessar tudo que veio antes.

Refazer o mesmo trabalho em conversas diferentes. Se você recria o contexto do zero toda vez, está pagando em tokens o que poderia ter sido documentado uma vez. A falta de ambiente aparece no consumo.

Subir o mesmo arquivo várias vezes. Ausência de ambiente centralizado. O arquivo existe, mas não está no lugar certo para o Claude encontrar sozinho.

Várias revisões da mesma coisa. A calibragem inicial não foi feita. O Claude assumiu algo errado no começo — a cascata de presunção se manifestando no consumo de tokens.

Conversa que não fecha em artefato. Você termina a sessão sem um arquivo revisável como saída. Não há registro do que foi decidido, e na próxima conversa você recomeça.

A regra por momento

A escolha do modelo impacta diretamente no consumo e no resultado. A regra não é por tipo de tarefa — é por momento de trabalho.

Opus quando você está construindo estrutura — escrevendo um processo do zero, montando uma especificação, fazendo um brainstorm denso que exige análise de contexto. É o modelo mais caro e mais capaz para esse tipo de tarefa.

Sonnet quando você está executando o que já foi documentado. A tarefa tem um CLAUDE.md pronto, a lógica está clara. Sonnet executa mais rápido, custa menos, e entrega bem nesse cenário.

Haiku para mecânicas simples — carregar o contexto da pasta, resumir um documento, extrair uma informação específica. Tarefas que não exigem análise profunda.

A história do Hélio ilustra bem: ele estava reclamando do consumo durante a fase de construção — criando pastas, escrevendo processos, tentando organizar o ambiente. Nesse momento, Opus faz sentido. Quando ele passou a ter estrutura básica, pedi para mudar para Sonnet. O consumo caiu. O resultado melhorou.

O ciclo que economiza

A abordagem que mais reduz consumo é preparar o trabalho antes de executar.

Você escreve em arquivo o que quer resolver — contexto, referências, objetivo. Depois pede ao Claude para ler o arquivo e executar. O contexto já está no arquivo, não precisa ser reconstruído mensagem a mensagem dentro da conversa.

É uma forma diferente de trabalhar. Exige um passo a mais no começo — escrever em vez de só digitar no chat. Mas o resultado é mais preciso, o consumo é menor, e o arquivo que você escreveu fica documentado para a próxima vez.

Essa é a ideia que aparece em todo o método: preparamos o contexto fora da conversa, usamos a conversa para executar, colhemos o resultado em arquivo. Não tem nome especial — é só a lógica de trabalhar com a ferramenta de um jeito que escala.

Estou ministrando mentorias para profissionais de diversas áreas que estão começando nessa ideia. Se não quer percorrer esse caminho sozinho, é só me chamar.