2026-03-05 06:48:35

o mito de que o python "gerencia a memória para você" é a razão pela qual seus agentes ficam sem memória (OOM) após 4 horas de uptime

executei 24 multi-agentes em paralelo no mês passado, consumindo 10x mais tokens do que uma única sessão por ZERO output utilizável
o verdadeiro problema não eram os tokens, mas a memória que ninguém estava monitorando
python usa contagem de referências mais um coletor de lixo cíclico. parece bem até você carregar arrays numpy através de extensões C que não decrementam referências corretamente. esses objetos NUNCA são coletados. eles simplesmente ficam lá, crescendo, silenciosos
a cada 100 tokens de contexto que seu agente de longa duração processa, há uma nova alocação de tensor que pode não ser liberada. multiplique isso por 24 sessões simultâneas e você está vazando 400MB/h em um dia bom
> basta adicionar mais RAM
sim, isso custa $30k/mês em computação para compensar algo que tracemalloc teria detectado em 10 minutos.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.