Existe uma premissa crescente no mundo de IA de que o futuro dos agentes e self-hosted. Da pra sentir isso em todos os lugares: modelos open-source, OpenClaw, demos do Hugging Face, stacks DIY, VPSs alugados, deploys on-prem, e um fluxo infinito de screenshots de agentes rodando em laptops, Mac minis e servidores caseiros. A vibe e clara. Se agentes estao se tornando reais, entao certamente o destino final e que todo mundo vai rodar os seus.
Eu acho que essa e a conclusao errada. O que estamos vendo e real, importante e empolgante. Mas estamos confundindo uma fase de bootstrap com uma arquitetura de destino. E, mais importante, o debate esta focando demais em onde a inferencia roda, enquanto a pergunta real e quem assume o peso operacional dos sistemas de agentes.
Por que self-hosted parece ser o futuro agora
O movimento self-hosted nao e irracional. Ele esta crescendo por bons motivos. O OpenClaw e explicitamente posicionado como um assistente pessoal de IA que roda nos seus proprios dispositivos. Modelos abertos estao melhorando. As ferramentas estao evoluindo. Rodar sistemas serios de IA fora dos grandes labs parece mais possivel do que nunca. Para builders, pesquisadores e power users tecnicos, isso e genuinamente energizante.
Existe tambem uma narrativa mais profunda por baixo de tudo isso: controle. Controle sobre dados, custos, comportamento e onde o sistema roda. Essa e uma reacao completamente compreensivel em um mercado onde a infraestrutura de agentes ainda e imatura, a confianca ainda esta se formando, e muitos produtos de IA hospedados parecem rasos, limitados ou caros demais.
Mas nada disso prova que self-hosting e o padrao de longo prazo. So prova que quando as plataformas sao imaturas, os builders encontram caminhos alternativos. Isso ja aconteceu muitas vezes antes, e o padrao que se segue merece ser examinado.
O padrao e familiar
Quando a camada de infraestrutura e jovem, as pessoas tendem a fazer tudo por conta propria. Rodam seus proprios servidores, hospedam seus proprios arquivos, gerenciam seus proprios pipelines. Montam seu proprio stack porque a camada gerenciada ainda nao e boa o suficiente.
Cloud storage e a analogia mais proxima, embora nenhuma analogia seja perfeita. NAS, backups caseiros, Synology, file storage on-prem: para alguns usuarios, essas sao solucoes excelentes. Mas a ascensao do cloud storage nao foi revertida pelo fato de que entusiastas podiam armazenar dados localmente. A nuvem ganhou o mainstream porque removeu o peso operacional e empacotou confiabilidade, acesso, sincronizacao, compartilhamento, recuperacao e conveniencia em software. O armazenamento self-managed nao desapareceu. Encontrou seu nicho. O padrao merece ser levado a serio: quando a camada gerenciada e imatura, usuarios tecnicos tendem a fazer tudo por conta propria, e uma vez que a plataforma se torna boa o suficiente, o mainstream migra para a abstracao.
Eu acho que agentes de IA vao seguir a mesma trajetoria. Agentes self-hosted vao absolutamente existir e ter relevancia. Mas quando digo “self-hosted”, estou agrupando mundos muito diferentes: setups de hobbyistas em laptops, agentes hospedados em VPS, deploys enterprise on-prem serios e agentes local-first em dispositivos. Sao categorias diferentes com motivacoes diferentes, mas compartilham uma premissa subjacente: a de que a resposta de longo prazo e rodar o stack de agentes por conta propria. Essa premissa e o que estou questionando.
O verdadeiro gargalo
Uma razao pela qual as pessoas estao se empolgando demais e que demos de agentes estao fazendo a coisa errada parecer a coisa principal. Um demo self-hosted e cativante porque parece magico. Voce instala algo, conecta um modelo, aponta pra um canal, e de repente sua propria maquina esta fazendo trabalho real. Parece que o futuro chegou mais cedo.
Mas demos provam que algo e possivel, nao que e sustentavel em escala. A pergunta real nao e se um agente pode rodar localmente. E o que e necessario para operar um agente de forma confiavel ao longo do tempo. Porque uma vez que agentes se tornam uteis, as pessoas nao querem apenas que eles respondam prompts. Querem que rodem continuamente, mantenham contexto, chamem ferramentas, sobrevivam a falhas, gerenciem permissoes, lidem com secrets, coordenem com sistemas e tomem acoes de forma segura. Isso nao e mais apenas inferencia. Isso e infraestrutura de software.
E infraestrutura e onde o verdadeiro gargalo mora. A restricao de longo prazo em agentes de IA nao e se os pesos sao abertos ou se um modelo roda no seu laptop. A parte dificil e tudo ao redor do modelo: manter agentes rodando de forma confiavel, gerenciar estado e memoria, impor permissoes, recuperar de falhas, observar o que aconteceu e por que, controlar custos, e tornar todo o sistema auditavel e governavel em producao.
Eu vejo isso diretamente no meu trabalho construindo sistemas de agentes para compliance empresarial. Um agente que raciocina brilhantemente nao e especialmente util em um contexto enterprise se nao consegue manter uma trilha de auditoria, impor quem aprovou qual acao, ou operar dentro de limites de politica. O modelo sozinho nao e o moat. A camada de orquestracao, a camada de governanca, o backbone operacional: e ali que a vantagem real de engenharia se acumula. E uma vez que voce olha para agentes por essa lente, a tese de self-hosted-por-padrao comeca a parecer muito mais fraca. A maioria das pessoas nao quer de fato operar infraestrutura de agentes. Elas querem o resultado.
SaaS nao vai terceirizar seu futuro para os servidores dos clientes
Essa e a parte que mais importa para onde o mercado esta indo.
Se agentes de IA se tornarem uma parte fundamental do software, empresas SaaS nao vao dizer aos clientes: “Otima noticia. Para usar nossos agentes de IA, por favor provisione a infraestrutura, gerencie o runtime, mantenha o uptime, conecte a orquestracao e mantenha todo o sistema vivo.” Isso nao e estrategia de produto. Isso e transferencia de responsabilidade.
O resultado mais provavel e que empresas SaaS vao construir suas proprias camadas de agentes dentro dos seus produtos e entrega-las da mesma forma que software tem sido entregue nas ultimas duas decadas: como sistemas gerenciados. Nao porque local ou on-prem sao invalidos. Nao porque empresas nunca vao precisar de deploys privados. Mas porque o centro de gravidade do software continua sendo conveniencia, confiabilidade e abstracao. E agentes aumentam dramaticamente o valor dessas abstracoes.
Aqui esta a parte contraintuitiva: quanto mais autonomo o software se torna, menos a maioria dos clientes vai querer operar a maquinaria por baixo dele. Autonomia aumenta a area de superficie de coisas que podem dar errado. Isso torna a confiabilidade operacional mais importante, nao menos. E confiabilidade operacional em escala e exatamente o que plataformas gerenciadas sao construidas para entregar.
O futuro hibrido
Para ser claro, nao estou argumentando contra IA self-hosted. Existem razoes legitimas para deploys locais e on-prem: privacidade, latencia, workflows offline, experiencias nativas de dispositivo, ambientes regulados, residencia de dados, requisitos de soberania. As proprias grandes plataformas de nuvem descrevem o mundo dessa forma. A propria orientacao da AWS apresenta um modelo de execucao em camadas, onde device edge e network edge lidam com processamento local ou sensivel a latencia, enquanto o cloud core lida com inferencia pesada, orquestracao, raciocinio de agentes e pipelines de RAG.
A distincao importante e entre possibilidade arquitetural e padrao de mercado. Nao sao a mesma coisa. Local e self-hosted sao opcoes arquiteturais reais. Fazem parte de um futuro hibrido cujo backbone operacional vai, na maioria dos casos, viver em infraestrutura gerenciada. O argumento aqui nao e contra self-hosting como modo. E contra self-hosting como a tese padrao de para onde o software de agentes esta caminhando.
Para onde eu vejo isso indo
Aravind Srinivas argumentou recentemente que a “maior ameaca a um data centre” e a inteligencia sendo empacotada localmente no dispositivo, reduzindo a necessidade de inferencia centralizada. Eu entendo a intuicao, e parte desse futuro vai absolutamente acontecer. Inteligencia on-device vai melhorar. Agentes self-hosted vao ficar melhores. Modelos abertos vao continuar mudando a economia do acesso.
Mas o lado cloud nao esta parado. O Google Cloud ja esta trabalhando na “fronteira eficiente” de inferencia LLM: roteamento, batching, quantizacao, decodificacao especulativa, caminhos desagregados de prefill/decode. Esse e o tipo de trabalho de sistemas que transforma infraestrutura de IA cara e desajeitada em algo de grau industrial. A camada de plataforma esta compondo, e conforme isso acontece, muitas das razoes atuais para self-hosting por padrao vao enfraquecer.
A arquitetura vai se tornar mais flexivel. O centro de gravidade operacional vai permanecer em plataformas gerenciadas. Foi isso que aconteceu em storage, foi isso que aconteceu em entrega de software, e eu suspeito que e isso que vai acontecer em infraestrutura de agentes tambem.
Essa e a direcao que estou construindo no meu proprio trabalho. Nao porque self-hosting esta errado, mas porque a oportunidade real esta em tornar software agentico confiavel, governavel e seguro para conectar a sistemas reais. O problema dificil nunca foi fazer um agente rodar. Foi torna-lo entediante o suficiente para confiar.
No final, o mercado raramente recompensa a arquitetura que e mais empolgante de montar. Ele recompensa aquela que faz sistemas poderosos parecerem entediantemente confiaveis.
Sou CPTO na Complyance, construindo software de compliance AI-first onde governanca de agentes e o produto. Tambem construo agentes autonomos como side project para automacao pessoal e aprendizado. Mais sobre agentes de IA aqui. Me encontre no LinkedIn ou X.