Skip to content

2025: O Ano em que os Agentes de IA Ficaram Reais

Published: at 08:00 AMSuggest Changes

Há um ano, os agentes de IA ainda engatinhavam. Frameworks se multiplicavam, mas usos reais em produção eram raros. A maioria dos “agentes” eram chatbots “hypados” com acesso a ferramentas.

Hoje? Temos agentes controlando navegadores, modelos de raciocínio híbrido e um ecossistema que finalmente chega mais perto de infraestrutura real.

Em 2025 utilizei boa parte do meu tempo livre construindo agentes que precisam funcionar de verdade. Aqui está minha visão sobre o que realmente aconteceu, o que funcionou e o que vem por aí.

Janeiro: O Mês que Mudou Tudo

2025 começou com um grande anúncio, na verdade, dois.

O DeepSeek R1 foi lançado em 20 de janeiro, e o mundo da IA não foi mais o mesmo. Um laboratório chinês lançou um modelo de raciocínio open-source que igualava o o1 da OpenAI por uma fração do custo. Quando os mercados abriram em 27 de janeiro, a Nvidia perdeu quase $600 bilhões em um único dia, a maior perda de valor de mercado da história. A narrativa de que os laboratórios americanos tinham uma vantagem insuperável? Destruída da noite para o dia.

O DeepSeek provou que você não precisa de $100 bilhões para construir IA de fronteira. Eles treinaram modelos competitivos por milhões, não bilhões. As implicações ainda estão reverberando pela indústria.

Três dias antes do caos nos mercados, a OpenAI lançou o Operator (23 de janeiro): seu primeiro agente controlador de browsers. Não apenas clicando em botões, mas navegando fluxos complexos, preenchendo formulários e lidando com a realidade caótica da web. Provou que o conceito estava pronto, mesmo que os primeiros usuários relatassem dificuldades com CAPTCHAs e conteúdo dinâmico.

Fevereiro: O Avanço Híbrido da Anthropic

O Claude 3.7 Sonnet chegou em 24 de fevereiro, e introduziu algo novo: raciocínio híbrido. Este foi o primeiro modelo que podia escolher quando “pensar rápido” e quando “pensar devagar”. Para agentes, isso é gigante. Nem todo passo precisa de raciocínio profundo, mas alguns absolutamente precisam. Deixar o modelo decidir é mais eficiente do que forçar pensamento estendido em tudo.

Junto com ele veio o Claude Code, uma ferramenta de codificação que vive no seu terminal. Não apenas autocomplete: um agente que entende sua base de código e executa tarefas de múltiplos passos. Até o final do ano, o Claude Code tinha se tornado infraestrutura essencial para desenvolvedores construindo agentes.

Primavera: As Guerras do Raciocínio

16 de abril trouxe os o3 e o4-mini da OpenAI: seus modelos de raciocínio mais avançados até então, e os primeiros que podiam usar ferramentas diretamente em uma abordagem agêntica. Navegação web, geração de imagens, compreensão visual, tudo integrado na cadeia de raciocínio. A lacuna entre “modelo” e “agente” começou a se confundir.

22 de maio viu o Claude 4 chegar com variantes Opus e Sonnet. O Claude Opus 4 podia trabalhar autonomamente por até sete horas em tarefas complexas. Isso não era um chatbot: era um colega de trabalho. A Anthropic o posicionou diretamente para fluxos de trabalho agênticos, e ele entregou.

O DeepSeek continuou avançando também. V3-0324 em março, depois R1-0528 no final de maio. Eles permaneceram na fronteira mantendo custos dramaticamente mais baixos que as alternativas americanas.

Verão: GPT-5 Finalmente Chega

Depois de 2,5 anos de espera, o GPT-5 foi lançado em 7 de agosto. Não apenas um único modelo, uma família inteira: GPT-5, GPT-5-mini, GPT-5-nano e GPT-5-chat. Cada um projetado para casos de uso específicos, de tarefas leves em mobile a conversas de nível empresarial.

Os primeiros benchmarks mostraram que o GPT-5 foi o primeiro modelo a superar humanos no SimpleBench, pontuando 90% contra a pontuação média humana de 83%. Os ganhos em raciocínio lógico, resolução de problemas em múltiplos passos e retenção de memória foram significativos.

Dez dias depois, o ChatGPT Agent chegou (17 de julho). O produto de agente mais capaz da OpenAI: podia completar tarefas online complexas, conduzir pesquisas em sites e ferramentas conectadas, preencher formulários, editar planilhas e saber quando pedir input humano. A funcionalidade do Operator foi incorporada. O agente de navegador independente se tornou um recurso completo da plataforma.

Outono: Claude Opus 4.5 Eleva o Padrão

24 de novembro trouxe o Claude Opus 4.5: e foi um avanço. O novo carro-chefe da Anthropic pontuou 80,9% no SWE-bench Verified, esmagando o GPT-5.1 Codex Max (77,9%) e o Gemini 3 Pro (76,2%). Mas os benchmarks contam apenas parte da história.

O que tornou o Opus 4.5 especial foi sua eficiência. Ele usa dramaticamente menos tokens que seus predecessores para alcançar resultados similares ou melhores. Para construtores de agentes, isso importa—menos tokens significa custos mais baixos e execução mais rápida. A Anthropic também introduziu o controle de esforço, permitindo que desenvolvedores ajustem o quanto o modelo pensa com base na complexidade da tarefa.

Talvez o mais impressionante: o Opus 4.5 superou todos os candidatos humanos já avaliados no notoriamente difícil teste técnico da Anthropic para vagas de engenharia de performance. Isso não era mais apenas reconhecimento de padrões.

A Anthropic o chamou de “o modelo mais robustamente alinhado que lançamos até hoje”, com resistência melhorada a injeção de prompts e taxas reduzidas de comportamento preocupante. Para agentes operando autonomamente, alinhamento não é opcional.

Dezembro: O Retorno do Google e o Nascimento da AAIF

Bem quando você pensava que o ano estava acabando, dezembro trouxe dois desenvolvimentos massivos.

Google lançou o Gemini 3 Flash em 17 de dezembro. Depois de um 2024 difícil, o Google voltou com força. O Gemini 3 Flash alcançou pontuações incríveis no MMMU-Pro (81,2%) e estabeleceu novos benchmarks em codificação e raciocínio. A velocidade era notável: inteligência de ponta e que realmente escala. Empresas como JetBrains, Cursor, Replit e Figma o integraram imediatamente.

Mas a história maior pode ser o que aconteceu em 9 de dezembro: a Agentic AI Foundation (AAIF) nasceu.

Anthropic, OpenAI e Block se uniram sob a Linux Foundation para criar um lar neutro para IA agêntica open-source. As contribuições fundadoras contam a história:

Isso é enorme. Os três maiores players em agentes de IA concordando em padrões abertos e governança neutra? Isso é infraestrutura amadurecendo. Isso é o ecossistema crescendo.

A AAIF não é apenas sobre código: é sobre garantir que a IA agêntica se desenvolva como um ecossistema colaborativo onde nenhuma empresa domine. Para nós que construímos sistemas de agentes, isso significa mais interoperabilidade, mais ferramentas compartilhadas e menos vendor lock-in.

MCP: De Protocolo a Padrão

A Anthropic lançou o Model Context Protocol (MCP) em novembro de 2024, e 2025 foi o ano em que ele se tornou o padrão. O MCP nos dá uma forma universal de conectar sistemas de IA a ferramentas externas: bancos de dados, APIs, ambientes de desenvolvimento, qualquer coisa.

A OpenAI o adotou. IDEs o integraram. Até meados do ano, havia conectores MCP para tudo, do Slack ao GitHub a bancos de dados empresariais. O problema “como conecto meu agente a ferramentas?” está basicamente resolvido.

Com a transição do MCP para a governança da AAIF, agora é um verdadeiro padrão aberto, não controlado por nenhuma empresa. A Bloomberg já está estendendo-o para serviços financeiros regulados. É assim que infraestrutura madura se parece.

Padrões que Venceram

Human-in-the-loop se tornou inegociável. O sonho do agente totalmente autônomo não morreu, mas ficou realista. O padrão vencedor: agentes que fazem 90% autonomamente e sabem quando pedir ajuda. Isso não é uma limitação, é bom design.

Arquiteturas de memória amadureceram. Aprendemos que agentes precisam de três tipos de memória:

Bancos de dados vetoriais são apenas uma peça. O verdadeiro desafio é decidir o que lembrar, quando esquecer e como recuperar o contexto certo.

Observabilidade passou de nice-to-have para essencial. Você não pode debugar o que não pode ver. LangSmith, Braintrust e soluções customizadas se tornaram essenciais. Se você está construindo agentes sem tracing, está voando às cegas.

O que Ainda Não Funciona Bem

Planejamento de longo prazo continua difícil. Agentes executando 20+ passos ainda desviam, perdem o rastro dos objetivos, ficam presos em loops. A solução não são modelos melhores. São arquiteturas melhores: checkpointing, gates de revisão humana, recuperação graciosa.

Custos se acumulam rápido. Claude Opus 4.5 e GPT-5 não são baratos. Multiplique por retentativas, contextos longos e setups multi-agente, e você está diante de uma fature enorme. Otimização de custos se tornou uma habilidade essencial, saber quando usar um modelo menor, quando rotear para o DeepSeek, como cachear efetivamente.

Testes ainda não foram resolvidos. Como você testa algo não-determinístico? Temos ferramentas melhores: frameworks de avaliação, datasets golden, abordagens de LLM-como-juiz. Mas nenhuma abordagem ainda consolidada.

O que Vem em 2026

A pergunta muda de “podemos construir agentes?” para “por que isso não é um agente?”

AAIF acelera a padronização. Com MCP, Goose e AGENTS.md sob governança neutra, espere crescimento rápido do ecossistema. Mais conectores, mais frameworks adotando os padrões, mais interoperabilidade entre ferramentas.

Agentes multimodais se tornam práticos. Visão + ferramentas + raciocínio é a combinação. Agentes que podem ver sua tela, entender contexto e agir. 2025 foi o preview; 2026 é o evento principal.

Consolidação de frameworks. A explosão de frameworks de agentes vai se firmar. LangChain, CrewAI, AutoGen, LangGraph, vencedores vão emergir. Minha aposta: os que ficarem próximos da ideia original, das “foundations” de AI ao invés de abstrair demais.

O fator China. O DeepSeek provou que IA de fronteira não é um monopólio americano. Espere mais surpresas de laboratórios chineses, mais lançamentos open-source e pressão contínua nos preços.

Regulação chega. O EU AI Act veio pra ficar. Agentes que tomam ações no mundo real vão enfrentar escrutínio. Documentação, auditoria e explicabilidade se tornam requisitos.

Conclusão

2025 provou que agentes de IA são infraestrutura, não mágica. O DeepSeek provou que você não precisa de bilhões para competir. O Google provou que comebacks são possíveis. A Anthropic provou que alinhamento e capacidade podem avançar juntos. A AAIF provou que competidores podem colaborar em infraestrutura compartilhada. E todos provaram que as demos acabaram: agora construímos coisas que funcionam.

As empresas que venceram não foram as com os prompts mais avançados. Foram as que trataram agentes como software: com engenharia adequada, observabilidade, testes e iteração.

Que ano, meus amigos.


Qual foi seu maior aprendizado sobre agentes de IA em 2025? Adoraria te ouvir. Me encontre no X ou LinkedIn.


Post Anterior
O Agent Harness: Por Que 2026 é Sobre Infraestrutura, Não Inteligência
Próximo Post
O Problema da Memória em Agentes de IA