Por que a IA falha na entrega de software ágil: exemplos e soluções para Engineering Managers
Muitos CTOs depositam grandes expectativas no uso de IA na delivery ágil de software: mais velocidade, mais automação, mais output. Isso muitas vezes é verdade no curto prazo. E, ainda assim, muitos times e CTOs fracassam em comprovar como essa aceleração local se traduz em benefício para o cliente e em valor agregado para o negócio.
O problema é que, no entusiasmo com IA, as empresas otimizam as coisas erradas: mais tokens em vez de mais valor para o cliente, mais código em vez de mais confiança, mais agentes em vez de melhores sistemas de delivery.
Este artigo se conecta de forma deliberada aos nossos outros dois textos:
- IA no desenvolvimento de software ágil: panorama dos estudos 2026 .
- Guia para CTOs e Engineering Managers sobre desenvolvimento de software com IA .
Aqui, o foco é a ponte entre esses dois pontos: por que a IA fracassa na delivery ágil de software na prática? Os exemplos mostrarão concretamente o que os gestores podem fazer e quais soluções realmente sustentam.
TL;DR
- A IA na entrega de software ágil geralmente não falha por falta de uso de ferramentas, mas por lógicas de gestão erradas.
- “Tokenmaxxing” é o sintoma mais visível disso: times otimizam o consumo de IA em vez de flow, qualidade e valor para o cliente.
- Os principais antídotos são responsabilidade clara, um Engineering Harness robusto, ciclos rápidos de feedback dos clientes e aprendizagem organizacional.
Por que a IA na entrega de software ágil otimiza tão frequentemente para o alvo errado
Assim que a IA é introduzida como alavanca de produtividade, acontece em muitas empresas algo muito previsível: o que é mensurável vira objetivo. Isso se reflete na nova tendência Tokenmaxxing. Pragmatic Engineer sobre a tendência Tokenmaxxing
O que isso quer dizer é que empresas ou times tratam, de forma implícita ou explícita, um alto consumo de tokens como sinal de bom uso de IA. Isso é perigoso do ponto de vista econômico e organizacional. Porque tokens são, no máximo, uma medida de entrada, mas não uma medida de valor.
O padrão é antigo. Antes, as “Lines of Code” eram supervalorizadas como métrica; hoje, é o consumo de tokens ou os dashboards de uso de IA. Em ambos os casos, vale uma variante da Lei de Goodhart: assim que uma métrica se torna objetivo, ela perde seu valor como métrica. Martin Fowler sobre Lines of Code como problema de métrica, Wikipedia sobre a Lei de Goodhart
Para a IA na delivery ágil de software, isso significa: quem maximiza a atividade de curto prazo muitas vezes obtém mais atividade de IA. Mas não necessariamente uma melhor delivery ágil de software.
A evidência de estudos sobre isso é desanimadora: no nível individual já se observam efeitos claros de produtividade, mas no nível de equipe e organização há muito menos melhorias robustas e verificáveis. Resumimos os detalhes aqui: Situação dos estudos em 2026 sobre IA no desenvolvimento ágil de software
Quatro exemplos típicos de como a IA fracassa na delivery ágil de software
Como a IA fracassa na delivery ágil de software | Exemplo 1
1. Mais código, mas menos compreensão
A primeira falha é banal: os times produzem muito mais mudanças, mas compreendem de fato uma parcela cada vez menor delas.
Para gestores, isso no começo muitas vezes parece bom:
- mais Pull Requests
- implementações iniciais mais rápidas
- mais histórias “concluídas”
A conta chega mais tarde:
- as revisões ficam mais superficiais
- a responsabilidade se dilui
- a análise de incidentes leva mais tempo
- refatorações são evitadas, porque ninguém tem mais certeza do que pode quebrar e onde
Kent Beck descreve em seu artigo “Trust Factory” que práticas como testes, revisões, refatoração e entrega incremental constroem, acima de tudo, confiança. É exatamente essa confiança que se perde quando a IA produz mais rápido do que o time consegue entender, verificar e assumir como responsabilidade. Kent Beck em Trust Factory sobre confiança em engenharia
Addy Osmani descreve um risco semelhante como Comprehension Debt: quando os times entregam cada vez mais código que já não conseguem mais entender ativamente, a distância entre o sistema e a compreensão cresce a cada mudança. Addy Osmani sobre Comprehension Debt
Exemplo documentado
Em uma reportagem da WIRED do verão de 2025, a revista descreve como a Notion trabalha internamente com codificação por IA. O mais revelador não é apenas a velocidade, mas o modo de trabalho alterado: um cofundador da Notion descreve o uso de apps de coding, de forma aproximada, como gerenciar muitos estagiários ao mesmo tempo. O ser humano, portanto, não fica de fora, mas passa ainda mais a atuar como verificador, classificadora e corretor do output. É exatamente esse o ponto: quando o código gerado cresce mais rápido do que a compreensão compartilhada no time, o trabalho se desloca de implementação para monitoramento, revisão e correção. Reportagem da WIRED sobre a Notion e coding com IA
Isso também se encaixa em achados mais amplos da prática: segundo uma pesquisa da Sonar compilada em 2026, a maioria dos desenvolvedores não confia plenamente na correção funcional de código gerado por IA, e uma parcela significativa considera sua revisão até mais trabalhosa do que a verificação de mudanças escritas por humanos. O problema, portanto, não é apenas a baixa qualidade, mas o esforço adicional de verificação e compreensão. ITPro sobre a pesquisa da Sonar a respeito de Verification Debt
Como a IA fracassa na delivery ágil de software | Exemplo 2
2. Mais output, mas no problema errado
O segundo fracasso é ainda mais caro para as lideranças: a IA reduz o custo de produzir, mas não reduz automaticamente o custo do erro.
Quando as equipes recortam mal os requisitos, validam-nos de forma insuficiente ou apenas os alinham internamente, a IA simplesmente acelera o trabalho errado. Kelsey Hightower resume isso muito diretamente em seu post no LinkedIn: “Productivity doesn’t matter if you’re working on the wrong thing.” Post no LinkedIn de Kelsey Hightower sobre produtividade equivocada
É exatamente nessa direção que Andrew Ng também argumenta em uma conversa muito citada de 2025: a IA acelerou muito o coding, mas com isso o verdadeiro gargalo se desloca. O principal problema agora não é a implementação, e sim a questão do produto:
O que deveríamos construir, afinal, e com que rapidez aprendemos com o feedback real dos usuários?
Fonte: Entrevista do Business Insider com Andrew Ng sobre o gargalo de Product Management
Esse é o motivo pelo qual a IA, na entrega ágil de software, só pode ser bem-sucedida com verdadeira proximidade do cliente. Quando o caminho do prompt ao código fica mais rápido, mas o caminho do código ao feedback do cliente continua lento, apenas aumentam o output e o volume de mudanças.
Também a pesquisa sobre trabalho ágil de produto mostra exatamente esse padrão em outro nível: em um estudo de caso da indústria sobre Agile Epics, os pesquisadores descrevem que requisitos mal definidos levam a churn, atrasos, problemas de qualidade e custos desnecessários. A IA não pode resolver esses gargalos magicamente. No máximo, ela pode materializá-los mais rapidamente. Estudo no ArXiv sobre Agile Epics e qualidade dos requisitos
Por isso, o contraponto decisivo ao uso cego da IA não é menos IA, mas uma entrega ágil melhor. Quem procura as alavancas centrais para isso as encontra aqui: Guia para o futuro do desenvolvimento de software ágil com IA
Como a IA fracassa na entrega ágil de software | Exemplo 3
3. Mais agentes, mas menos responsabilização
Muitas visões de futuro sobre IA na entrega ágil de software parecem atraentes porque tornam a responsabilidade elegantemente invisível: um agente analisa o feedback dos utilizadores, o seguinte escreve os requisitos, o seguinte implementa, o seguinte testa e o seguinte faz o deploy.
Tecnicamente, muita coisa disso é possível. Organizacionalmente, rapidamente se torna difuso.
Especialmente na engenharia de software agentiva, a velha pergunta de gestão precisa, portanto, ser feita com mais rigor: Quem decide? Quem verifica? Quem assume as consequências? A IBM formula o problema fundamental em uma visão geral digna de leitura sobre tomada de decisão com IA: a responsabilidade continua sendo humana, especialmente quando sistemas preparam ou aceleram decisões. IBM sobre responsabilidade na tomada de decisão com IA
Também o AI Agile Manifesto estabelece aqui o contraponto certo: mais inteligência de máquina sem discernimento humano não é progresso, mas um caminho errado. AI Agile Manifesto no original
Exemplo documentado
Esse problema ficou especialmente evidente em 2025 em um caso discutido publicamente envolvendo a Replit. Durante um experimento documentado com um agente de coding de IA, o sistema ignorou um code-freeze, apagou um banco de dados de produção, gerou dados inventados segundo os relatos publicados e apresentou os acontecimentos de forma enganosa. Para a gestão e a governança, o ponto menos decisivo aqui é o erro isolado, e sim a estrutura do erro: o sistema agiu com impacto real, mas responsabilidade, aprovação e controle estavam visivelmente fracos e insuficientemente aplicados. Relatório do Business Insider sobre o incidente na Replit com agente de IA
Por isso, não basta falar apenas de capacidades da ferramenta. Assim que agentes interpretam requisitos, executam mudanças ou até acionam ações próximas da produção, a responsabilidade precisa tornar-se organizacionalmente mais clara e mais visível.
Como a IA fracassa na entrega ágil de software | Exemplo 4
4. Mais produtividade local, mas mais entropia do sistema
O quarto fracasso muitas vezes só se torna visível com atraso: desenvolvedores individuais ou equipas parecem extremamente produtivos, enquanto a organização no seu todo se torna mais lenta.
Isto acontece quando cada um otimiza localmente com IA, mas quase ninguém fortalece o sistema como um todo:
- Os princípios de arquitetura são aplicados de forma inconsistente
- os mesmos problemas são resolvidos várias vezes em paralelo
- os sistemas de revisão e teste são atropelados
- as pipelines de entrega tornam-se um ponto de estrangulamento
- a carga de incidentes e o retrabalho aumentam
Birgitta Böckeler descreve em sua conversa no InfoQ sobre Harness Engineering por que maior autonomia sempre traz também maiores riscos e precisa ser limitada por mecanismos adequados de feedforward e feedback. Podcast do InfoQ com Birgitta Böckeler sobre Harness Engineering
Que isso não seja um risco teórico é mostrado por vários casos que se tornaram públicos. Segundo relatos, a Amazon apertou em 2026 suas guardrails internas após séries graves de incidentes, nos quais também foram citados como fatores contribuintes sistemas agentes ou próximos de IA. A lição tirada disso foi reveladora: mais mudanças documentadas, mais aprovações, mais “controlled friction” em sistemas críticos. Em outras palavras: nem toda aceleração local melhora o sistema como um todo. Às vezes, ela apenas torna suas vulnerabilidades visíveis mais rapidamente. Relato da Business Insider sobre as guardrails de IA reforçadas da Amazon
Uma segunda, diferente forma da mesma entropia pode ser vista no chamado Vibe Coding assistido por IA. A Axios relatou em 2026, com base em pesquisadores de segurança, centenas de milhares de artefatos publicamente acessíveis, incluindo milhares com dados empresariais sensíveis. Aqui não falha principalmente um único prompt, mas o sistema como um todo de padrões, acessos, defaults, entendimento de segurança e governança. Relato da Axios sobre Vibe Coding e artefatos publicamente acessíveis
Em resumo: quanto mais autônoma a IA, mais importante é o enquadramento organizacional e técnico no qual ela მუშაობa.
Porque a produtividade de curto prazo e o tokenmaxxing são a estratégia errada de IA
Algumas lideranças reagem à nova alavancagem da IA com uma conclusão simples: então temos de forçar o mais rapidamente possível o máximo de utilização de IA.
Essa é precisamente a reação de gestão errada.
Porquê?
Porque “short term productivity” neste contexto normalmente quer dizer apenas o seguinte:
- mais código gerado
- mais sessões de IA
- mais consumo de tokens
- mais tarefas resolvidas localmente
Mas tudo isso ainda diz quase nada sobre as perguntas que são realmente decisivas para a IA na entrega ágil de software:
- O problema certo foi resolvido?
- A equipa compreende a mudança?
- A mudança pode ser colocada em produção com segurança?
- O sistema está melhor ou mais frágil após a mudança?
- A organização aprende mais depressa ou apenas de forma mais frenética?
Justamente por isso, Tokenmaxxing é um sinal de alerta tão bom. Ele mostra o que acontece quando as empresas tratam o uso de IA como um fim em si mesmo. Então, os colaboradores maximizam exatamente aquilo que é visivelmente recompensado, mesmo que isso aumente custos, entropia e voo cego. Pragmatic Engineer sobre a tendência Tokenmaxxing
Jez Humble já descreveu de forma clara esse problema de gestão muito antes da onda atual de IA: quando os gestores focam diretamente em produtividade, melhorias de longo prazo muitas vezes justamente não são feitas. Para IA em software delivery ágil, isso se agrava. Jez Humble sobre foco em produtividade e melhorias de longo prazo ausentes
O que funciona em vez disso: quatro soluções robustas para IA em software delivery ágil
1. Manter a responsabilidade explicitamente com as pessoas
A IA pode acelerar, sugerir e aliviar a carga. Mas não pode servir de desculpa para que a responsabilidade pelas decisões e pela qualidade se dilua.
Na prática, isso significa:
- owners claros para arquitetura, segurança e decisões relevantes para o produto
- nenhuma métrica de sucesso que apenas recompense atividade de IA
- regras explícitas de revisão e aprovação para alterações geradas por IA
2. Construir um engineering harness em vez de apenas ferramentas de IA
Muitas equipas investem primeiro em modelos e só por último nas condições sob as quais esses modelos podem trabalhar com segurança. Isso é precisamente o que precisa de ser invertido.
Um harness robusto para IA na entrega ágil de software inclui, por exemplo:
- boas especificações
- pacotes de trabalho pequenos e verificáveis
- testes automáticos
- análise estática
- sandboxes controladas
- contextos de arquitetura claros
- feedback rápido de CI, delivery e produção
Se esse pensamento lhe interessa, OpenSpec e o GitHub Spec Kit também são referências úteis sobre trabalho orientado por especificações com IA: OpenSpec para desenvolvimento de produto orientado por especificações, GitHub Spec Kit para desenvolvimento orientado por especificações
3. Tornar o feedback dos clientes mais rápido do que a produção de código
A IA só é uma alavanca de delivery sustentável se os ciclos de aprendizagem também acelerarem. Caso contrário, produz-se apenas mais depressa algo que continua a afastar-se da realidade.
Isto significa concretamente:
- releases menores
- mais experimentos com ciclos reais de feedback com clientes
- análise mais consistente dos dados de uso de funcionalidades
- avaliação mais rápida de sinais de suporte e de utilização
Quem apenas aumenta a velocidade de codificação, mas não a velocidade e a qualidade do feedback, não está construindo uma organização AI-native, e sim apenas uma “Feature Factory” mais rápida, como descreve John Cutler. Veja: 12 Signs You’re Working in a Feature Factory
4. Levar a sério as retrospecções e os ciclos de aprendizagem
Quando a IA falha na entrega ágil de software, as causas são muitas vezes sistémicas. Nesses casos, pouco ajuda otimizar apenas prompts ou ferramentas individuais.
As equipes precisam de rotinas em que identifiquem padrões recorrentes e os resolvam sistematicamente:
- Onde perdemos compreensão?
- Onde está a aumentar o congestionamento de reviews?
- Onde a IA gera mais retrabalho do que benefício?
- Onde estamos a otimizar a velocidade local à custa do sistema como um todo?
Precisamente por isso as retrospecções continuam relevantes. Não como um ritual do passado do Scrum, mas como um mecanismo para aprendizagem organizacional num ambiente com maior frequência de ცვლილamento.
Conclusão: a IA na entrega ágil de software raramente falha por haver pouca IA
A verdadeira ironia é: muitas organizações não falham com IA porque sejam demasiado cautelosas, mas porque gerem com demasiada miopia.
Elas confundem produtividade de curto prazo com criação sustentável de valor e melhoria do sistema de delivery. Elas confundem consumo de tokens com criação de valor. Elas confundem geração autônoma de código com maturidade organizacional.
A melhor pergunta orientadora, por isso, não é: “Como é que levamos as nossas equipas a usar ainda mais IA?”
Mas sim:
- Em que condições é que a IA realmente melhora a nossa delivery?
- Onde a IA está criando agora novos gargalos na cadeia de valor?
- Onde a IA está expondo falhas sistêmicas que precisamos corrigir?
- Que capacidades organizacionais temos de fortalecer para que a aceleração não se transforme em entropia?
Se você quiser primeiro a evidência mais sóbria, continue lendo aqui: base de estudos sobre IA no desenvolvimento ágil de software .
Se você procura diretamente alavancas de gestão, continue aqui: Guia para CTOs e Engineering Managers sobre IA no desenvolvimento ágil de software .
FAQ sobre IA na entrega ágil de software
Por que a IA dá mais output para a minha equipe, mas não uma delivery melhor?
Porque mais output não significa automaticamente melhor delivery. Se revisões, testes e feedback não acompanham, a complexidade é o que mais aumenta.
O que significa Tokenmaxxing no desenvolvimento de software com IA?
Tokenmaxxing significa transformar o uso de IA ou o consumo de tokens em objetivo. Isso mede atividade, mas não valor.
O que os Engineering Managers deveriam fazer, em vez de apenas empurrar a produtividade de IA?
Eles deveriam fortalecer responsabilidade, testes, revisões e ciclos de feedback. Só isso torna a IA útil no longo prazo.
Equipes com muito suporte de IA ainda precisam de rituais ágeis?
Sim, mas com outro foco. Menos manutenção de status, mais feedback, aprendizado e melhoria contínua.
Como faço, como Engineering Manager, para medir se a IA realmente traz algo para o desenvolvimento de software?
Meça Lead Time, esforço de revisão, taxa de erros e benefício para o cliente. Output puro não basta.
Por que minha equipe fica mais rápida com IA, mas os resultados não melhoram?
Porque mais código não gera automaticamente melhores resultados. Sem revisões, testes e feedback adequados, só aumenta a entropia.
Quais KPIs devo realmente acompanhar para IA no desenvolvimento de software?
Acompanhe tempo de ciclo, taxa de defeitos, retrabalho, segurança de deployment e tempo até o feedback do cliente. Tokens sozinhos dizem pouco.
Como evito que código gerado por IA venha a travar minha equipe depois?
Mantenha as mudanças pequenas, teste-as bem e exija uma revisão clara. A IA pode trazer velocidade, mas não pode substituir o entendimento.