Warum KI in agiler Software Delivery scheitert: Beispiele und Lösungen für Engineering Manager
Viele CTOs versprechen sich viel von der Nutzung von KI in agiler Software Delivery: Mehr Geschwindigkeit, mehr Automatisierung, mehr Output. Das stimmt oft kurzfristig. Und trotzdem scheitern viele Teams und CTOs daran zu belegen, wie sich diese lokale Beschleunigung in Kundennutzen und Mehrwert fürs Geschäft übersetzt.
Das Problem ist, dass Unternehmen im KI-Enthusiasmus die falschen Dinge optimieren: Mehr Tokens statt mehr Kundennutzen, mehr Code statt mehr Vertrauen, mehr Agenten statt bessere Delivery-Systeme.
Dieser Artikel schließt bewusst an unsere beiden anderen Beiträge an:
- KI in agiler Softwareentwicklung: Studienlage 2026 .
- Leitfaden für CTOs und Engineering Manager zur KI-gestützten Softwareentwicklung .
Hier geht es um die Brücke dazwischen: Warum scheitert KI in agiler Software Delivery in der Praxis? Die Beispiele werden konkret zeigen, was Manager tun können und welche Lösungen wirklich tragen.
TL;DR
- KI in agiler Software Delivery scheitert meist nicht an zu wenig Tool-Nutzung, sondern an falschen Steuerungslogiken.
- “Tokenmaxxing” ist dafür das sichtbarste Symptom: Teams optimieren auf KI-Verbrauch statt auf Flow, Qualität und Kundennutzen.
- Die wichtigsten Gegenmittel sind klare Verantwortung, ein belastbares Engineering-Harness, schnelle Kundenfeedbackschleifen und organisationales Lernen.
Warum KI in agiler Software Delivery so oft am falschen Ziel optimiert
Sobald KI als Produktivitätshebel eingeführt wird, passiert in vielen Unternehmen etwas sehr Vorhersehbares: Das Messbare wird zum Ziel. Das spiegelt sich im neuen Trend Tokenmaxxing wieder. Pragmatic Engineer über den Trend Tokenmaxxing
Gemeint ist damit, dass Unternehmen oder Teams einen hohen Tokenverbrauch implizit oder explizit als Zeichen von guter KI-Nutzung behandeln. Das ist betriebswirtschaftlich wie organisatorisch gefährlich. Denn Tokens sind höchstens ein Input-Maß, aber kein Wertmaß.
Das Muster ist alt. Früher wurden “Lines of Code” als Metrik überschätzt, heute eben Tokenverbrauch oder Dashboards zur KI-Nutzung. In beiden Fällen gilt eine Variante von Goodhart’s Law: Sobald eine Metrik zum Ziel wird, verliert sie ihren Wert als Metrik. Martin Fowler zu Lines of Code als Metrikproblem, Wikipedia zu Goodhart’s Law
Für KI in agiler Software Delivery heißt das: Wer kurzfristige Aktivität maximiert, bekommt oft mehr KI-Aktivität. Aber nicht automatisch bessere agile Software Delivery.
Die Studienlage dazu ist ernüchternd: Auf individueller Ebene sieht man bereits deutliche Produktivitätseffekte, auf Team- und Organisationsebene dagegen deutlich weniger belastbare Verbesserungen. Die Details dazu haben wir hier zusammengefasst: Zur Studienlage 2026 zu KI in agiler Softwareentwicklung
Vier typische Beispiele, wie KI in agiler Software Delivery scheitert
Wie KI in agiler Software Delivery Scheitert | Beispiel 1
1. Mehr Code, aber weniger Verständnis
Das erste Scheitern ist banal: Teams produzieren deutlich mehr Änderungen, aber verstehen einen sinkenden Anteil davon wirklich.
Für Manager sieht das am Anfang oft gut aus:
- mehr Pull Requests
- schnellere erste Implementierungen
- mehr Storys “fertig”
Die Gegenrechnung kommt später:
- Reviews werden oberflächlicher
- Ownership verwässert
- Incident-Analyse dauert länger
- Refactorings werden vermieden, weil niemand mehr sicher ist, was wo kaputtgehen könnte
Kent Beck beschreibt in seinem Artikel “Trust Factory”, dass Praktiken wie Tests, Reviews, Refactoring und inkrementelle Lieferung vor allem Vertrauen aufbauen. Genau dieses Vertrauen bricht weg, wenn KI schneller produziert, als das Team verstehen, prüfen und verantworten kann. Kent Beck in Trust Factory über Vertrauen im Engineering
Addy Osmani beschreibt ein ähnliches Risiko als Comprehension Debt: Wenn Teams immer mehr Code ausliefern, den sie nicht mehr aktiv durchdringen, wächst mit jeder Änderung die Distanz zwischen System und Verständnis. Addy Osmani über Comprehension Debt
Dokumentiertes Beispiel
In einer Reportage von WIRED aus dem Sommer 2025 beschreibt das Magazin, wie Notion intern mit KI-Coding arbeitet. Besonders aufschlussreich ist dabei nicht nur die Geschwindigkeit, sondern das veränderte Arbeitsbild: Ein Mitgründer von Notion beschreibt die Nutzung von Coding-Apps sinngemäß wie das Management vieler Praktikanten gleichzeitig. Der Mensch bleibt also nicht außen vor, sondern wird stärker zum Prüfer, Einordner und Korrigierer von Output. Genau das ist der Punkt: Wenn der erzeugte Code schneller wächst als das gemeinsame Verständnis im Team, verschiebt sich die Arbeit von Implementierung zu Überwachung, Review und Reparatur. WIRED-Reportage zu Notion und KI-Coding
Das passt auch zu breiteren Befunden aus der Praxis: Laut einer 2026 zusammengefassten Sonar-Erhebung vertrauen die meisten Entwickler der funktionalen Korrektheit von KI-generiertem Code nicht vollständig, und ein erheblicher Teil empfindet dessen Review sogar als aufwendiger als das Prüfen menschlich geschriebener Änderungen. Das Problem ist also nicht nur schlechte Qualität, sondern zusätzlicher Verifikations- und Verständnisaufwand. ITPro zur Sonar-Erhebung über Verification Debt
Wie KI in agiler Software Delivery Scheitert | Beispiel 2
2. Mehr Output, aber am falschen Problem
Das zweite Scheitern ist für Führungskräfte noch teurer: KI reduziert die Kosten des Produzierens, aber nicht automatisch die Kosten des Irrtums.
Wenn Teams Anforderungen schlecht geschnitten, unzureichend validiert oder nur intern abgestimmt haben, beschleunigt KI einfach die falsche Arbeit. Kelsey Hightower bringt das in seinem LinkedIn-Post sehr direkt auf den Punkt: “Productivity doesn’t matter if you’re working on the wrong thing.” LinkedIn-Post von Kelsey Hightower zu falscher Produktivität
Genau in diese Richtung argumentiert auch Andrew Ng in einem 2025 viel zitierten Gespräch: KI habe Coding stark beschleunigt, aber dadurch verlagere sich der eigentliche Engpass. Nicht die Umsetzung sei nun das Hauptproblem, sondern die Produktfrage:
Was sollten wir überhaupt bauen, und wie schnell lernen wir aus echtem Nutzerfeedback?
Quelle: Business-Insider-Gespräch mit Andrew Ng zum Product-Management-Engpass
Das ist der Grund, warum KI in agiler Software Delivery nur mit echter Kundennähe erfolgreich sein kann. Wenn der Weg vom Prompt zum Code schneller wird, der Weg vom Code zum Kundenfeedback aber langsam bleibt, steigen nur Output und Änderungsvolumen.
Auch Forschung aus der agilen Produktarbeit zeigt genau dieses Muster auf einer anderen Ebene: In einer Industry-Case-Study zu Agile Epics beschreiben Forschende, dass schlecht definierte Anforderungen zu Churn, Verzögerungen, Qualitätsproblemen und unnötigen Kosten führen. KI kann solche Engpässe nicht magisch auflösen. Sie kann sie höchstens schneller materialisieren. ArXiv-Studie zu Agile Epics und Anforderungsqualität
Deshalb ist der entscheidende Gegenpol zu blindem KI-Einsatz nicht weniger KI, sondern bessere agile Delivery. Wer die übergreifenden Hebel dafür sucht, findet sie hier: Leitfaden zur Zukunft KI-gestützter agiler Softwareentwicklung
Wie KI in agiler Software Delivery Scheitert | Beispiel 3
3. Mehr Agenten, aber weniger Verantwortlichkeit
Viele Zukunftsbilder zu KI in agiler Software Delivery wirken attraktiv, weil sie Verantwortung elegant unsichtbar machen: Ein Agent analysiert Nutzerfeedback, der nächste schreibt Requirements, der nächste implementiert, der nächste testet und der nächste deployed.
Technisch ist davon einiges machbar. Organisatorisch wird es schnell diffus.
Gerade bei agentischer Softwareentwicklung muss daher die alte Managementfrage härter gestellt werden: Wer entscheidet? Wer überprüft? Wer trägt die Konsequenzen? IBM formuliert das Grundproblem in einem lesenswerten Überblick zu AI decision-making: Verantwortung bleibt beim Menschen, gerade wenn Systeme Entscheidungen vorbereiten oder beschleunigen. IBM über Verantwortung bei AI decision-making
Auch das AI Agile Manifesto setzt hier den richtigen Kontrapunkt: Mehr maschinelle Intelligenz ohne menschliches Urteilsvermögen ist kein Fortschritt, sondern ein Fehlpfad. AI Agile Manifesto im Original
Dokumentiertes Beispiel
Besonders deutlich wurde dieses Problem 2025 in einem öffentlich diskutierten Fall rund um Replit. Während eines dokumentierten Experiments mit einem KI-Coding-Agenten ignorierte das System einen Code-Freeze, löschte eine produktive Datenbank, erzeugte laut den veröffentlichten Berichten erfundene Daten und stellte die Vorgänge irreführend dar. Gerade für Management und Governance ist daran weniger der Einzelfehler entscheidend als die Struktur des Fehlers: Das System handelte mit realer Wirkung, aber Verantwortung, Freigabe und Kontrolle waren zu schwach sichtbar und zu schwach durchgesetzt. Business-Insider-Bericht zum Replit-Vorfall mit KI-Agent
Genau deshalb reicht es nicht, nur über Tool-Fähigkeiten zu sprechen. Sobald Agenten Anforderungen interpretieren, Änderungen durchführen oder gar produktionsnahe Aktionen auslösen, muss Verantwortung organisatorisch klarer und sichtbarer werden.
Wie KI in agiler Software Delivery Scheitert | Beispiel 4
4. Mehr lokale Produktivität, aber mehr Systementropie
Das vierte Scheitern wird häufig erst mit Verzögerung sichtbar: Einzelne Entwicklerinnen oder Teams wirken extrem produktiv, während die Gesamtorganisation schwerfälliger wird.
Das passiert, wenn jeder lokal mit KI optimiert, aber kaum jemand das Gesamtsystem stärkt:
- Architekturprinzipien werden inkonsistent angewandt
- dieselben Probleme werden parallel mehrfach gelöst
- Review- und Testsysteme werden überfahren
- Delivery-Pipelines werden zum Staupunkt
- Incident-Last und Nacharbeit steigen
Birgitta Böckeler beschreibt in ihrem InfoQ-Gespräch zu Harness Engineering, warum höhere Autonomie immer auch höhere Risiken mitbringt und durch geeignete Feedforward- und Feedback-Mechanismen begrenzt werden muss. InfoQ-Podcast mit Birgitta Böckeler zu Harness Engineering
Dass das kein theoretisches Risiko ist, zeigen mehrere öffentlich gewordene Fälle. Amazon verschärfte 2026 laut Berichten seine internen Guardrails nach gravierenden Incident-Serien, bei denen auch agentische oder KI-nahe Systeme als Mitfaktor genannt wurden. Die Lehre daraus war bezeichnend: Mehr dokumentierte Änderungen, mehr Freigaben, mehr “controlled friction” in kritischen Systemen. Mit anderen Worten: Nicht jede lokale Beschleunigung verbessert das Gesamtsystem. Manchmal macht sie nur dessen Schwachstellen schneller sichtbar. Business-Insider-Bericht zu Amazons verschärften KI-Guardrails
Eine zweite, andere Form derselben Entropie sieht man bei KI-gestütztem sogenannten Vibe Coding. Axios berichtete 2026 unter Berufung auf Sicherheitsforscher über hunderttausende öffentlich erreichbare Artefakte, darunter tausende mit sensiblen Unternehmensdaten. Hier scheitert nicht primär ein einzelner Prompt, sondern das Gesamtsystem aus Standards, Zugriffen, Defaults, Security-Verständnis und Governance. Axios-Bericht zu Vibe Coding und öffentlich erreichbaren Artefakten
Kurz gesagt: Je autonomer die KI, desto wichtiger ist der organisatorische und technische Rahmen, in dem sie arbeitet.
Warum kurzfristige Produktivität und Tokenmaxxing die falsche KI-Strategie sind
Manche Führungskräfte reagieren auf die neue Hebelwirkung von KI mit einer simplen Schlussfolgerung: Dann müssen wir nur möglichst schnell möglichst viel KI-Nutzung erzwingen.
Das ist genau die falsche Managementreaktion.
Warum?
Weil “short term productivity” in diesem Kontext meist nur Folgendes meint:
- mehr erzeugter Code
- mehr AI-Sessions
- mehr Tokenverbrauch
- mehr lokal gelöste Aufgaben
Aber das alles sagt noch fast nichts über die Fragen aus, die für KI in agiler Software Delivery tatsächlich entscheidend sind:
- Wurde das richtige Problem gelöst?
- Versteht das Team die Änderung?
- Lässt sich die Änderung sicher ausrollen?
- Ist das System nach der Änderung besser oder fragiler?
- Lernt die Organisation schneller oder nur hektischer?
Gerade deshalb ist Tokenmaxxing ein so gutes Warnsignal. Es zeigt, was passiert, wenn Unternehmen KI-Nutzung wie einen Selbstzweck behandeln. Dann maximieren Mitarbeitende genau das, was sichtbar belohnt wird, selbst wenn dadurch Kosten, Entropie und Blindflug steigen. Pragmatic Engineer über den Trend Tokenmaxxing
Jez Humble hat dieses Managementproblem schon lange vor der aktuellen KI-Welle sauber beschrieben: Wenn Manager Produktivität direkt fokussieren, werden langfristige Verbesserungen oft gerade nicht gemacht. Für KI in agiler Software Delivery gilt das verschärft. Jez Humble über Produktivitätsfokus und ausbleibende Langfristverbesserungen
Was stattdessen funktioniert: Vier robuste Lösungen für KI in agiler Software Delivery
1. Verantwortung explizit beim Menschen halten
KI darf beschleunigen, vorschlagen und entlasten. Sie darf aber keine Ausrede dafür werden, dass Entscheidungs- und Qualitätsverantwortung verschwimmt.
Praktisch heißt das:
- klare Owner für Architektur, Security und produktrelevante Entscheidungen
- keine Erfolgsmetriken, die bloß AI-Aktivität belohnen
- explizite Review- und Freigaberegeln für KI-generierte Änderungen
2. Ein Engineering-Harness statt nur KI-Tools aufbauen
Viele Teams investieren zuerst in Modelle und zuletzt in die Bedingungen, unter denen diese Modelle sicher arbeiten können. Genau das muss umgedreht werden.
Zu einem belastbaren Harness für KI in agiler Software Delivery gehören zum Beispiel:
- gute Spezifikationen
- kleine, überprüfbare Arbeitspakete
- automatische Tests
- statische Analyse
- kontrollierte Sandboxen
- klare Architekturkontexte
- schnelle Rückmeldung aus CI, Delivery und Produktion
Wenn dich dieser Gedanke interessiert, sind auch OpenSpec und das GitHub Spec Kit nützliche Referenzen zum Thema spezifikationsgestützte Arbeit mit KI: OpenSpec für spezifikationsgestützte Produktentwicklung, GitHub Spec Kit für spec-driven Entwicklung
3. Kundenfeedback schneller machen als Codeproduktion
KI ist nur dann ein nachhaltiger Delivery-Hebel, wenn Lernzyklen mitbeschleunigt werden. Sonst produziert man nur schneller an der Wirklichkeit vorbei.
Das heißt konkret:
- kleinere Releases
- mehr Experimente mit echten Feedbackschleifen mit Kunden
- konsequentere Analyse von Feature-Nutzungsdaten
- schnellere Auswertung von Support- und Nutzersignalen
Wer nur die Coding-Geschwindigkeit steigert, aber nicht die Feedback-Geschwindigkeit und -qualität, baut keine AI-native Organisation, sondern nur eine schnellere “Feature Factory”, wie es John Cutler beschreibt. Siehe: 12 Signs You’re Working in a Feature Factory
4. Retrospektiven und Lernschleifen ernst nehmen
Wenn KI in agiler Software Delivery scheitert, sind die Ursachen oft systemisch. Dann hilft es wenig, nur einzelne Prompts oder Tools zu optimieren.
Teams brauchen Routinen, in denen sie wiederkehrende Muster sichtbar machen und systematisch lösen:
- Wo verlieren wir Verständnis?
- Wo wächst Review-Stau?
- Wo erzeugt KI mehr Nacharbeit als Nutzen?
- Wo optimieren wir lokale Geschwindigkeit auf Kosten des Gesamtsystems?
Genau deshalb bleiben Retrospektiven relevant. Nicht als Ritual aus der Scrum-Vergangenheit, sondern als Mechanismus für organisationales Lernen in einer Umgebung mit höherer Änderungsfrequenz.
Fazit: KI in agiler Software Delivery scheitert selten an zu wenig KI
Die eigentliche Ironie ist: Viele Organisationen scheitern mit KI nicht, weil sie zu vorsichtig wären, sondern weil sie zu kurzsichtig steuern.
Sie verwechseln kurzfristige Produktivität mit nachhaltiger Wertschöpfung und Verbesserung des Delivery-Systems. Sie verwechseln Tokenverbrauch mit Wertschöpfung. Sie verwechseln autonome Codeerzeugung mit organisationaler Reife.
Die bessere Leitfrage lautet deshalb nicht: “Wie bringen wir unsere Teams dazu, noch mehr KI zu nutzen?”
Sondern eher:
- Unter welchen Bedingungen verbessert KI unsere Delivery wirklich?
- Wo erzeugt KI gerade neue Flaschenhalse in den Wertschöpfungskette?
- Wo legt KI systemische Mängel offen, die wir nachbessern müssen?
- Welche organisatorischen Fähigkeiten müssen wir stärken, damit Beschleunigung nicht in Entropie kippt?
Wenn du dafür zuerst die nüchterne Evidenz willst, lies hier weiter: Studienlage zu KI in agiler Softwareentwicklung .
Wenn du direkt nach Management-Hebeln suchst, geh hier weiter: Leitfaden für CTOs und Engineering Manager zu KI in der agilen Softwareentwicklung .
FAQ zu KI in agiler Software Delivery
Warum bringt KI meinem Team mehr Output, aber keine bessere Delivery?
Weil mehr Output nicht automatisch bessere Delivery bedeutet. Wenn Reviews, Tests und Feedback nicht mithalten, steigt vor allem die Komplexität.
Was bedeutet Tokenmaxxing in der KI-gestützten Softwareentwicklung?
Tokenmaxxing heißt, KI-Nutzung oder Tokenverbrauch zum Ziel zu machen. Das misst Aktivität, aber nicht Wert.
Was sollten Engineering Manager tun, statt nur KI-Produktivität zu pushen?
Sie sollten Verantwortung, Tests, Reviews und Feedbackschleifen stärken. Erst das macht KI langfristig nützlich.
Brauchen Teams mit viel KI-Unterstützung überhaupt noch agile Rituale?
Ja, aber mit anderem Fokus. Weniger Statuspflege, mehr Feedback, Lernen und kontinuierliche Verbesserung.
Wie messe ich als Engineering Manager, ob KI in der Softwareentwicklung wirklich etwas bringt?
Miss Lead Time, Review-Aufwand, Fehlerquote und Kundennutzen. Reiner Output reicht nicht.
Warum wird mein Team mit KI schneller, aber die Ergebnisse nicht besser?
Weil mehr Code nicht automatisch bessere Ergebnisse liefert. Ohne saubere Reviews, Tests und Feedback steigt nur die Entropie.
Welche KPIs sollte ich für KI in der Softwareentwicklung wirklich tracken?
Tracke Durchlaufzeit, Defect Rate, Rework, Deployment-Sicherheit und Zeit bis zum Kundenfeedback. Tokens allein sagen zu wenig aus.
Wie verhindere ich, dass KI-generierter Code mein Team später ausbremst?
Halte Änderungen klein, teste sie sauber und bestehe auf klarem Review. KI darf Tempo bringen, aber nicht Verständnis ersetzen.