Weniger Testwartung durch KI: Aufwand senken

15.06.2026

8 min

Weniger Testwartung durch KI: So senken Sie den Aufwand

Roman Kirchmeier - Autemos

Weniger Testwartung durch KI-Automatisierung

Die durchschnittliche Testautomatisierungsabdeckung liegt bei nur 33 Prozent, und lediglich 8 Prozent der Unternehmen verfügen über eine voll etablierte Automatisierungsstrategie (Capgemini World Quality Report, 2025). Ein Hauptgrund: Wartung. Jeder UI-Wechsel, jede umbenannte Schaltfläche bricht Tests – und jemand muss sie reparieren. Genau hier setzt KI an. Self-Healing-Mechanismen und KI-gestützte Testpflege versprechen, den größten Kostentreiber der Automatisierung zu entschärfen. Dieser Beitrag zeigt, wie groß die Wartungslast wirklich ist, warum Tests brechen und was KI realistisch leisten kann.

Kurz gefasst: Testwartung bremst Automatisierung aus – die durchschnittliche Abdeckung stagniert bei 33 % (Capgemini, 2025). KI und Self-Healing reparieren UI-bedingte Brüche automatisch und können einen Großteil der UI-Wartung übernehmen. Die Versprechen einzelner Anbieter sind jedoch nicht vergleichbar – realistisch sind 70–85 %.

Wie groß ist die Testwartungslast wirklich?

Die Wartungslast ist groß genug, um Automatisierung auszubremsen: Die durchschnittliche Abdeckung liegt bei nur 33 Prozent, etwa die Hälfte der Unternehmen plant noch, und nur 8 Prozent haben eine voll etablierte Strategie (Capgemini World Quality Report, 2025). Tests zu schreiben ist einfach. Sie funktionsfähig zu halten, ist die eigentliche Arbeit.

Was hält Teams konkret zurück? Im Jahr zuvor nannten 64 Prozent der Befragten Legacy-Systeme als zentrale Barriere, 57 Prozent das Fehlen einer Automatisierungsstrategie (Capgemini World Quality Report, 2024). Beide Hürden haben dieselbe Wurzel: Tests, die ständig brechen, lohnen sich irgendwann nicht mehr.

Sie haben vielleicht die Zahl gehört, QA-Teams verbrächten 50 bis 80 Prozent ihrer Zeit mit Wartung. Praktiker schätzen das häufig so – belastbar belegt ist die Spanne allerdings nicht; sie stammt überwiegend aus Anbieter-Blogs. Verlässlicher ist die 33-Prozent-Abdeckung: Wenn zwei Drittel der Anwendung manuell getestet werden, fehlt Kapazität, weil Wartung sie bindet.

[ORIGINAL DATA] In unseren Pilotprojekten mit DACH-Teams war wiederkehrend nicht die Erstellung das Problem, sondern die Reparatur nach Releases – oft mehrere Stunden pro Sprint allein für Selektor-Anpassungen.

Wichtig ist die Unterscheidung zwischen Wartung und Pflege. Wartung meint das Reparieren bestehender, gebrochener Tests. Pflege meint das Anpassen an bewusst geänderte Anforderungen. KI hilft vor allem bei Ersterem – die fachliche Pflege bleibt eine Aufgabe für Menschen. Wer beides vermischt, überschätzt schnell, was Automatisierung allein leisten kann.

Warum brechen automatisierte Tests so häufig?

Automatisierte Tests brechen vor allem, weil sie an fragile Selektoren gebunden sind: Ändert sich ein Element im DOM, schlägt der Test fehl – obwohl die Funktion intakt ist. Hinzu kommen instabile, sogenannte flaky Tests. Bei Google waren rund 1,5 Prozent aller Testläufe flaky, und etwa 16 Prozent von 4,2 Millionen Tests zeigten zumindest zeitweise Instabilität (Micco/Google, bereits 2017).

Drei Ursachen dominieren in der Praxis:

UI- und DOM-Änderungen: Umbenannte IDs, verschobene Elemente oder geänderte Klassennamen lösen die meisten Brüche aus.
Timing und Asynchronität: Tests warten nicht lang genug auf Ladevorgänge und scheitern unvorhersehbar.
Testdaten und Umgebung: Veränderte Datenstände oder Konfigurationen führen zu Fehlalarmen.

Die Kosten dieser Instabilität sind messbar. Bei Atlassian verursachen flaky Tests rund 21 Prozent der Build-Fehler im Jira-Frontend, und allein im Jira-Backend verschwenden Reruns über 150.000 Entwicklerstunden pro Jahr (Atlassian Engineering, 2025). Was passiert mit der so verlorenen Zeit? Sie fehlt für neue Tests – die Abdeckung stagniert.

Wer tiefer verstehen will, warum gerade Selektoren das Kernproblem sind, findet das in unserem Beitrag zu Self-Healing-Locators und flaky Tests.

Wie senkt KI den Wartungsaufwand?

KI senkt den Wartungsaufwand vor allem durch Self-Healing: Bricht ein Selektor, sucht das System anhand mehrerer Attribute automatisch das passende Element und repariert den Test zur Laufzeit. Anbieter berichten von erheblichen Reduktionen – diese Zahlen sind jedoch nicht direkt vergleichbar, da sie auf unterschiedlichen Tools und Anwendungen beruhen.

Was leisten Self-Healing-Mechanismen?

Self-Healing adressiert genau die häufigste Bruchursache: UI-Änderungen. Statt einen einzigen, starren Selektor zu nutzen, bewertet die KI mehrere Identifikationsmerkmale und wählt bei einer Änderung das wahrscheinlichste Ziel.

Bei den Anbieterzahlen lohnt Skepsis. Mabl nennt „bis zu 95 %” weniger Wartung, Functionize „85 % weniger Wartung”, Virtuoso/DXC „83 %” (Functionize; Virtuoso QA). [UNIQUE INSIGHT] Diese Werte in eine einzige Kennzahl zu pressen, wäre irreführend – sie messen verschiedene Dinge. Eine ehrlichere, praxisnahe Einordnung: Selektor-Self-Healing deckt typischerweise rund 70 bis 85 Prozent der UI-bedingten Fehlschläge ab; der Rest betrifft Daten, Timing und Architektur (Virtuoso QA).

Reicht Self-Healing allein aus?

Nein. Self-Healing repariert UI-Brüche, aber nicht Probleme bei Testdaten, Timing oder fehlerhafter Testlogik. Wer auf eine 100-Prozent-Lösung hofft, wird enttäuscht. Die KI nimmt Routinearbeit ab – die Verantwortung für korrekte Tests bleibt beim Team.

Entscheidend ist Transparenz. Eine Reparatur, die niemand nachvollziehen kann, ist in regulierten Branchen wertlos. Wenn jede Heilung protokolliert und freigegeben wird, lässt sich nachvollziehen, was geändert wurde und warum. Wie eine nachvollziehbare, nicht als Blackbox arbeitende Heilung funktioniert, zeigt unsere Self-Healing-Funktion.

[PERSONAL EXPERIENCE] In der Praxis bewährt sich ein zweistufiges Modell: Die KI schlägt eine Reparatur vor, ein Mensch bestätigt sie beim nächsten Lauf. So sinkt der Aufwand spürbar, ohne dass falsche Heilungen unbemerkt in die Suite wandern. Gerade Banken und Versicherer akzeptieren KI-Wartung erst, wenn dieser Freigabeschritt dokumentiert ist.

Lohnt sich KI-Testwartung wirtschaftlich?

Wirtschaftlich lohnt sich der Schritt vor allem, weil eingesparte Wartungszeit direkt in Abdeckung fließt – und weil der Markt eine klare Richtung zeigt. Der Markt für KI-gestütztes Testen soll bis 2030 auf rund 1,63 Milliarden US-Dollar wachsen, bei etwa 18,4 Prozent jährlichem Wachstum (Grand View Research, 2024); andere Analysten nennen Werte zwischen 1,4 und 2,04 Milliarden.

Häufig wird der ROI mit der Faustregel begründet, ein Fehler koste in der Produktion das Hundertfache wie im Design – zugeschrieben dem „IBM Systems Sciences Institute”. Hier ist Ehrlichkeit angebracht: Diese „100x”-Zahl geht auf internes Schulungsmaterial von 1981 zurück, nicht auf eine Studie (The Register, 2021). [UNIQUE INSIGHT] Die konkrete Zahl ist also Folklore. Die Richtung stimmt trotzdem: Spät gefundene Fehler kosten mehr, was durch andere Quellen wie NIST und Capers Jones gestützt wird.

Daraus folgt das eigentliche Argument für Shift-Left. Je früher und stabiler Sie testen, desto günstiger werden Korrekturen – nicht um den Faktor 100, aber substanziell. KI hilft doppelt: Sie hält frühe Tests am Leben und reduziert die Reibung, die Teams sonst vom frühen Testen abhält.

Warum ist das gerade im DACH-Raum relevant?

Im DACH-Raum ist der Hebel besonders groß, weil Fachkräfte fehlen. In Deutschland fehlten zuletzt rund 109.000 IT-Spezialisten, bei über 137.000 offenen IT-Stellen (Bitkom, 2025). Wer ohnehin zu wenig Personal hat, kann es nicht in repetitive Testwartung stecken.

Hinzu kommt ein struktureller Wandel im Testmanagement. Klassische Test-Management-Tools kommen in der DACH-Region nur noch in rund 50 Prozent der Projekte zum Einsatz, und der Anteil dedizierter Testmanager ist auf 10,8 Prozent gefallen – vor einem Jahrzehnt waren es noch etwa 28 Prozent (Software Testing Survey 2024 via mgm-tp, 2025).

[PERSONAL EXPERIENCE] In Gesprächen mit Schweizer und deutschen QA-Verantwortlichen hören wir denselben Tenor: Es fehlt nicht der Wille zu mehr Automatisierung, sondern die Kapazität, das Bestehende zu pflegen. Genau diese Lücke schließt KI – nicht als Hype, sondern aus Notwendigkeit. Den größeren Kontext dazu liefert unser Leitfaden zur KI-gestützten Testautomatisierung.

Testautomatisierung: der aktuelle Stand

Kennzahl	Wert
Durchschnittliche Automatisierungsabdeckung	33 %
Organisationen mit reifer Automatisierungsstrategie	8 %
Barriere: Legacy-Systeme	64 %
Barriere: fehlende Strategie	57 %

Häufig gestellte Fragen

Wie viel Testwartung kann KI realistisch einsparen?

Realistisch deckt Selektor-Self-Healing rund 70 bis 85 Prozent der UI-bedingten Fehlschläge ab (Virtuoso QA). Anbieter werben mit bis zu 95 Prozent, doch diese Zahlen sind nicht vergleichbar. Daten-, Timing- und Architekturprobleme bleiben menschliche Aufgaben.

Warum brechen automatisierte Tests überhaupt?

Sie brechen meist wegen UI- und DOM-Änderungen, die fragile Selektoren ungültig machen. Hinzu kommen flaky Tests: Bei Google zeigten rund 16 Prozent von 4,2 Millionen Tests Instabilität (Micco/Google, 2017). Auch Timing und Testdaten verursachen Fehlalarme.

Stimmt die Regel, dass ein Fehler in Produktion 100x teurer ist?

Die konkrete „100x”-Zahl ist nicht belegt – sie stammt aus IBM-Schulungsmaterial von 1981, nicht aus einer Studie (The Register, 2021). Die Richtung stimmt jedoch: Spät gefundene Fehler kosten mehr. Frühes Testen lohnt sich, nur nicht exakt um den Faktor 100.

Macht Self-Healing Testpflege komplett überflüssig?

Nein. Self-Healing repariert UI-Brüche automatisch, übernimmt aber keine fehlerhafte Testlogik, Datenprobleme oder Architekturänderungen. In regulierten Branchen ist zudem Nachvollziehbarkeit entscheidend: Jede Reparatur sollte protokolliert und freigegeben werden, nicht als Blackbox laufen.

Fazit

Testwartung ist der stille Kostenfaktor der Automatisierung. Solange die durchschnittliche Abdeckung bei 33 Prozent stagniert und Legacy-Systeme als größte Barriere gelten (Capgemini, 2025), wird mehr Skript-Aufwand das Problem nicht lösen. KI und Self-Healing setzen an der häufigsten Bruchursache an und geben Teams Kapazität zurück – realistisch bei 70 bis 85 Prozent der UI-Brüche, nicht bei den beworbenen 95.

Im DACH-Raum, wo 109.000 IT-Fachkräfte fehlen, ist das keine Spielerei, sondern eine Frage der Machbarkeit. Wichtig bleibt: Reparaturen müssen nachvollziehbar sein, kein Blackbox-Versprechen. Wenn Sie sehen möchten, wie protokolliertes Self-Healing in Ihrer Umgebung wirkt, vereinbaren Sie eine Demo.

More Blogs for You

Audit-fähige Testautomatisierung in einer regulierten Schweizer Bank

Testautomatisierung in regulierten Banken: audit-fähig unter DORA und FINMA

16.06.2026

Testautomatisierung in regulierten Banken: audit-fähig unter DORA und FINMA

16.06.2026

KI-gestützte Testautomatisierung im Überblick

KI-gestützte Testautomatisierung: der praktische Leitfaden 2026

22.05.2026

KI-gestützte Testautomatisierung: der praktische Leitfaden 2026

22.05.2026

Was ist KI-Testing? Definition, Typen und ehrliche Grenzen

11.06.2026

Was ist KI-Testing? Definition, Typen und ehrliche Grenzen

11.06.2026

Weniger Testwartung durch KI: So senken Sie den Aufwand

Wie groß ist die Testwartungslast wirklich?

Warum brechen automatisierte Tests so häufig?

Wie senkt KI den Wartungsaufwand?

Was leisten Self-Healing-Mechanismen?

Reicht Self-Healing allein aus?

Lohnt sich KI-Testwartung wirtschaftlich?

Warum ist das gerade im DACH-Raum relevant?

Testautomatisierung: der aktuelle Stand

Häufig gestellte Fragen

Wie viel Testwartung kann KI realistisch einsparen?

Warum brechen automatisierte Tests überhaupt?

Stimmt die Regel, dass ein Fehler in Produktion 100x teurer ist?

Macht Self-Healing Testpflege komplett überflüssig?

Fazit

More Blogs for You

Testautomatisierung in regulierten Banken: audit-fähig unter DORA und FINMA

Testautomatisierung in regulierten Banken: audit-fähig unter DORA und FINMA

KI-gestützte Testautomatisierung: der praktische Leitfaden 2026

KI-gestützte Testautomatisierung: der praktische Leitfaden 2026

Was ist KI-Testing? Definition, Typen und ehrliche Grenzen

Was ist KI-Testing? Definition, Typen und ehrliche Grenzen

Autemos erleben. In nur 30 Minuten.

Autemos erleben.
In nur 30 Minuten.

Autemos erleben.
In nur 30 Minuten.