Softwaretest verstehen: Prozess, Stufen & Methoden

16.06.2026

12 min

Software-Testing: Grundlagen, Prozess und Methoden

Roman Kirchmeier - Autemos

QA-Lead und Entwickler analysieren ein Software-Testing-Dashboard in einem modernen Schweizer Büro

Schlechte Softwarequalität kostet die US-Wirtschaft mindestens 2,41 Billionen US-Dollar pro Jahr (CISQ, 2022). Diese Zahl zeigt: Testen ist keine technische Pflichtübung, sondern eine betriebswirtschaftliche Disziplin. Doch was bedeutet Software-Testing eigentlich genau, und wie sieht ein belastbarer Testprozess aus? Dieser Leitfaden ordnet die Grundlagen für QA-Verantwortliche, CTOs und Testarchitekten ein. Wir klären Definitionen nach ISTQB-Standard, erklären Teststufen und Testarten, trennen Verifizierung von Validierung und schauen ehrlich auf die Rolle von KI. Wer Tests strategisch aufstellen will, braucht zuerst ein gemeinsames Vokabular. Genau das liefert dieser Beitrag.

Kurz gefasst: Software-Testing ist der Prozess, der durch statische und dynamische Prüfungen feststellt, ob Software für ihren Zweck taugt und Defekte aufdeckt. Schlechte Softwarequalität kostet die USA jährlich 2,41 Billionen Dollar (CISQ, 2022). Frühes, systematisches Testen entlang der vier Teststufen senkt dieses Risiko messbar.

Abbildung 1: Software-Testing verbindet statische und dynamische Prüfungen.

Was ist Software-Testing?

Software-Testing ist laut ISTQB der Prozess aus allen statischen und dynamischen Aktivitäten im Lebenszyklus, der von der Planung bis zur Auswertung feststellt, ob Software ihre Anforderungen erfüllt, zweckmäßig ist und Defekte aufdeckt (ISTQB). Testen ist also mehr als das Ausführen von Programmen. Es umfasst auch Reviews und Analysen.

Wichtig ist die Unterscheidung zwischen statischem und dynamischem Testen. Statisches Testen prüft Artefakte ohne Code-Ausführung, etwa durch Reviews von Anforderungen oder statische Code-Analyse. Dynamisches Testen führt die Software aus und beobachtet ihr Verhalten. Gutes Software-Testing kombiniert beide Ebenen bewusst. Reviews finden Fehler oft früher und günstiger als Testläufe.

Ein verbreitetes Missverständnis lautet, Testen beweise die Fehlerfreiheit von Software. Das ist falsch. Testen kann die Anwesenheit von Defekten zeigen, niemals deren Abwesenheit beweisen (ASTQB). Diese erste der sieben ISTQB-Grundsätze prägt jede seriöse Teststrategie. Testen reduziert Risiko, es eliminiert es nicht.

In Kundenprojekten sehen wir regelmäßig, dass Teams den Begriff “Testen” zu eng fassen. Wer nur an Klick-Tests am Ende der Entwicklung denkt, verschenkt Wirkung. Ein gemeinsames Verständnis nach Norm schafft hier Klarheit. Mehr zu den einzelnen Disziplinen finden Sie in unserer Übersicht der verschiedenen Testarten im Software-Testing.

Was sind die sieben Grundsätze des Testens?

Die sieben Grundsätze des Testens bilden das gedankliche Fundament jeder Teststrategie und sind im ISTQB Certified Tester Foundation Level verankert (ASTQB). Sie erklären, warum Testen nie “fertig” ist und wie Teams ihren Aufwand sinnvoll lenken.

1. Testen zeigt die Anwesenheit von Defekten – nie deren Abwesenheit.

2. Vollständiges Testen ist unmöglich – außer in trivialen Fällen.

3. Frühes Testen spart Zeit und Geld – Fehler nah an der Entstehung sind billiger.

4. Defekte häufen sich – wenige Module enthalten die meisten Fehler (Defect Clustering).

5. Vorsicht vor dem Pestizid-Paradoxon – dieselben Tests finden irgendwann keine neuen Fehler.

6. Testen ist kontextabhängig – eine Banking-App wird anders getestet als ein Webshop.

7. Trugschluss der Fehlerfreiheit – fehlerfreie Software, die am Bedarf vorbeigeht, ist trotzdem unbrauchbar.

Diese Grundsätze sind kein theoretisches Beiwerk. Der vierte Grundsatz etwa rechtfertigt risikobasiertes Testen, der fünfte begründet, warum Testsuiten gepflegt werden müssen. Wer sie ignoriert, optimiert am falschen Hebel.

Warum sind Softwaretests entscheidend?

Softwaretests sind entscheidend, weil mangelnde Qualität enorme Kosten verursacht: allein in den USA mindestens 2,41 Billionen US-Dollar jährlich, davon rund 1,52 Billionen aus technischen Schulden (CISQ, 2022). Diese Zahlen stammen aus dem aktuellsten verfügbaren CISQ-Bericht. Sie verdeutlichen den ökonomischen Hebel hinter sauberem Testen.

Hier lohnt eine Klarstellung, die in der Branche oft fehlt. Die berühmte Faustregel, ein Defekt koste in der Produktion das Hundertfache wie in der Anforderungsphase, wird meist dem “IBM Systems Sciences Institute” zugeschrieben. Für diese 1x-zu-100x-Zahl existiert keine belegbare Primärquelle (Black Duck). Es handelt sich um eine wiederholte Branchenfolklore, nicht um gesicherte Empirie.

Der belastbare Kern dahinter bleibt jedoch gültig. Frühes Testen spart Zeit und Geld, weil Fehler näher an ihrer Entstehung billiger zu beheben sind (ASTQB). Das ist der dritte ISTQB-Grundsatz. Statt einer erfundenen Zahl stützen sich seriöse Argumente auf diesen Grundsatz und auf die belegten CISQ-Gesamtkosten.

Wir raten Kunden, intern keine erfundenen Multiplikatoren zu zitieren. Solche Zahlen wirken im Audit unseriös und untergraben die Glaubwürdigkeit der QA. Stärker ist die ehrliche Botschaft: Frühes Testen senkt Nacharbeit, und der gesamtwirtschaftliche Schaden durch schlechte Software ist gewaltig und gut dokumentiert.

Verifizierung vs. Validierung: Wo liegt der Unterschied?

Verifizierung und Validierung beantworten zwei verschiedene Fragen, und 100 Prozent der seriösen Qualitätsmodelle trennen sie sauber, wie auch die internationale Testnorm dokumentiert (ISO/IEC/IEEE 29119-1, 2022). Verifizierung fragt: “Bauen wir das Produkt richtig?” Validierung fragt: “Bauen wir das richtige Produkt?”

Verifizierung prüft, ob ein Arbeitsergebnis die Spezifikation erfüllt. Beispiele sind Code-Reviews, statische Analysen oder Abgleiche gegen ein Design-Dokument. Validierung prüft, ob das Produkt die tatsächlichen Bedürfnisse der Nutzer und Stakeholder erfüllt. Hier kommen Abnahmetests und Nutzerfeedback ins Spiel.

Die folgende Tabelle fasst den Unterschied praxisnah zusammen.

Aspekt	Verifizierung	Validierung
Leitfrage	Bauen wir es richtig?	Bauen wir das Richtige?
Bezugspunkt	Spezifikation	Nutzerbedürfnis
Typische Aktivität	Review, statische Analyse	Abnahmetest, Nutzertest
Zeitpunkt	Oft früh und statisch	Oft spät und dynamisch

Beide Säulen sind nötig. Eine Software kann fehlerfrei die Spezifikation erfüllen und trotzdem am Bedarf vorbeigehen. Dann war die Verifizierung erfolgreich, die Validierung jedoch nicht.

Wie sieht der Testprozess nach ISTQB aus?

Abbildung 2: Die sieben Aktivitäten des ISTQB-Testprozesses 4.0.

Der ISTQB-Testprozess umfasst in der Version 4.0 von 2023 genau sieben Aktivitäten und ersetzt damit das ältere Fünf-Schritte-Modell (ISTQB). Viele Quellen und Schulungsunterlagen zitieren bis heute das veraltete Modell. Wer aktuell bleiben will, sollte die sieben Aktivitäten kennen.

Die sieben Aktivitäten des Testprozesses sind:

1. Testplanung – Ziele, Umfang und Vorgehen festlegen.

2. Testüberwachung und -steuerung – Fortschritt messen, gegensteuern.

3. Testanalyse – Was wird getestet? Testbedingungen ableiten.

4. Testdesign – Wie wird getestet? Testfälle entwerfen.

5. Testimplementierung – Testfälle und Testdaten bereitstellen.

6. Testdurchführung – Tests ausführen, Abweichungen protokollieren.

7. Testabschluss – Erfahrungen sichern, Artefakte archivieren.

Diese Aktivitäten verlaufen nicht streng linear. In agilen Kontexten überlappen sie sich und wiederholen sich pro Iteration. Die Reihenfolge bleibt als logisches Gerüst nützlich. Wie Sie die Planung konkret aufsetzen, beschreiben wir im Detail in unserem Leitfaden zum strukturierten Testplan.

Ein Hinweis aus der Praxis: Der Testabschluss wird oft übersprungen. Genau dort liegt aber der Lerneffekt. Die Reife des Software-Testings zeigt sich oft hier – ohne sauberen Abschluss wiederholen Teams dieselben Fehler im nächsten Release.

Was sind die vier Teststufen?

Abbildung 3: Die vier Teststufen, geordnet nach Integrationsgrad.

Die vier klassischen Teststufen strukturieren Tests entlang der Integrationsebene und werden in der internationalen Testnorm als etabliertes Modell beschrieben (ISO/IEC/IEEE 29119-1, 2022). Sie reichen von der kleinsten Codeeinheit bis zur Abnahme durch den Kunden. Jede Stufe hat eigene Ziele, Verantwortliche und Werkzeuge.

Komponententest (Unit-Test)

Der Unit-Test prüft die kleinste testbare Einheit isoliert, meist eine Funktion oder Klasse. Entwickler schreiben diese Tests in der Regel selbst. Sie laufen schnell und automatisiert. Eine solide Basis an Unit-Tests trägt jede höhere Teststufe. Details dazu finden Sie in unserem Beitrag über den Unit-Test als Fundament.

Integrationstest

Der Integrationstest prüft das Zusammenspiel mehrerer Komponenten oder Systeme. Hier zeigen sich Fehler in Schnittstellen, Datenformaten und Protokollen. Diese Defekte bleiben im Unit-Test unsichtbar, weil dort jede Einheit isoliert läuft.

Systemtest

Der Systemtest betrachtet das vollständig integrierte System gegen die Anforderungen. Er prüft funktionale Abläufe ebenso wie nicht-funktionale Aspekte wie Last und Sicherheit. Meist übernimmt ein dediziertes Testteam diese Stufe.

Abnahmetest

Der Abnahmetest validiert, ob das System für den produktiven Einsatz tauglich ist. Anwender oder Auftraggeber führen ihn oft selbst durch. Er beantwortet die Validierungsfrage: Bauen wir das richtige Produkt? Wie diese Stufen ineinandergreifen, ordnet das Modell der Testpyramide ein.

Die folgende Tabelle ordnet die vier Stufen nach Prüfobjekt, Verantwortlichkeit und Automatisierungsgrad ein.

Teststufe	Prüfobjekt	Typische Verantwortung	Automatisierungsgrad
Komponententest	Einzelne Funktion oder Klasse	Entwickler	Sehr hoch
Integrationstest	Schnittstellen zwischen Komponenten	Entwickler / Test	Hoch
Systemtest	Vollständig integriertes System	Testteam	Mittel bis hoch
Abnahmetest	System gegen Nutzerbedarf	Anwender / Auftraggeber	Niedrig bis mittel

Welche Testarten gibt es?

Testarten im Software-Testing lassen sich grob in funktionale und nicht-funktionale Tests gliedern, und beide Dimensionen sind in der etablierten Testnorm verankert (ISO/IEC/IEEE 29119-1, 2022). Funktionale Tests prüfen, was die Software tut. Nicht-funktionale Tests prüfen, wie gut sie es tut.

Funktionale Tests umfassen etwa Smoke-Tests, Regressionstests und Fehlerbehandlungstests. Nicht-funktionale Tests decken Performance, Sicherheit, Benutzbarkeit, Zuverlässigkeit und Portierbarkeit ab. Beide Kategorien sind unverzichtbar. Eine schnelle, aber unbrauchbare Anwendung besteht den Funktionstest und scheitert dennoch.

Eine zweite Achse trennt manuelles und automatisiertes Testen. Manuelles Testen eignet sich für explorative Prüfungen und Usability. Automatisiertes Testen glänzt bei wiederholbaren, stabilen Abläufen wie Regressionstests. Hier greift der vierte ISTQB-Grundsatz: Defekte häufen sich (Defect Clustering), und der fünfte warnt vor dem Pestizid-Paradoxon (ASTQB). Wer dieselben Tests endlos wiederholt, findet irgendwann keine neuen Fehler mehr.

Daraus folgt eine praktische Konsequenz. Testfälle müssen regelmäßig überarbeitet und ergänzt werden. Statische Testsuiten verlieren mit der Zeit an Wirkung. Wie Sie die richtige Balance messen, behandelt unser Artikel zur Testabdeckung.

Welche Rolle spielt KI im modernen Testing?

Abbildung 4: KI in der QE ist verbreitet, aber selten auf Enterprise-Skala.

KI ist im Quality Engineering angekommen, aber noch nicht flächendeckend produktiv: 89 Prozent der Organisationen pilotieren oder nutzen generative KI in der QE, doch nur 15 Prozent betreiben sie auf Enterprise-Skala (Capgemini World Quality Report, 2025-26). Diese Zahlen sind Selbstauskünfte aus einer Branchenumfrage und entsprechend einzuordnen.

Die Detailwerte zeichnen ein realistisches Bild. 37 Prozent der Befragten setzen GenAI produktiv ein, 52 Prozent im Pilot. Der berichtete durchschnittliche Produktivitätsgewinn liegt bei rund 19 Prozent (Selbstauskunft). Gleichzeitig ist der Anteil der Nicht-Anwender von 4 Prozent (2024) auf 11 Prozent gestiegen (Capgemini, 2025-26). Die Euphorie weicht einer nüchterneren Bewertung.

Die größten Hürden benennt derselbe Bericht klar:

Datenschutz: 67 Prozent
Integration in bestehende Werkzeuge: 64 Prozent
Halluzination und Zuverlässigkeit: 60 Prozent
Fehlende Kompetenzen (Skills Gap): 50 Prozent

In Kundenprojekten bestätigt sich dieses Muster. KI beschleunigt Testdesign und Testdatenerzeugung deutlich, ersetzt aber kein Engineering-Urteil. Generierte Testfälle brauchen Review, sonst zementieren sie Annahmen statt Risiken abzudecken. Wer KI seriös einführen will, findet konkrete Schritte in unserem Leitfaden zur KI-Testautomatisierung. Praktisch unterstützt das auch unsere Funktion für automatisierte Test-Workflows.

Was gilt beim Testen in regulierten Branchen?

In regulierten Branchen wie Banken, Pharma oder Medizintechnik ist Software-Testing nicht nur Qualitätssicherung, sondern Nachweispflicht, dokumentiert über Normen wie die internationale Testnorm für Vokabular, Prozesse und Dokumentation (ISO/IEC/IEEE 29119-1, 2022). Hier zählt nicht nur, dass getestet wurde, sondern dass es prüfbar belegt ist.

Drei Anforderungen prägen das Testen im regulierten Umfeld. Erstens lückenlose Nachvollziehbarkeit von der Anforderung über den Testfall bis zum Ergebnis. Zweitens reproduzierbare, versionierte Testumgebungen. Drittens revisionssichere Dokumentation, die ein Auditor Jahre später nachvollziehen kann.

Genau deshalb sind erfundene Statistiken hier doppelt riskant. Im DACH-Raum und in regulierten Sektoren prüfen Auditoren Quellen kritisch. Belastbare Belege schlagen eingängige Faustregeln. Wer Software-Testing in solchen Kontexten aufsetzt, sollte Standardkonformität von Anfang an mitdenken.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Testen und Debugging?

Testen findet Defekte, Debugging behebt sie. Testen ist nach ISTQB ein systematischer Prozess aus statischen und dynamischen Aktivitäten zur Defektaufdeckung (ISTQB). Debugging dagegen ist die Entwicklertätigkeit, eine gefundene Fehlerursache zu lokalisieren und zu korrigieren. Beide Aktivitäten sind getrennt, ergänzen sich aber im Entwicklungsfluss.

Kann man Software vollständig testen?

Nein, vollständiges Testen ist außer in trivialen Fällen unmöglich, denn die Zahl möglicher Eingaben und Pfade ist praktisch unendlich. Das ist der zweite der sieben ISTQB-Grundsätze (ASTQB). Statt Vollständigkeit anzustreben, priorisieren Teams risikobasiert. Wichtige und fehleranfällige Bereiche werden intensiver getestet als unkritische.

Stimmt die Regel, dass Fehler in der Produktion 100-mal teurer sind?

Nein, diese 1x-zu-100x-Regel hat keine belegbare Primärquelle und gilt als Branchenfolklore (Black Duck). Gesichert ist hingegen, dass frühes Testen Zeit und Geld spart (ISTQB-Grundsatz drei) und dass schlechte Softwarequalität die USA jährlich 2,41 Billionen Dollar kostet (CISQ, 2022).

Wie groß ist der Markt für Software-Testing?

Eine Schätzung beziffert den globalen Markt für Software-Testing auf rund 55,8 Milliarden US-Dollar im Jahr 2024 (Global Market Insights). Diese Zahl ist eine Einzelschätzung, und die Werte verschiedener Analysehäuser weichen deutlich voneinander ab. Sie zeigt aber die wirtschaftliche Größenordnung der Disziplin.

Ersetzt KI menschliche Tester?

Nein, KI ergänzt Tester, ersetzt sie aber nicht. Nur 15 Prozent der Organisationen betreiben generative KI in der QE auf Enterprise-Skala, und 60 Prozent nennen Zuverlässigkeit als zentrale Hürde (Capgemini, 2025-26). KI beschleunigt Routine, doch Risikobewertung und Urteil bleiben menschliche Aufgaben.

Fazit

Software-Testing ist eine strukturierte Disziplin mit klaren Begriffen, Prozessen und Stufen, kein nachgelagerter Klick-Test. Wer die ISTQB-Definition, die sieben Grundsätze, die vier Teststufen und den aktualisierten Sieben-Aktivitäten-Prozess kennt, baut Tests auf einem belastbaren Fundament. Die Zahlen untermauern den Hebel: Schlechte Softwarequalität kostet allein die USA jährlich 2,41 Billionen Dollar (CISQ, 2022). KI beschleunigt vieles, ersetzt aber kein Engineering-Urteil. Gerade in regulierten Branchen zählt belegbare Qualität mehr als eingängige Faustregeln. Wer Software-Testing strategisch aufsetzt, beginnt mit einem gemeinsamen Vokabular, dann mit einem sauberen Testplan. Wenn Sie Ihre Teststrategie schärfen oder Testautomatisierung skalieren wollen, sprechen Sie mit unserem Team.

More Blogs for You

Audit-fähige Testautomatisierung in einer regulierten Schweizer Bank

Testautomatisierung in regulierten Banken: audit-fähig unter DORA und FINMA

16.06.2026

Testautomatisierung in regulierten Banken: audit-fähig unter DORA und FINMA

16.06.2026

KI-gestützte Testautomatisierung im Überblick

KI-gestützte Testautomatisierung: der praktische Leitfaden 2026

22.05.2026

KI-gestützte Testautomatisierung: der praktische Leitfaden 2026

22.05.2026

Was ist KI-Testing? Definition, Typen und ehrliche Grenzen

11.06.2026

Was ist KI-Testing? Definition, Typen und ehrliche Grenzen

11.06.2026

Software-Testing: Grundlagen, Prozess und Methoden

Was ist Software-Testing?

Was sind die sieben Grundsätze des Testens?

Warum sind Softwaretests entscheidend?

Verifizierung vs. Validierung: Wo liegt der Unterschied?

Wie sieht der Testprozess nach ISTQB aus?

Was sind die vier Teststufen?

Komponententest (Unit-Test)

Integrationstest

Systemtest

Abnahmetest

Welche Testarten gibt es?

Welche Rolle spielt KI im modernen Testing?

Was gilt beim Testen in regulierten Branchen?

Häufig gestellte Fragen

Was ist der Unterschied zwischen Testen und Debugging?

Kann man Software vollständig testen?

Stimmt die Regel, dass Fehler in der Produktion 100-mal teurer sind?

Wie groß ist der Markt für Software-Testing?

Ersetzt KI menschliche Tester?

Fazit

More Blogs for You

Testautomatisierung in regulierten Banken: audit-fähig unter DORA und FINMA

Testautomatisierung in regulierten Banken: audit-fähig unter DORA und FINMA

KI-gestützte Testautomatisierung: der praktische Leitfaden 2026

KI-gestützte Testautomatisierung: der praktische Leitfaden 2026

Was ist KI-Testing? Definition, Typen und ehrliche Grenzen

Was ist KI-Testing? Definition, Typen und ehrliche Grenzen

Autemos erleben. In nur 30 Minuten.

Autemos erleben.
In nur 30 Minuten.

Autemos erleben.
In nur 30 Minuten.