Was sind Gütekriterien von Prüfungen?

Laut Grotjahn müssen Tests bestimmten Qualitätsstandards entsprechen, die in der klassischen Testtheorie häufig durch die Hauptgütekriterien Objektivität, Reliabilität und Validität beschrieben werden. Darüber hinaus sind auch zusätzliche Kriterien von Bedeutung, wie etwa die Ökonomie, Praktikabilität, Nützlichkeit, Fairness, Authentizität, Transparenz und die Normierung von Tests. Diese Kriterien tragen dazu bei, die Qualität und Aussagekraft von Tests zu gewährleisten (vgl. Ingenkamp 1985, S. 34-43; Trim & North 1992; Lienert & Raatz 1994, S. 7-14; Bachman & Palmer 1996; Kieweg 1999). Zusätzlich zu den klassischen Gütekriterien der Validität und Reliabilität spielen auch die Aspekte der Prüfungssicherheit, die der Validität untergeordnet ist, sowie die Integrität, die der Reliabilität zugeordnet werden kann, eine wichtige Rolle.

Laut Bachman & Palmer gibt es im Bereich der Sprachtestforschung verschiedene Ansätze zur Definition von Qualität. Im ‚klassischen‘ Verständnis liegt der Fokus auf den Gütekriterien der Reliabilität, Konstruktvalidität, Authentizität, Praktikabilität und Interaktivität (dem Ausmaß, in dem Sprachtestaufgaben die gewünschten, zu messenden Kompetenzen aktivieren) sowie dem Impact, d.h. den Konsequenzen von Tests (vgl. Green, 2021, für eine ähnliche Auffassung). Gütekriterien dienen auch dazu, die Qualität von Messinstrumenten und Erhebungsverfahren, ihrer Konzeption und Anwendung einzuschätzen. Viele Testgütekriterien sind statistisch messbar und basieren auf Korrelationen (vgl. Rey, 2020).

Im folgenden Abschnitt wird eine umfassende Erklärung der Gütekriterien gegeben

Nützlichkeit: Der Test sollte einen praktischen Nutzen für die Zielgruppe und die beteiligten Akteure (z. B. Lernende, Lehrende) bieten und Rückwirkungen auf den Unterricht haben. Diese Praktikabilität betrifft die praktische Anwendbarkeit und Effizienz eines Tests. Ein Test muss in der Durchführung so gestaltet sein, dass er mit vertretbarem Aufwand an Zeit und Ressourcen realisierbar ist (Ökonomie). Dies schließt Aspekte wie die Zeit, die für die Testvorbereitung und Durchführung benötigt wird, sowie die erforderlichen Ressourcen (z. B. Personal, Materialien, Technik) ein. Praktikabilität ist entscheidend für die breite Anwendung eines Tests, da ein aufwändiger oder schwer zugänglicher Test schnell an Akzeptanz verlieren kann. Praktikabilität im Gegensatz zu den anderen Qualitäten nicht kontinuierlich, d.h. einige Tests sind relativ mehr oder weniger praktikabel.

Praktikabilität ist eine Entweder-oder-Qualität, wobei das akzeptable Mindestniveau der Schwellenwert ist, bei dem die verfügbaren Ressourcen den erforderlichen Ressourcen entsprechen oder diese übersteigen (vgl. Bachman & Palmer, 1996)

Fairness ist ein entscheidendes Kriterium, um Chancengleichheit zu gewährleisten und das Vertrauen der Prüflinge in das Testverfahren zu sichern. In einem fairen Testverfahren haben alle Teilnehmer die gleichen Chancen, ihre Fähigkeiten zu zeigen. Eine sorgfältige Standardisierung der Tests und der Durchführungsbedingungen stellt sicher, dass alle Prüfungsteilnehmer die gleiche Gelegenheit haben, ihr Wissen und ihre Leistungsfähigkeit unter vergleichbaren Bedingungen zu demonstrieren. Fairness bedeutet, dass jeder Teilnehmer die Möglichkeit hat, sich angemessen auf die Prüfung vorzubereiten und über die Art sowie den Inhalt der Prüfung informiert wird, insofern dies mit dem Prüfungszweck vereinbar ist. Von Wichtigkeit sind auch die Rechten der Prüfungsteilnehmer in Bezug auf die Sicherheit der Prüfung, ihren Zugang zu den Prüfungsergebnissen und ihre Rechte, wenn Unregelmäßigkeiten im Prüfungsverfahren geltend gemacht werden müssen und die korrekte Angabe der Ergebnisse von Einzel- und Gruppentests. Fairness ist dabei kein isoliertes Konzept, sondern muss in allen Aspekten des Prüfungsverfahrens berücksichtigt werden. Dies schließt die Vermeidung von Diskriminierungen oder Benachteiligungen aufgrund von Herkunft, sozialem Status oder anderen persönlichen Merkmalen ein.

Fairness kann nicht als isolierte Größe direkt quantifiziert werden, sondern muss über die Validität der Testergebnisse und deren Interpretation im Hinblick auf die beabsichtigten Zwecke geprüft werden. Diskriminierungseffekte können durch die Auswertung der Prüfungsergebnisse in Kombination mit demografischen Daten erfolgen (vgl. AERA, APA & NCME, Standards for Educational and Psychological Testing, 2014)

Authentizität bedeutet, dass ein Sprachtest realistische Sprachgebrauchssituationen abbildet und die Prüfungsaufgaben an tatsächliche Kommunikationsanforderungen aus Alltag oder Berufsleben angelehnt sind. Ein authentischer Test stellt sicher, dass das Bestehen der Prüfung ein verlässlicher Hinweis darauf ist, dass die geprüfte Person auch in der realen Welt erfolgreich sprachlich agieren kann. Besonders bei Sprachprüfungen für berufliche oder akademische Zwecke ist es entscheidend, dass die Aufgaben die tatsächlichen sprachlichen Anforderungen der jeweiligen Nutzungssituation widerspiegeln, da nur so gewährleistet werden kann, dass die erworbenen Zertifikate eine echte Aussagekraft für die Praxis haben.

Mit Hilfe der Authentizität kann untersucht werden, inwieweit die Interpretationen der Ergebnisse über die Testleistung hinaus auf den Sprachgebrauch in der TLU-Domäne oder in anderen ähnlichen Bereichen, die nicht mit dem Test in Verbindung stehen, verallgemeinert werden können. Dies stellt eine Verbindung zwischen Authentizität und Konstruktvalidität her, da die Untersuchung der Generalisierbarkeit von Score-Interpretationen ein wichtiger Bestandteil der Konstruktvalidierung ist. (vgl. Bachman & Palmer, 1996)

Transparenz in Sprachprüfungen bedeutet, dass die Prüfungsanforderungen, Bewertungsverfahren und Entscheidungsprozesse für alle Beteiligten klar und nachvollziehbar sind. Sie stellt sicher, dass Prüflinge, Lehrkräfte und andere Interessengruppen genau verstehen, was in der Prüfung erwartet wird und wie die Ergebnisse zustande kommen. Eine Prüfung gilt als transparent, wenn die verschiedenen Kontrollverfahren bekannt sind, die Aufgaben und Fragen eindeutig formuliert sind, die zu erreichenden Punkte klar ausgewiesen werden und der Beurteilungsschlüssel transparent angegeben ist. Klare Informationen zu Prüfungszielen, Aufgabentypen und Bewertungskriterien ermöglichen den Prüflingen, sich gezielt vorzubereiten. Willkür oder subjektive Entscheidungen werden durch eine objektive und nachvollziehbare Bewertung reduziert. Dieses Vertrauen in das Prüfungsverfahren trägt maßgeblich zur Fairness und Akzeptanz der Prüfung bei (vgl. Kieweg, 1999). Auch der Gemeinsame Europäische Referenzrahmen für Sprachen (GeRS) leistet einen bedeutenden Beitrag zur Transparenz, indem er darauf abzielt, den Spracherwerb, die Sprachanwendung und die Sprachkompetenz von Lernenden in Europa auf eine klare und vergleichbare Weise zu beschreiben.

Die in einer Prüfungssituation latent vorhandenen Angstwerte können immer dann etwas reduziert werden, wenn der Schüler eine Lernzielkontrolle erledigen muss, die das Kriterium der ausreichenden Transparenz erfüllt (vgl. Kieweg, 1999).

Prüfungsintegrität in Bezug auf Prüfungssicherheit bezieht sich auf die Gewährleistung eines fairen, zuverlässigen und geschützten Prüfungsprozesses. Es geht darum, sicherzustellen, dass die Prüfungsinhalte, der Prüfungsprozess und die Ergebnisse vor Betrug, Fälschung oder unerlaubter Hilfe geschützt sind. Aspekte der Prüfungsintegrität in Bezug auf Prüfungssicherheit sind Authentifizierung. Hierzu zählen auch technische Maßnahmen zur Betrugsprävention sowie organisatorische und rechtliche Vorkehrungen, die die Integrität des Prüfungsprozesses sichern. Dies trägt zur Glaubwürdigkeit des Tests bei und schützt sowohl die Prüflinge als auch die Institutionen vor rechtlichen und ethischen Problemen.

Prüfungssicherheit steht in engem Zusammenhang mit Fairness und Zuverlässigkeit (Reliabilität), da nur ein manipulationsfreier Test verlässliche und glaubwürdige Ergebnisse liefern kann. Obwohl Prüfungssicherheit nicht zu den traditionellen Gütekriterien gehört, trägt sie dennoch erheblich zur Validität und Fairness bei, indem sie das Risiko von Betrug, Fehlinterpretationen oder Manipulationen reduziert. Sie ist also ein wichtiger Aspekt für die Qualitätssicherung von Prüfungen und wird häufig in die Diskussionen über die Gütekriterien von Tests einbezogen.

Die Messung der Prüfungssicherheit umfasst verschiedene Dimensionen wie technische Sicherheitsvorkehrungen, organisatorische Kontrollen, die Qualität der Prüfungsdurchführung und die Integrität der Ergebnisse. Eine umfassende Bewertung dieser Faktoren hilft sicherzustellen, dass Prüfungen sowohl fair als auch fälschungssicher sind und die Validität der Ergebnisse nicht gefährdet wird.

Die Interaktivität in Sprachtests ist ein wesentliches Gütekriterium, das sich auf die Art und Weise bezieht, wie Testaufgaben mit den sprachlichen Kompetenzen der Prüflinge interagieren. Dabei geht es nicht nur darum, ob die Aufgaben die entsprechenden Fähigkeiten messen, sondern auch, wie sie das tatsächliche Sprachverhalten und die Anwendungsfähigkeit der getesteten Kompetenzen in realen oder realitätsnahen Kontexten fördern.

Die Interaktivität beschreibt, in welchem Maß eine Testaufgabe die zu messenden sprachlichen Kompetenzen in der Praxis aktiviert, also wie stark die Aufgaben dazu beitragen, dass die Prüflinge ihre Fähigkeiten in einer Weise einsetzen, die mit echten Kommunikationssituationen vergleichbar ist.

Der Impact (Auswirkungen) von Tests auf Individuen, Bildungssysteme und die Gesellschaft insgesamt sind weitreichend und treten auf verschiedenen Ebenen auf – sowohl auf der Mikroebene (bei den einzelnen Testteilnehmern) als auch auf der Makroebene (in institutionellen oder gesellschaftlichen Strukturen). Die Verwendung von Testergebnissen ist dabei stets mit bestimmten Werten und Zielen verbunden. Die aufgrund der Testergebnisse getroffenen Entscheidungen haben direkte Konsequenzen für die betroffenen Personen sowie für das System, in dem der Test eingesetzt wird. Tests sind keine isolierten psychometrischen Instrumente, sondern dienen stets einem gesellschaftlichen oder bildungspolitischen Zweck, der ihre Auswirkungen bestimmt(vgl. Bachman & Palmer, 1996). Der Impact ist ein wichtiger Aspekt bei der Beurteilung der Qualität von Sprachtests oder -prüfungen. Es geht dabei um Fragen wie:

Positive Auswirkungen: Werden durch den Test die Sprachkompetenzen der Prüflinge tatsächlich verbessert? Wird der Test als hilfreich empfunden?
Negative Auswirkungen: Könnte der Test in einer Weise durchgeführt werden, die Benachteiligungen oder Ungerechtigkeiten nach sich zieht? Führt der Test möglicherweise zu unnötigem Stress oder ungenauen Rückschlüssen?
Langfristige Auswirkungen: Welche langfristigen Folgen hat der Test auf die Lernenden? Fördert er nachhaltige Lernprozesse oder schränkt er diese ein?

Der Impact beschreibt, wie stark und in welchem Umfang ein Test die Ziele des Prüflings und die Anforderungen der Institutionen beeinflusst.

Objektivität ist ein weiteres entscheidendes Gütekriterium, das die Unabhängigkeit der Testergebnisse von der Person des Prüfers gewährleistet. Ein Test ist dann objektiv, wenn die Ergebnisse unabhängig davon sind, welcher Prüfer den Test durchführt. Das bedeutet, dass die Bewertungen ausschließlich auf den festgelegten Kriterien beruhen und nicht durch persönliche Einschätzungen oder Vorurteile des Prüfers beeinflusst werden. Objektivität ist daher besonders wichtig, um sicherzustellen, dass alle Testteilnehmer unter denselben Bedingungen geprüft werden und ihre Leistungen fair bewertet werden (vgl. Kane, 2006). In Bezug auf Sprachkompetenztests, die auf dem Gemeinsamen Europäischen Referenzrahmen für Sprachen (GER) basieren, muss die Objektivität gewährleistet sein, damit alle Prüfungen nach denselben Maßstäben bewertet werden. Diese Konsistenz und Transparenz ist entscheidend, um die Glaubwürdigkeit und Fairness der Testergebnisse zu sichern und den Teilnehmern die gleiche Chance zu geben, ihre Sprachkompetenz zu demonstrieren (vgl. Fulcher, 2003).

Die Durchführungsobjektivität, Bewertungsobjektivität und Interpretationsobjektivität sind die drei Dimensionen der Objektivität. Durchführungsobjektivität bedeutet, dass alle Kandidaten unter gleichen Bedingungen geprüft werden, sodass externe Einflüsse minimiert werden. Bewertungsobjektivität gewährleistet, dass die Beurteilung ausschließlich anhand objektiver Maßstäbe erfolgt und keine persönlichen Meinungen oder Vorlieben des Prüfers die Bewertung beeinflussen. Interpretationsobjektivität stellt sicher, dass die Testergebnisse einheitlich interpretiert werden und sich nicht je nach Prüfer oder Institution unterscheiden.

Um die Objektivität weiter zu erhöhen, können standardisierte Testformate und automatisierte Bewertungsverfahren verwendet werden, die zusätzliche subjektive Einflussfaktoren reduzieren (Linacre, 2025).

Reliabilität ist eine grundlegende Voraussetzung für die Validität eines Tests. Ohne eine hinreichende Reliabilität kann ein Test keine valide Messung der Sprachkompetenz leisten. Reliabilität bezieht sich auf die Zuverlässigkeit und Konsistenz (in verschiedenen Durchführungen oder zwischen Prüfern) eines Tests. Ein Test gilt als reliabel, wenn er unter gleichen Bedingungen stabil (Stabilität) und reproduzierbar ist, das heißt, die Ergebnisse sollten bei wiederholter Durchführung mit denselben Testpersonen zu unterschiedlichen Zeitpunkten (Zeitstabilität) oder bei verschiedenen Prüfern konsistent bleiben. Die Stabilität ist als Teilaspekt der Reliabilität spezifischer auf die Zeit und die Wiederholbarkeit eines Tests ausgerichtet. Für Sprachkompetenztests bedeutet dies, dass die gemessenen Fähigkeiten der Prüflinge ohne zufällige Verzerrungen oder Fehler erfasst werden. Wird ein Test wiederholt und zeigt dabei unterschiedliche Ergebnisse, so verliert er an Glaubwürdigkeit und Aussagekraft. Zu den möglichen Faktoren, die die Reliabilität beeinträchtigen können, gehören etwa ungenaue Prüfungsbedingungen oder subjektive Einschätzungen des Prüfers (vgl. AERA, APA & NCME, Standards for Educational and Psychological Testing, 2014).

Bei zweimaliger Durchführung derselben Prüfung von demselben Prüfling muss dasselbe Ergebnis vorliegen (vgl. Schaper, 2013). weitere mseebarkeiten

Beim Gütekriterium der Validität geht es darum, sicherzustellen, dass ein Test genau das misst, was er zu messen vorgibt. Im Kontext von Sprachtests bedeutet dies, dass die Testergebnisse tatsächlich die sprachliche Kompetenz der Prüflinge abbilden und nicht durch unbedeutende oder externe Einflussfaktoren verfälscht werden. Ein Test kann als valide betrachtet werden, wenn er in der Lage ist, die richtigen Schlussfolgerungen zu ziehen – beispielsweise wenn anhand der Testergebnisse das Niveau des Gemeinsamen Europäischen Referenzrahmens (GER) korrekt zugeordnet werden kann (vgl. Bachman & Palmer, 2010; Chapelle & Lee, 2021). Es ist jedoch wichtig zu betonen, dass Validität keine feste Eigenschaft eines Tests ist, sondern sich auf die jeweilige Verwendung und Zielgruppe bezieht. In diesem Zusammenhang wird Validität als “overall evaluative judgement” verstanden, das nachweislich auf die spezifischen Verwendungszwecke eines Tests abgestimmt sein muss(vgl. Messick, 1989).

Die Validität eines Tests wird sowohl durch praktische, experimentelle Daten (empirische Evidenz) als auch durch theoretische Konzepte und Modelle (theoretische Evidenz) untermauert.

Die Inhaltsvalidität beschreibt, inwieweit der Test die relevanten Inhalte und Dimensionen eines Konstrukts (z. B. Leseverständnis) umfassend abbildet. Ein Test ist inhaltsvalide, wenn die getesteten Aufgabenrepräsentationen der zu messenden Fähigkeiten entsprechen. Es geht darum, sicherzustellen, dass der Test alle Aspekte des Konstrukts umfasst und keine wichtigen Elemente auslässt.

Die Inhaltsvalidität kann nachgewiesen werden, indem Experten beurteilen, wie gut der Test die relevanten Inhalte und Dimensionen eines Konstrukts abdeckt (vgl. Alderson, 1995)

Kriteriumsvalidität bezieht sich auf die Fähigkeit eines Tests, mit einem externen Kriterium (z. B. ein anderes bewährtes Maß für dieselbe Fähigkeit) zu korrelieren. Sie zeigt an, wie gut die Testergebnisse mit der tatsächlichen Leistung in einem relevanten Bereich übereinstimmen, und kann in prädiktive (z. B. Testergebnisse und zukünftige Leistungen) und konkurrierende (z. B. Testergebnisse und sofort gemessene Leistung) Kriteriumsvalidität unterteilt werden.

Die Testergebnisse werden mit einer anderen Leistungsmessung korreliert, in der Regel mit einem älteren, längeren, etablierten Test, der zur gleichen Zeit durchgeführt wird, oder mit der Bewertung der Schüler durch die Lehrer oder sogar mit der Selbsteinschätzung der Schüler (vgl. Weir, 2005)

Bei der Konstruktvalidität wird geprüft, inwieweit die Leistungen in Tests mit den Vorhersagen übereinstimmen, die auf der Grundlage einer Theorie der Fähigkeiten oder Konstrukte gemacht werden(vgl. Bachman, 1990). Es muss also sichergestellt werden, dass der Test tatsächlich das zugrunde liegende Konzept oder die Fähigkeit erfasst und keine irrelevanten Faktoren (z. B. Störvariablen) die Ergebnisse beeinflussen.

Die Konstruktvalidität stellt die evidenzbasierte Grundlage für die Interpretation der Ergebnisse dar (vgl. Messick, 1994). Um die Konstruktvalidität nachzuweisen, ist eine Kombination aus einer klaren theoretischen Definition des Konstrukts und überzeugenden Belegen erforderlich. Diese Belege können empirische Daten, faktorenanalytische Untersuchungen und Korrelationen mit anderen Tests umfassen, ebenso wie eine kritische Analyse der Testitems und, wenn möglich, langfristige Studien, die die zugrunde liegenden theoretischen Konzepte stützen.