Können KI-generierte Texte durch sog. Erkennungstools verlässlich identifiziert werden?
Alle sogenannten Erkennungsalgorithmen, die KI-Erkennung versprechen, sind unzuverlässig und sie werden das sehr wahrscheinlich auch bleiben, daher kann die Bewertung einer Arbeit nicht auf einen solchen Befund gestützt werden.
Belastbar ist indes ein Nachweis KI-generierter Inhalte auf der Grundlage von harten Indikatoren auf der Textebene (etwa erfundene Quellenangaben und eindeutige Textartefakte).
Bei Verwendung von Retrieval-Augmented-Systemen (RAGs), bei denen ein Sprachmodell mit einem Informationsabruf aus dem Internet oder einer Datenbank kombiniert wird, kommt es durch die Übernahme wörtlicher Textpassagen aus den gefundenen Quellen gelegentlich zu klassischen Plagiaten, die bei der Plagiatsprüfung auffallen können.
Zum Hintergrund"The observed results suggest that existing state-of-the-art LLM-generated text detectors are suboptimal, at the very least, for the task of detecting LLM-assisted writing in scientific communication." (Lazebnik und Rosenfeld, 2024, S. 4)
Die Ungenauigkeit vermeintlicher Erkennungstools ist hinlänglich bekannt:
Kurz nach der Veröffentlichung von ChatGPT stellte OpenAI, der Hersteller des Modells, einen AI classifier vor, der nach einer sechsmonatigen Laufzeit allerdings wieder vom Netz genommen wurde. Der Erkennungsalgorithmus stufte lediglich 26% KI-generierter Texte zuverlässig als solche. Die Quote der Falschpositive - also von Menschen geschrieben Texte, die fälschlicherweise als KI-generiert eingeordnet wurden - lag bei 9%.
Die Unzuverlässigkeit der Erkennungstools folgt systematisch aus der Funktionsweise von Großen Sprachmodellen (LLMs):
LLMs generieren wahrscheinliche Wortfolgen (next word prediction). Die meisten Modelle lassen eine 'Kalibrierung' durch die Nutzenden zu, sodass auch weniger wahrscheinliche Satzergänzungen gewählt werden können (wodurch auch die Wahrscheinlichkeit von Halluzinationen erhöht wird).
Für Erkennungsalgorithmen gibt es zwei mögliche technische Ansätze:
- Sie setzen auf der Meta-Eben an und versuchen Voraussagen über die Wahrscheinlichkeit zu treffen, mit der ein LLM eine bestimmte Wortfolge gewählt hätte - dies würde aber die Kenntnis des jeweiligen Algorithmus erfordern. Die Episode mit dem AI classifier von OpenAI zeigt, dass dies nicht einmal den Herstellern selbst verlässlich gelingt.
- Sie greifen auf stilometrische Texteigenschaften zurück, bewerten also, ob in einem Text bestimmte Wörter oder Wendungen verwendet werden, die für genKI-Texte typisch sind, Satzlänge und ähnliche Textmerkmale. Auch diese Analyse ist nicht verlässlich: So kann die relativ häufigere Verwendung bestimmter Begriffe in der Wissenschaftssprache zwar mit dem Training von Sprachmodellen in Verbindung gebracht werden, sie ist aber kein harter Nachweis für eine (unzulässige) Nutzung.
Die Probleme beider Ansätze treten bei der Wissenschaftssprache, die wesentlich stärker formalisiert ist und auf stehende Begriffe zurückgreift, deutlicher zutage als bei Alltagstexten.
- Daraus, dass die Möglichkeiten sinnvoller Wortkombinationen in wissenschaftlichen Texten begrenzter sind als in anderen Textgattungen, folgt zwangsläufig, dass ein next-word-prediction-basierter Ansatz hier häufig falschpositive Ergebnisse liefert.
- Auf stilometrischer Ebene lassen sich in hochformalisierten und -standardisierten Texten wenig griffige Aussagen über signifikante Differenzen zwischen menschlichen und KI-generierten Texten treffen.
Weiterführende Quellen:
siehe z.B.
[2306.15666] Testing of Detection Tools for AI-Generated Text