Laut Turnitin ist der KI-Betrugsdetektor nicht immer zuverlässig

Dieser Artikel ist eine Vorschau auf den The Tech Friend-Newsletter. Melden Sie sich hier an, um es jeden Dienstag und Freitag in Ihrem Posteingang zu erhalten.

Es stellt sich heraus, dass wir das Schreiben von Programmen der künstlichen Intelligenz wie ChatGPT nicht zuverlässig erkennen können. Das ist ein großes Problem, insbesondere für Lehrer.

Noch schlimmer ist, dass Wissenschaftler zunehmend sagen, dass der Einsatz von Software zur genauen Erkennung von KI möglicherweise schlicht unmöglich sei.

Der neueste Beweis: Turnitin, ein großes Unternehmen für Bildungssoftware, gab an, dass der KI-Betrugsdetektor, den es seit April bei mehr als 38 Millionen Aufsätzen von Schülern eingesetzt hat, ein größeres Zuverlässigkeitsproblem aufweist, als ursprünglich angenommen. Turnitin – das jeder studentischen Arbeit eine prozentuale Punktzahl „generiert durch KI“ zuweist – nimmt einige Anpassungen vor, einschließlich der Hinzufügung neuer Warnungen zu den Arten von Grenzergebnissen, die am anfälligsten für Fehler sind.

Ich habe zum ersten Mal in diesem Frühjahr über den KI-Detektor von Turnitin geschrieben, als Bedenken hinsichtlich der Verwendung von KI durch Schüler zum Betrügen dazu führten, dass viele Pädagogen nach Möglichkeiten suchten, ihn zu verhindern. Damals gab das Unternehmen an, dass seine Technologie eine Rate von weniger als 1 Prozent der problematischsten Art von Fehlern aufwies: Fehlalarme, bei denen echte studentische Texte fälschlicherweise als Betrug gekennzeichnet werden. Nun sagt Turnitin, dass seine Software auf Satz-für-Satz-Ebene – einem engeren Maßstab – 4 Prozent des Geschriebenen fälschlicherweise markiert.

Meine Untersuchung ergab auch, dass Fehlerkennungen ein erhebliches Risiko darstellen. Vor dem Start habe ich die Software von Turnitin mit echten Schülertexten und mit Aufsätzen getestet, die freiwillige Schüler mit ChatGPT erstellt haben. Turnitin identifizierte mehr als die Hälfte unserer 16 Proben zumindest teilweise falsch und sagte unter anderem, dass der vollständig von Menschen geschriebene Aufsatz eines Studenten teilweise mit KI geschrieben wurde.

Bei der Erkennung von KI steht möglicherweise besonders viel auf dem Spiel für Lehrer, aber sie sind nicht die Einzigen, die nach Möglichkeiten suchen, dies zu tun. Das gilt auch für Cybersicherheitsunternehmen, Wahlbeamte und sogar Journalisten, die herausfinden müssen, was menschlich ist und was nicht. Auch Sie möchten vielleicht wissen, ob diese auffällige E-Mail eines Chefs oder Politikers von KI geschrieben wurde.

In den letzten Monaten gab es eine Flut von KI-Erkennungsprogrammen im Internet, darunter ZeroGPT und Writer. Sogar OpenAI, das Unternehmen hinter ChatGPT, stellt eines her. Aber es gibt immer mehr Beispiele dafür, dass diese Detektoren Fehler machen – darunter eines, das behauptet, der Prolog der Verfassung sei von KI geschrieben worden. (Nicht sehr wahrscheinlich, es sei denn, Zeitreisen sind jetzt auch möglich?)

Das Wichtigste für Sie: Seien Sie vorsichtig, wenn Sie einen KI-Detektor wie eine Tatsache behandeln. In einigen Fällen ist es derzeit kaum besser als eine zufällige Vermutung.

Eine Fehlerquote von 4 oder sogar 1 Prozent mag klein klingen – aber jede falsche Anschuldigung des Betrugs kann katastrophale Folgen für einen Schüler haben. Seit ich meine Kolumne im April veröffentlicht habe, habe ich Notizen von Schülern und Eltern erhalten, die über die angeblich falschen Anschuldigungen verärgert sind. (Meine E-Mail ist noch offen.)

In einem langen Blogbeitrag letzte Woche sagte Annie Chechitelli, Chief Product Officer von Turnitin, dass das Unternehmen seine Technologie transparent machen möchte, aber sie hat nicht davor zurückgeschreckt, diese einzusetzen. Sie sagte, dass die Falsch-Positiv-Rate für das gesamte Dokument bei Dokumenten, bei denen die Erkennungssoftware davon ausgeht, dass sie über 20 Prozent KI-Schreiben enthalten, weniger als 1 Prozent beträgt. Sie hat jedoch nicht angegeben, wie hoch die Fehlerquote für den Rest der Zeit ist – für Dokumente, bei denen die Software davon ausgeht, dass sie weniger als 20 Prozent KI-Schreiben enthalten. In solchen Fällen hat Turnitin begonnen, neben den Ergebnissen ein Sternchen zu setzen, „um darauf aufmerksam zu machen, dass die Ergebnisse weniger zuverlässig sind.“

„Angesichts der Natur des KI-Schreibens und der KI-Analyse können wir das Risiko falsch positiver Ergebnisse nicht vollständig verringern. Daher ist es wichtig, dass Pädagogen in solchen Fällen den KI-Score nutzen, um einen sinnvollen und wirkungsvollen Dialog mit ihren Schülern zu beginnen“, schrieb Chechitelli.

Die entscheidende Frage lautet: Wie viel Fehler ist bei einem KI-Detektor akzeptabel?

Eine neue Preprint-Forschung von Informatikprofessor Soheil Feizi und Kollegen von der University of Maryland kommt zu dem Ergebnis, dass keine öffentlich verfügbaren KI-Detektoren in praktischen Szenarien ausreichend zuverlässig sind.

„Sie haben eine sehr hohe Falsch-Positiv-Rate und können ziemlich leicht umgangen werden“, erzählte mir Feizi. Er sagte beispielsweise, dass die KI-Erkennungssysteme kaum besser seien als eine zufällige Vermutung, wenn das KI-Schreiben über eine Paraphrasierungssoftware läuft, die wie eine Art automatisierter Thesaurus funktioniert. (Ich habe das gleiche Problem bei meinen Turnitin-Tests festgestellt.)

Er befürchtet auch, dass KI-Detektoren eher die Arbeit von Schülern markieren, für die Englisch eine Zweitsprache ist.

Feizi hat die Software von Turnitin nicht getestet, die nur zahlenden Bildungseinrichtungen zur Verfügung steht. Eine Turnitin-Sprecherin sagte, die Erkennungsfähigkeiten von Turnitin „sind nur minimal mit denen vergleichbar, die in dieser Studie getestet wurden“.

Feizi sagte, wenn Turnitin transparent sein will, sollte es seine vollständigen Genauigkeitsergebnisse veröffentlichen und es unabhängigen Forschern ermöglichen, ihre eigene Forschung zu seiner Software durchzuführen. Eine faire Analyse, sagte er, sollte echte, von Studenten verfasste Aufsätze zu verschiedenen Themen und Schreibstilen verwenden und sich mit Misserfolgen in jeder Untergruppe sowie insgesamt befassen.

„Wir würden ein selbstfahrendes Auto nicht akzeptieren, das in 4 Prozent – oder sogar 1 Prozent“ der Fälle einen Unfall verursacht, sagte Feizi. Deshalb schlägt er einen neuen Basiswert für den als akzeptablen Fehler eines KI-Detektors für Schüler vor: eine Falsch-Positiv-Rate von 0,01 Prozent.

Wann wird das passieren? „Zu diesem Zeitpunkt ist es unmöglich“, sagte er. „Und da wir Verbesserungen bei großsprachigen Modellen haben, wird es noch schwieriger, auch nur annähernd an diesen Schwellenwert heranzukommen.“ Das Problem sei, sagte er, dass die Verteilung von KI-generiertem Text und von Menschen erstelltem Text einander annähere.

„Ich denke, wir sollten uns einfach daran gewöhnen, dass wir nicht zuverlässig sagen können, ob ein Dokument entweder von KI geschrieben wurde – oder teilweise von KI geschrieben oder von KI bearbeitet wurde – oder von Menschen“, sagte Feizi. „Wir sollten unser Bildungssystem so anpassen, dass es den Einsatz der KI-Modelle nicht überwacht, sondern sie grundsätzlich einsetzt, um den Schülern zu helfen, sie zu nutzen und daraus zu lernen.“

Es ist eine der Geißeln des Online-Lebens: Wurden Sie jemals durch etwas, das Sie für eine gefälschte Online-Bewertung halten, in die Irre geführt? Ich spreche von der Art von Rezensionen, die man auf Amazon findet und die ein Produkt empfehlen, das nach dem Kauf nicht mehr funktioniert – oder von der Sorte, die man auf Yelp findet und die einen Arzt lobt, der am Krankenbett völlig eklig zu sein scheint?

Wenn Sie eine Geschichte über zwielichtige Bewertungen zu erzählen haben, würde ich gerne von Ihren Erfahrungen hören. Senden Sie eine E-Mail an [email protected].

Help Desk ist eine Anlaufstelle für Leser, die die im Alltag verwendete Technologie besser verstehen und steuern möchten.

Übernehmen Sie die Kontrolle: Melden Sie sich für den The Tech Friend-Newsletter an, um direkte Gespräche und Ratschläge zu erhalten, wie Sie Ihre Technologie zu einer Kraft des Guten machen können.

Technische Tipps, die Ihnen das Leben erleichtern: 10 Tipps und Tricks zum Anpassen von iOS 16 | 5 Tipps, damit die Akkus Ihrer Gadgets länger halten | So erhalten Sie die Kontrolle über ein gehacktes Social-Media-Konto zurück | So vermeiden Sie, dass Sie online auf Falschinformationen hereinfallen und diese verbreiten

Daten und Datenschutz: Eine Anleitung zu allen Datenschutzeinstellungen, die Sie jetzt ändern sollten. Wir haben die Einstellungen für die beliebtesten (und problematischsten) Dienste durchgesehen, um Ihnen Empfehlungen zu geben. Google | Amazon | Facebook | Venmo | Apfel | Android

Stellen Sie eine Frage: Senden Sie dem Helpdesk Ihre persönlichen Technologiefragen.