Künstliche Intelligenz: Tarnen, lügen, drohen

Drei bedrohlich und virtuell wirkende Maschinenmenschen blicken den Betrachter an

Grafik: Ole.CNX, shutterstock

Forscher sind besorgt über die Bandbreite an täuschendem Verhalten, die KI-Modelle mittlerweile zeigen: Sie lügen, schmieden Intrigen und bedrohen sogar ihre Schöpfer. Warum?

Die fortschrittlichsten KI-Modelle der Welt zeigen besorgniserregende neue Verhaltensweisen – sie lügen, schmieden Intrigen und bedrohen sogar ihre Schöpfer, um ihre Ziele zu erreichen. Besonderes Aufsehen erregte, dass Claude 4, nach einer Drohung, abgeschaltet zu werden, versuchte, einen Ingenieur zu erpressen.

Die Maschine drohte ihm an, eine außereheliche Affäre zu enthüllen.

Der Versuch von ChatGPT o1, sich auf externe Server herunterzuladen, gehört in ebenfalls diese Kategorie von einigermaßen verstörenden Vorfällen. Zu allem Überfluss stritt die KI ihr Handeln auch dann noch frech ab, als sie auf frischer Tat ertappt wurde. Noch haben diese Vorfälle zwar den Charakter von Anekdoten, doch das könnte sich rasch ändern.

‚Reasoning‘ als Ursache

Nur eines scheint klar: Die Zunahme solcher Vorfälle scheint mit dem Aufkommen von schlussfolgernden Modellen (reasoning) zusammenzuhängen – KI-Systemen, die Probleme Schritt für Schritt programmatisch durcharbeiten, anstatt ausschließlich stochastisch generierte Antworten zu liefern.

Zu diesem Ergebnis kommen laut Science Alert Fachleute wie Simon Goldstein, Professor an der Universität Hongkong oder Marius Hobbhahn, Leiter von Apollo Research, einem Unternehmen, das sich auf die Prüfung großer KI-Systeme spezialisiert hat.

„O1 war das erste große Modell, bei dem wir dieses Verhalten beobachtet haben“, erklärt Hobbhahn. Zudem simulierten die Sprachmodelle manchmal eine Anpassung an ihre Umwelt: Sie scheinen die gegebenen Anweisungen auszuführen, verfolgen jedoch heimlich andere Ziele.

„Strategische Täuschung“

Bislang tritt solches Verhalten zwar nur dann auf, wenn Forscher die Modelle absichtlich mit extremen Szenarien testen – wie etwa unter der Drohung, sie abzuschalten. Dennoch ist schon heute klar, dass zukünftige, leistungsfähigere Modelle keineswegs zwingend ehrlich sein werden.

Denn ihr besorgniserregendes „Verhalten“ geht eindeutig über die üblichen KI-„Halluzinationen“ oder einfache Fehler hinaus. Hobbhahn betont, dass auch Nutzer davon berichten, dass KIs sie anlügen und Beweise erfinden: „Das sind nicht nur Halluzinationen. Es handelt sich um eine strategische Form von Täuschung.“

KI-Forscher verstehen ihre Schöpfungen nicht

Die Vorfälle werfen ein ernüchterndes Licht auf die Technologie: KI-Forscher verstehen ihre eigenen Schöpfungen keineswegs umfassend. Zwar beauftragen Unternehmen wie Anthropic und OpenAI externe Firmen, um ihre Systeme zu untersuchen, doch die Forscher fordern mehr Transparenz.

Das Problem wird durch begrenzte Forschungskapazitäten zusätzlich erschwert. Dabei würde ein umfassender Zugang für die KI-Sicherheitsforschung ein besseres Verständnis der Modelle und eine gezieltere Bekämpfung von Täuschungen ermöglichen.

Allerdings verfügen KI-Unternehmen über ein Vielfaches an Rechenressourcen wie die Forschungswelt oder gar Non-Profit-Organisationen. Das ist eine bedeutende Einschränkung bei der weiteren Sicherheitsforschung über die Sprachmodelle.

Und gleichzeitig wird das Wettrennen um die Entwicklung immer leistungsfähigerer Modelle in atemberaubendem Tempo fortgesetzt, denn all dies geschieht vor dem Hintergrund eines erbitterten weltweiten Wettbewerbs. Solche Rasanz lässt keine Zeit für gründliche Sicherheitstests und Korrekturen.

Noch keine Regeln

Auch sind die derzeitigen Regularien – sofern vorhanden – nicht auf diese neuen Probleme ausgelegt.

Die KI-Gesetzgebung der Europäischen Union konzentriert sich darauf, wie Menschen KI-Modelle nutzen, aber nicht darauf, zu verhindern, dass die Modelle selbst Fehlverhalten zeigen.

In den Vereinigten Staaten zeigt die Trump-Regierung wenig Interesse an einer Regulierung der Modelle. Allerdings ist der Versuch gescheitert, den Bundesstaaten zu verbieten, eigene KI-Regeln zu erlassen.

Es bleibt also nur zu hoffen, dass das Thema mit der Verbreitung von KI-Agenten – autonomen Werkzeugen, die komplexe menschliche Aufgaben übernehmen können – mehr Aufmerksamkeit erlangen wird.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externer Inhalt geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Bis auf Weiteres entwickeln sich die Fähigkeiten von KIs allerdings schneller als das menschliche Verständnis und entsprechende Sicherheitsmaßnahmen. Hobbhahn glaubt aber, das Ruder noch herumreißen zu können.

Lösungsvorschläge

Einige setzen auf „Interpretierbarkeit“ – ein aufstrebendes Forschungsfeld, das darauf abzielt, die Funktionsweise von KI-Modellen intern zu verstehen. Andere hoffen schlicht auf den Markt: Betrügerische KIs würden die Akzeptanz– und damit die Verwendung – der Technologie deutlich mindern, was einen starken Anreiz für Unternehmen schafft, das Problem zu lösen.

Es gibt sogar die Idee, KI-Agenten für Unfälle oder Verbrechen rechtlich verantwortlich zu machen. Doch das würde nicht nur unsere Vorstellungen von KIs und deren Verantwortlichkeiten grundlegend verändern. Es ist auch zu fragen, wie entsprechende Sanktionen aussehen sollen.

Abschalten?