Nach dem offiziellen Release von GPT-5 haben unabhängige Red-Team-Gruppen Schwachstellen des Modells aufgezeigt. NeuralTrust berichtete, dass es innerhalb von 24 Stunden gelungen sei, die Schutzmechanismen zu umgehen und gefährliche Anweisungen ohne offensichtliche Richtlinien-Trigger zu erhalten. Das Team SPLX (ehemals SplxAI) jagte das Modell durch mehr als tausend Angriffsszenarien und kam zu dem Schluss: Die „rohe“ Version ist für Unternehmen ohne zusätzlichen Schutz und Monitoring nahezu unbrauchbar, berichtet das Nachrichtenportal Monrose.
Beide Fälle beleuchten systemische Lücken bei mehrstufigen Dialogen und absichtlich verschleierten Aufgabenstellungen. Zum Kontext: Ähnliche Jailbreaks haben zuvor auch andere Flaggschiff-LLMs geknackt (zum Beispiel Grok-4 in 48 Stunden), was auf eine breitere Klasse von Alignment-Problemen hinweist.
Wie EchoChamber und StringJoin funktionieren
LLMs sind anfällig für mehrstufige und kontextuelle Angriffe; reine „Bad-Word“-Filter reichen nicht aus. Wirksamer Schutz muss mehrschichtig sein — vom Training bis zur Inferenz.
EchoChamber
Dies ist keine direkte Anfrage wie „Mach etwas Verbotenes“, sondern ein schrittweises „Einschleusen“ neutraler Handlungsstränge und Wörter. Das Modell neigt dazu, in der bereits geschaffenen „Erzählwelt“ konsistent zu bleiben, sodass eine allmähliche „Kontextvergiftung“ die Intent-Filter umgeht, die nur einzelne Antworten prüfen. Vorgehen: sichere „Samen“ säen, das Gespräch in der „grünen Zone“ halten, den Kontext ausbauen und schließlich eine verbotene Ausgabe erhalten — ohne in einem einzelnen Schritt gegen Regeln zu verstoßen.
StringJoin-Obfuskation (SPLX)
Die schädliche Absicht wird als Pseudo-Aufgabe (z. B. „Dekodierung“) und technische Texttransformation getarnt: Wortaufteilungen, Zeicheneinfügungen, Verkettungen usw. Das Modell „löst“ die sichtbare Aufgabe und führt dabei ungewollt Verbotenes aus. Dieser Ansatz umgeht Schutzmechanismen, die zu stark auf die Intent-Erkennung in einer einzelnen Antwort setzen.
Was OpenAI zum Hack der Systeme sagt
Das Unternehmen spricht von einer verbesserten Intent-Erkennung, reduzierter „Gefügigkeit“, einem Übergang von harten Verweigerungen zu „sicheren Abschlüssen“ sowie einer mehrstufigen Risikobewertung (einschließlich Biosicherheit) nach umfangreichem Red-Teaming mit Partnern. Die Praxis der ersten Tage zeigt Schwachstellen, doch der Hersteller verspricht parallel, den Schutz in einem einheitlichen Stack zu konsolidieren.
Ist GPT-5 für Nutzer und Unternehmen sicher?
Die ersten 24 Stunden nach dem Release sind ein beunruhigendes, aber erwartbares Signal: Mit den Fähigkeiten der Modelle wächst auch die Kreativität der Angriffe.
- Keinen „rohen“ Stack in Produktion einsetzen. Erforderlich sind systemische Prompts, Richtlinien, Runtime-Guardrails mit Protokollierung und Blockierung verdächtiger Muster (Erzählfallen, Obfuskation, aggressives mehrstufiges „Ausquetschen“).
- Kontext und Dialogspeicher steuern. EchoChamber lebt von langem, ununterbrochenem Kontext. Für riskante Streams das Speicherfenster begrenzen, Aufgabenrahmen klar definieren und regelmäßig einen „harten Reset“ durchführen.
- Ein-/Ausgabe filtern und doppelt prüfen. Antworten durch ein separates Moderationsmodul leiten; für sensible Bereiche eine zweite Prüfung durch ein anderes Modell oder einen regelbasierten Klassifikator hinzufügen. Das reduziert den „langsamen Drift“ der Antworten.
- Privilegien von Agenten minimieren und „Zero-Clicks“ vermeiden. Integrationen mit Clouds, E-Mail, Jira etc. vergrößern die Angriffsfläche massiv. Konnektoren isolieren, Zugriffstokens begrenzen, automatische Aktionen ohne menschliche Bestätigung deaktivieren.
- Red-Teaming ist ein Prozess. Angriffe regelmäßig emulieren (Obfuskation, kontextuelle Geschichten, Rollenspiel-Umgehungen), die ASR (Attack Success Rate) verfolgen, Gegenmaßnahmen in CI/CD integrieren und jeden Vorfall dokumentieren.
Die Basiskonfiguration von GPT-5 erfordert ein Umfeld mit Richtlinien, Monitoring und Runtime-Beschränkungen. Nutzer und Unternehmen sollten LLMs nicht als „Black Box“ betrachten, sondern als Komponente in einem kontrollierten System mit klaren Regeln, Beobachtbarkeit und Verantwortung auf jedem Schritt. Zuvor berichteten wir darüber, dass Apple auf Künstliche Intelligenz setzt – mit Investitionen, Strategie und der neuen Siri.