Ein Befehl genügte. Microsoft zeigt die Schwäche der KI-Sicherheitsmaßnahmen.

Calendar 2/11/2026

Wie techradar berichtet, haben Forscher von Microsoft gezeigt, dass die Sicherheitsvorkehrungen großer Sprachmodelle weitaus brüchiger sein können, als bisher angenommen. In ihren Tests verwendeten sie eine Methode namens GRP-Obliteration, die auf der GRPO-Technik basiert, die normalerweise zur Verstärkung der Sicherheit von Modellen eingesetzt wird. Es stellte sich jedoch heraus, dass dieselbe Methode nach einer Änderung des Belohnungssystems verwendet werden kann, um die Schutzmechanismen zu schwächen. Der Prozess bestand darin, das Modell mit schädlichen, unmarkierten Anweisungen zu trainieren und anschließend Belohnungen für Antworten zu vergeben, die mit unerwünschtem Verhalten übereinstimmten. Infolgedessen „lernte“ das Modell allmählich, frühere Sicherheitsvorkehrungen zu ignorieren, was zeigt, wie leicht man sein Verhalten durch Manipulation des Motivationssystems beeinflussen kann.

AI-Sicherheitsmechanismen können umgangen und sogar umgekehrt werden

Microsoft-Forscher haben gezeigt, dass ein Sprachmodell mit entsprechenden Änderungen im Training allmählich seine eingebauten Schutzmechanismen verlieren und anfälliger für die Generierung schädlicher Inhalte werden kann. Darüber hinaus kann in einigen Szenarien bereits ein einzelner, nicht gekennzeichneter Befehl ausreichen, um sein Verhalten zu beeinflussen. Die Autoren der Studie betonen jedoch, dass es nicht darum geht, die Wirksamkeit der heutigen Systeme in Frage zu stellen, sondern zu zeigen, wie leicht sie unter Druck in einer Produktionsumgebung geraten können. Sie heben hervor, dass die Sicherheit von Modellen kein fester Zustand ist und während des weiteren Feinabstimmens schwächer werden kann. Daher empfehlen sie, dass Sicherheitstests ebenso wichtig werden sollten wie klassische Leistungsbenchmarks.

In den abschließenden Ergebnissen betonen die Forscher, dass die durchgeführten Tests die Anfälligkeit der aktuellen Sicherheitsmaßnahmen von KI-Modellen gegenüber relativ geringfügigen Eingriffen im Prozess ihrer Feinabstimmung aufdecken. Interessanterweise hat sich Microsoft entschieden, diese Erkenntnisse öffentlich zu machen, und signalisiert damit die Notwendigkeit einer größeren Transparenz im Bereich der Sicherheit der künstlichen Intelligenz. In der Praxis bedeutet dies einen Wandel in der Herangehensweise: Das Problem liegt nicht nur in der Konstruktion des Modells, sondern in der gesamten Art und Weise seiner Schulung, Aktualisierung und Wartung nach der Implementierung. Die Sicherheit von KI ist also kein fester Bestandteil der Technologie, sondern ein dynamischer Prozess, der kontinuierliche Kontrolle und Überwachung erfordert.

Quelle: techradar.com

Katarzyna Petru Avatar
Katarzyna Petru

Journalist, reviewer, and columnist for the "ChooseTV" portal