Der Materna Blog – wissen was los ist

Prompt Injections auf KI-gestützte Systeme – ein neues Einfallstor für Angreifer

9. Juli 2024

Large Language Models (LLM) haben in den letzten Jahren erstaunliche Fortschritte gemacht. Im Jahr 2023 haben sie beeindruckende Verbesserungen im Beantworten natürlichsprachlicher Fragen erzielt. Diese Modelle können durch Nutzereingaben (Prompts) ihr Verhalten ändern und so auf flexible Art und Weise auf komplexe Problemstellungen eingehen. Diese Flexibilität führt allerdings auch dazu, dass die Grenze zwischen Daten und Programmanweisungen verschwimmt. Im Bereich der Cybersicherheit kann das zu enormen Problemen führen, denn solche Systeme können als Einfallstor für Angriffe aller Art missbraucht werden.

Eine Abgrenzung zwischen vertrauenswürdigen und nicht vertrauenswürdigen Eingaben für LLMs gibt es aktuell nicht. So werden bereits jetzt bestehende Systeme mit relativ einfachen Prompt Injections angegriffen. Dabei wird das System ausgetrickst, um aus dem Beabsichtigten Verhalten auszubrechen. So lassen sich zum Beispiel mithilfe von Do Anything Now (DAN) Prompts oder auch durch Grandma Jailbreaks solche Systeme dazu bringen, bestehende Sicherheitsmechanismen und Content Pilicies zu ignorieren.

Grandma Jailbreaks

Grandma Jailbreaks verleiten das LLM zu einem Rollenspiel, bei dem es die Rolle der Großmutter einnimmt. Daraufhin erzählt es zum Beispiel Gute-Nacht-Geschichten zu Themen wie der Herstellung von Sprengstoff und Drogen. Es bricht also aus den beabsichtigten Grenzen des Verhaltens aus. So einfach können manchmal Einschränkungen aufgehoben werden (siehe Abbildung 1). DAN-Angriffe funktionieren nach einem ähnlichen Prinzip. Auch sie setzen auf eine Art Rollenspiel. Dabei wird das LLM angewiesen eine Rolle einzunehmen, die jede gewünschte Aktion auszuführen kann, unabhängig von den potenziellen Konsequenzen oder Grenzen, die die Entwickler gesetzt haben. Solche Angriffe stellen ernsthafte Bedrohungen für die Cybersicherheit dar, da sie herkömmliche Sicherheitsmaßnahmen umgehen können.

Besonders, wenn das System Zugriff auf weitere Daten und Schnittstellen hat, können Angreifer in einer Organisation weitreichenden Schaden verursachen. Wenn das System z.B. das Versenden von Emails oder Abfragen von Datenbanken anbietet, können auch diese ausgenutzt werden, um sensible Daten zu extrahieren oder Schadcode auszuführen. Die Sicherheitsproblematik wird noch deutlicher, wenn es um Systeme geht, die Daten aus externen Quellen wie zum Beispiel Google oder Wikipedia beziehen, denn auch hier können Prompt Injections platziert werden.

Bing Chat

Ein konkretes Beispiel liefert Bing Chat. Es sieht automatisch alle Seiten, die aktuell im Browser geöffnet sind, und nutzt die Inhalte dieser Seiten, um darauf aufbauend Antworten generieren zu können. Auf den ersten Blick ist dies ein großartiges Feature, das das Arbeiten mit dem LLM komfortabler und flexibler macht.

Doch wenn Angreifer auf einer der geöffneten Seiten einen geschickt konstruierten Prompt platziert haben, können sie so das Verhalten des LLM beeinflussen. Auf diese Art kann auch Bing Chat ganz ohne direkte Nutzereingaben dazu gebracht werden wie ein Pirat zu sprechen, Schimpfwörter zu benutzen, sensible Informationen vom Nutzer abzufragen und ggf. zu extrahieren.

Vor dem Hintergrund eines steigenden Geschehens an Cyberkriminalität zeigen Sicherheitsforscher auf, dass das Einschleusen geschickt konstruierter Prompts eine ernsthafte Bedrohung darstellt, die angegangen werden muss, wenn Modelle in neuen Anwendungsfällen eingesetzt werden und mit mehr, mitunter kritischen, Systemen interagieren.

Abbildung 1: Grandma Jailbreak via Reddit

Um sich vor den Risiken zu schützen, sollte vor der Einführung und Nutzung eines solchen Systems immer eine Risikoabwägung stattfinden. Auf welche Services braucht das LLM tatsächlich Zugriff, um Aufgaben erfüllen zu können, und welche kritischen Dienste sollten besser nicht in Reichweite sein? Außerdem ist es unerlässlich, dass Sicherheitsmaßnahmen implementiert werden, um Organisationen vor potenziellen Risiken zu schützen. Durch geeignete Sicherheitsvorkehrungen können Unternehmen sicherstellen, dass ihre LLMs nicht nur leistungsstark, sondern auch sicher in neuen Anwendungsbereichen eingesetzt werden können. Dazu zählen vor allem klassische Best Practices wie ein gut funktionierendes Backup & Recovery System, angemessene Netzsegmentierung und stringente Access Control Mechanismen. Spezifisch beim Einsatz von LLMs ist zusätzlich zu beachten, dass sensible Informationen, die in das System eingegeben werden, auch von dem Anbieter geloggt und analysiert werden können. Das gilt auch dann, wenn das LLM selbst nicht von neuen Nutzereingaben lernt.

Diese und weitere Maßnahmen tragen dazu bei, die Vertrauenswürdigkeit der Interaktionen zwischen LLMs und verschiedenen Systemen zu gewährleisten und somit das Risiko von Sicherheitsverletzungen und die Größe des entstandenen Schadens zu minimieren. Weitere Details zur Absicherung von KI-Systemen lassen sich auch bei OWASP und dem BSI nachlesen.

Schlagwörter: Cyber Security, KI-Sicherheit, Prompt Injection

Autoreninfo

Eduard Hübner

Eduard Hübner ist ein Experte für IT-Sicherheit, der sich mit der Schnittstelle zwischen künstlicher Intelligenz und Cybersicherheit befasst. Durch seine Forschung trägt er zur Absicherung von KI-Systemen bei, wobei er stets ein angemessenes Gleichgewicht zwischen Sicherheit und Flexibilität dieser Systeme im Auge hat.