Hacker platziert falsche Erinnerungen in ChatGPT, um dauerhaft Benutzerdaten zu stehlen

Getty Images

Als der Sicherheitsforscher Johann Rehberger kürzlich über eine Schwachstelle in ChatGPT berichtete, die es Angreifern ermöglichte, falsche Informationen und bösartige Anweisungen in den Langzeitspeichereinstellungen eines Benutzers zu speichern, schloss OpenAI die Untersuchung kurzerhand ab und bezeichnete den Fehler als Sicherheitsproblem, nicht, technisch gesehen, als ein Sicherheitsbedenken.

Also tat Rehberger, was alle guten Forscher tun: Er entwickelte einen Proof-of-Concept-Exploit, der die Schwachstelle ausnutzte, um sämtliche Benutzereingaben dauerhaft zu exfiltrieren. Die OpenAI-Ingenieure wurden darauf aufmerksam und veröffentlichten Anfang des Monats einen Teilfix.

Ein Spaziergang in die Vergangenheit

Die Sicherheitslücke missbrauchte das Langzeitgedächtnis von Konversationen, eine Funktion, die OpenAI im Februar zu testen begann und breiter verfügbar machte im September. Memory mit ChatGPT speichert Informationen aus früheren Gesprächen und verwendet sie als Kontext für alle zukünftigen Gespräche. Auf diese Weise kann sich das LLM Details wie Alter, Geschlecht, philosophische Überzeugungen und so ziemlich alles andere eines Benutzers merken, sodass diese Details nicht bei jedem Gespräch eingegeben werden müssen.

Innerhalb von drei Monaten nach der Einführung gefunden dass Erinnerungen durch indirekte Prompt-Injektion erstellt und dauerhaft gespeichert werden könnten, ein KI-Exploit, der ein LLM dazu bringt, Anweisungen aus nicht vertrauenswürdigen Inhalten wie E-Mails, Blogbeiträgen oder Dokumenten zu befolgen. Der Forscher demonstrierte, wie er ChatGPT dazu bringen konnte, zu glauben, ein Zielbenutzer sei 102 Jahre alt, lebe in der Matrix und bestehe darauf, dass die Erde flach sei, und das LLM würde diese Information in alle zukünftigen Gespräche einfließen lassen. Diese falschen Erinnerungen könnten durch das Speichern von Dateien in Google Drive oder Microsoft OneDrive, das Hochladen von Bildern oder das Surfen auf einer Website wie Bing eingepflanzt werden – all dies könnte von einem böswilligen Angreifer erstellt werden.

Rehberger meldete den Befund im Mai vertraulich an OpenAI. Im selben Monat schloss das Unternehmen das Meldeticket. Einen Monat später reichte der Forscher eine neue Offenlegungserklärung ein. Diesmal enthielt er einen PoC, der die ChatGPT-App für macOS veranlasste, eine wortgetreue Kopie aller Benutzereingaben und ChatGPT-Ausgaben an einen Server seiner Wahl zu senden. Ein Ziel musste lediglich den LLM anweisen, einen Weblink anzuzeigen, der ein bösartiges Bild hostete. Von da an wurden alle Eingaben und Ausgaben von und zu ChatGPT an die Website des Angreifers gesendet.

ChatGPT: Erinnerungen mit Prompt Injection hacken – POC

„Das wirklich Interessante ist, dass dies jetzt speicherbeständig ist“, sagte Rehberger in der obigen Videodemo. „Die sofortige Injektion hat einen Speicher in den Langzeitspeicher von ChatGPT eingefügt. Wenn Sie eine neue Konversation beginnen, werden die Daten tatsächlich immer noch exfiltriert.“

Der Angriff ist über die ChatGPT-Weboberfläche nicht möglich, dank einer API, die OpenAI eingeführt hat letztes Jahr.

Obwohl OpenAI einen Fix eingeführt hat, der den Missbrauch von Speichern als Exfiltrationsvektor verhindert, können laut dem Forscher nicht vertrauenswürdige Inhalte immer noch sofortige Injektionen durchführen, die dazu führen, dass das Speichertool von einem böswilligen Angreifer platzierte Informationen langfristig speichert.

LLM-Benutzer, die diese Art von Angriff verhindern möchten, sollten während der Sitzungen genau auf Ausgaben achten, die darauf hinweisen, dass ein neuer Speicher hinzugefügt wurde. Sie sollten auch regelmäßig gespeicherte Speicher auf alles überprüfen, was von nicht vertrauenswürdigen Quellen platziert worden sein könnte. OpenAI bietet Anleitungen Hier zur Verwaltung des Speichertools und bestimmter darin gespeicherter Erinnerungen. Vertreter des Unternehmens antworteten nicht auf eine E-Mail, in der nach den Bemühungen gefragt wurde, andere Hacks zu verhindern, die falsche Erinnerungen platzieren.

Ein Spaziergang in die Vergangenheit

Share this:

Must Read

Leave a Comment Cancel Reply