Microsoft claims its new tool can correct AI hallucinations, but experts advise caution

Microsoft behauptet, sein neues Tool könne KI-Halluzinationen korrigieren, Experten raten jedoch zur Vorsicht

KI ist eine notorische Lügnerin und Microsoft sagt nun, dass es eine Lösung dafür gibt. Verständlicherweise wird das einige Augenbrauen hochziehen, aber es gibt Grund, skeptisch zu sein.

Microsoft hat heute Correction vorgestellt, einen Dienst, der versucht, von KI generierte Texte, die sachlich falsch sind, automatisch zu korrigieren. Correction markiert zunächst Texte, die Mai fehlerhaft sein – etwa eine Zusammenfassung einer Telefonkonferenz zu den Quartalsergebnissen eines Unternehmens, in der Zitate falsch zugeschrieben sein könnten – und dann eine Faktenprüfung durchführen, indem der Text mit einer stichhaltigen Quelle (z. B. Transkripten) verglichen wird.

Correction, verfügbar als Teil der Azure AI Content Safety API von Microsoft, kann mit jedem textgenerierenden KI-Modell verwendet werden, einschließlich Llama von Meta und GPT-4o von OpenAI.

„Die Korrektur wird durch einen neuen Prozess ermöglicht, bei dem kleine und große Sprachmodelle verwendet werden, um die Ergebnisse mit den zugrunde liegenden Dokumenten abzugleichen“, sagte ein Microsoft-Sprecher gegenüber TechCrunch. „Wir hoffen, dass diese neue Funktion Entwickler und Benutzer generativer KI in Bereichen wie der Medizin unterstützt, in denen Anwendungsentwickler der Genauigkeit der Antworten eine erhebliche Bedeutung beimessen.“

Google hat diesen Sommer eine ähnliche Funktion in Vertex AI, seiner KI-Entwicklungsplattform, eingeführt, mit der Kunden Modelle mithilfe von Daten von Drittanbietern, ihren eigenen Datensätzen oder der Google-Suche „erden“ können.

Experten geben jedoch zu bedenken, dass diese Erdungsansätze nicht die eigentliche Ursache der Halluzinationen beheben.

„Der Versuch, Halluzinationen aus generativer KI zu eliminieren, ist wie der Versuch, Wasserstoff aus Wasser zu eliminieren“, sagte Os Keyes, ein Doktorand an der University of Washington, der die ethischen Auswirkungen neuer Technologien untersucht. „Es ist ein wesentlicher Bestandteil der Funktionsweise der Technologie.“

Textgenerierende Modelle halluzinieren, weil sie eigentlich nichts „wissen“. Es sind statistische Systeme, die Muster in einer Reihe von Wörtern erkennen und auf Grundlage der unzähligen Beispiele, mit denen sie trainiert wurden, vorhersagen, welche Wörter als nächstes kommen.

Daraus folgt, dass die Antworten eines Modells keine Antworten sind, sondern lediglich Vorhersagen darüber, wie eine Frage würde beantwortet werden, wenn sie im Trainingsset vorhanden wäre. Infolgedessen neigen Modelle dazu, mit der Wahrheit nicht so genau gehen. Eins Studie stellte fest, dass ChatGPT von OpenAI medizinische Fragen in der Hälfte der Fälle falsch beantwortet.

Die Lösung von Microsoft besteht aus zwei Metamodellen mit Querverweisen und einer Art Texteditor, die dazu dienen, Halluzinationen hervorzuheben und neu zu schreiben.

Ein Klassifikatormodell sucht nach möglicherweise falschen, erfundenen oder irrelevanten Ausschnitten des von der KI generierten Textes (Halluzinationen). Wenn der Klassifikator Halluzinationen erkennt, greift er auf ein zweites Modell zurück, ein Sprachmodell, das versucht, die Halluzinationen anhand bestimmter „Grunddokumente“ zu korrigieren.

Bildnachweise: Microsoft

„Korrekturen können die Zuverlässigkeit und Vertrauenswürdigkeit von KI-generierten Inhalten erheblich verbessern, indem sie Anwendungsentwicklern helfen, die Unzufriedenheit der Benutzer und potenzielle Reputationsrisiken zu reduzieren“, sagte der Microsoft-Sprecher. „Es ist wichtig zu beachten, dass die Bodenständigkeitserkennung kein Problem mit ‚Genauigkeit‘ darstellt, sondern hilft, generative KI-Ausgaben mit Bodenständigkeitsdokumenten in Einklang zu bringen.“

Keyes hat daran Zweifel.

„Es könnte einige Probleme verringern“, sagten sie, „aber es wird auch neue Probleme schaffen. Schließlich ist Corrections Halluzinationserkennungsbibliothek vermutlich auch in der Lage, Halluzinationen hervorzurufen.“

Auf die Frage nach Hintergrundinformationen zu den Korrekturmodellen verwies der Sprecher auf eine kürzlich Papier von einem Microsoft-Forschungsteam, das die Vorproduktionsarchitekturen der Modelle beschreibt. In dem Dokument fehlen jedoch wichtige Details, beispielsweise welche Datensätze zum Trainieren der Modelle verwendet wurden.

Mike Cook, ein auf KI spezialisierter Forscher an der Queen Mary University, argumentiert, dass Correction, selbst wenn es wie angekündigt funktioniert, die Vertrauens- und Erklärbarkeitsprobleme rund um KI noch verstärken könnte. Der Dienst könnte zwar einige Fehler erkennen, aber er könnte die Benutzer auch in falscher Sicherheit wiegen – indem er sie glauben lässt, dass die Modelle häufiger der Wahrheit entsprechen, als es tatsächlich der Fall ist.

„Microsoft hat, wie auch OpenAI und Google, dieses Problem geschaffen, bei dem man sich in Szenarien auf Modelle verlässt, in denen sie häufig falsch liegen“, sagte er. „Was Microsoft jetzt macht, ist, den Fehler auf einer höheren Ebene zu wiederholen. Sagen wir, das bringt uns von 90 % Sicherheit auf 99 % – das Problem lag nie wirklich bei diesen 9 %. Es wird immer bei dem 1 % der Fehler liegen, die wir noch nicht erkennen.“

Cook fügte hinzu, dass Microsofts Bündelung von Correction auch einen zynischen Geschäftsaspekt habe. Die Funktion allein ist kostenlos, aber die „Bodenhaftungserkennung“, die zur Erkennung von Halluzinationen erforderlich ist, damit Correction sie korrigieren kann, ist nur bis zu 5.000 „Textdatensätzen“ pro Monat kostenlos. Danach kostet sie 38 Cent pro 1.000 Textdatensätze.

Microsoft steht zweifellos unter dem Druck, seinen Kunden – und Aktionären – zu beweisen, dass seine KI die Investition wert ist.

Allein im zweiten Quartal gepflügt fast 19 Milliarden Dollar an Investitionen und Ausrüstung, die größtenteils mit KI zu tun haben. Dennoch hat das Unternehmen noch keine nennenswerten Umsätze aus KI erzielt. Ein Wall Street-Analyst diese Woche herabgestuft die Aktien des Unternehmens und begründete dies mit Zweifeln an seiner langfristigen KI-Strategie.

Laut einer Stück In The Information heißt es, dass viele Early Adopters die Bereitstellung von Microsofts Flaggschiff-Plattform für generative KI, Microsoft 365 Copilot, aufgrund von Leistungs- und Kostenbedenken pausiert haben. Für einen Kunden, der Copilot für Microsoft Teams-Meetings verwendet, Die KI hat angeblich die Teilnehmer erfunden und implizierte, dass es in den Anrufen um Themen ging, die nie wirklich besprochen wurden.

Genauigkeit und das Potenzial für Halluzinationen gehören heute zu den größten Bedenken der Unternehmen bei der Pilotierung von KI-Tools. laut einer KPMG-Umfrage.

„Wenn dies ein normaler Produktlebenszyklus wäre, würde generative KI immer noch in der akademischen Forschung und Entwicklung sein und daran gearbeitet werden, sie zu verbessern und ihre Stärken und Schwächen zu verstehen“, sagte Cook. „Stattdessen haben wir sie in einem Dutzend Branchen eingesetzt. Microsoft und andere haben alle in ihr aufregendes neues Raumschiff geladen und entscheiden, auf dem Weg zu ihrem Ziel das Fahrwerk und die Fallschirme zu bauen.“

Leave a Comment

Your email address will not be published. Required fields are marked *