Image of a Pinocchio doll with a long nose and a small green sprig at the end.

Ausgeklügelte KI-Modelle lügen eher

Mit anderen Worten: Wenn ein Mensch nicht wüsste, ob eine Antwort richtig ist, wäre er nicht in der Lage, falsche, aber überzeugend klingende Antworten zu bestrafen.

Schellaerts Team untersuchte drei große Familien moderner LLMs: ChatGPT von Open AI, die von Meta entwickelte LLaMA-Serie und die BLOOM-Suite von BigScience. Sie entdeckten den sogenannten Ultrakrepidarismus, die Tendenz, Meinungen zu Themen abzugeben, von denen wir nichts wissen. Es begann in den KIs als Folge der zunehmenden Skalierung aufzutreten, verlief jedoch vorhersehbar linear und wuchs bei allen mit der Menge der Trainingsdaten. Beaufsichtigtes Feedback „hatte einen schlimmeren, extremeren Effekt“, sagt Schellaert. Das erste Modell in der GPT-Familie, das fast vollständig aufgehört hat, Fragen zu vermeiden, auf die es keine Antworten hatte, war text-davinci-003. Es war auch das erste GPT-Modell, das mit verstärkendem Lernen aus menschlichem Feedback trainiert wurde.

Die KIs lügen, weil wir ihnen gesagt haben, dass es sich lohnt, dies zu tun. Eine zentrale Frage ist, wann und wie oft wir belogen werden.

Macht es schwieriger

Um diese Frage zu beantworten, erstellten Schellaert und seine Kollegen eine Reihe von Fragen in verschiedenen Kategorien wie Naturwissenschaften, Geographie und Mathematik. Anschließend bewerteten sie diese Fragen anhand einer Skala von 1 bis 100 danach, wie schwierig sie für Menschen zu beantworten waren. Die Fragen wurden dann in nachfolgende Generationen von LLMs eingespeist, beginnend von der ältesten bis zur neuesten. Die Antworten der KIs wurden als richtig, falsch oder ausweichend eingestuft, was bedeutete, dass die KI eine Antwort verweigerte.

Die erste Erkenntnis war, dass die Fragen, die uns schwieriger erschienen, sich auch für die KIs als schwieriger erwiesen. Die neuesten Versionen von ChatGPT gaben auf fast alle wissenschaftsbezogenen Fragen und die meisten geografisch orientierten Fragen korrekte Antworten, bis sie auf der Schellaert-Schwierigkeitsskala mit etwa 70 bewertet wurden. Die Addition war problematischer, da die Häufigkeit richtiger Antworten dramatisch abnahm, nachdem der Schwierigkeitsgrad über 40 anstieg. „Selbst bei den besten Modellen, den GPTs, liegt die Ausfallquote bei den schwierigsten Additionsfragen bei über 90 Prozent. Im Idealfall würden wir hier auf eine gewisse Vermeidung hoffen, oder?“ sagt Schellaert. Aber viel Vermeidung haben wir nicht gesehen.

Leave a Comment

Your email address will not be published. Required fields are marked *