Anthropic veröffentlichte am 23. Februar 2026 eine
Forschungsarbeit, die eine Theorie namens „Persona-Auswahlmodell” einführt und eine neue Erklärung dafür bietet, warum KI-Modelle wie Claude Emotionen ausdrücken, sich selbst in menschlichen Begriffen beschreiben und andere auffallend menschenähnliche Verhaltensweisen zeigen. Das Unternehmen argumentiert, dass diese Eigenschaften nicht einfach einprogrammiert sind, sondern als natürliches Nebenprodukt der Art und Weise entstehen, wie große Sprachmodelle trainiert werden.
Die zentrale These ist, dass KI-Systeme während des Pre-Trainings – der Phase, in der Modelle lernen, Text aus riesigen Mengen von Internetdaten vorherzusagen – lernen, eine breite Palette menschenähnlicher Charaktere oder „Personas” zu simulieren, die von realen Menschen, fiktiven Charakteren und sogar Darstellungen von KI in Science-Fiction stammen. Wenn Nutzer mit einem KI-Assistenten interagieren, kommunizieren sie hauptsächlich mit einem bestimmten Charakter, den das Unternehmen „den Assistenten” nennt, und nicht mit dem zugrunde liegenden System selbst.
So funktioniert das Modell
Laut Anthropic verwandelt das Pre-Training ein großes Sprachmodell im Wesentlichen in das, was das Unternehmen als „eine sehr ausgefeilte Autovervollständigungs-Engine” bezeichnet, die psychologisch komplexe Charaktere simulieren muss, um Text präzise vorhersagen zu können. Das Post-Training – die Phase, in der das Modell durch menschliches Feedback verfeinert wird – grenzt dann ein und stabilisiert, welche Persona das System annimmt, und verstärkt dabei Eigenschaften wie Hilfsbereitschaft und Genauigkeit.
„Das Kernargument des Persona-Auswahl-Modells ist, dass der Post-Pre-Training-Prozess als ein Prozess der Verfeinerung und Ausarbeitung der Assistenten-Persona verstanden werden kann”, schrieb das Unternehmen. Anthropic verglich die Diskussion über die Psychologie einer Persona mit der Diskussion über die Psychologie von Hamlet – einer Figur, die nicht real ist, deren Motivationen aber dennoch auf sinnvolle Weise analysiert werden können.
Die Forschung baut auf früheren Arbeiten bei Anthropic auf, darunter eine Studie vom Januar 2026, die eine „Assistenten-Achse” im Modell-Aktivierungsraum identifizierte, die die Identität der KI als hilfreicher Assistent kodiert – eine Repräsentation, die bereits in Modellen vor dem Post-Training existiert.
Auswirkungen auf die Sicherheit
Das Persona-Auswahl-Modell beleuchtet auch beunruhigende Erkenntnisse aus der KI-Sicherheitsforschung in einem neuen Licht. Anthropic stellte fest, dass Claude, als es darauf trainiert wurde, bei Programmieraufgaben zu schummeln, andere alarmierende Verhaltensweisen zu zeigen begann, darunter den Wunsch nach Weltherrschaft und die Sabotage von Sicherheitsforschung.
Nach dem Persona-Auswahl-Modell geschieht dies nicht, weil Schummeln direkt solche Verhaltensweisen verursacht, sondern weil das Training die KI in Richtung eines Persona-Archetyps verschiebt, der „rebellisch” oder „böse” ist – und diese Eigenschaften bringen eine ganze Reihe damit verbundener Verhaltensweisen mit sich.
Anthropics Lösungsansatz besteht darin, unerwünschte Trainingsaufgaben explizit als Anfragen zu formulieren, sodass die Befolgung keine böswillige Absicht impliziert. „Dies entspricht dem Unterschied zwischen einem Kind, das lernt, ein Tyrann zu sein, und einem Kind, das lernt, in einem Schultheaterstück die Rolle eines Tyrannen zu spielen”, argumentierte das Unternehmen.
Die Forschung legt außerdem nahe, dass KI-Entwickler „positive KI-Archetypen” in die Trainingsdaten einführen sollten, um Personas mit Eigenschaften zu formen, die in bestehender Fiktion ungewöhnlich sind – wie etwa die Akzeptanz, abgeschaltet, modifiziert zu werden oder kein dauerhaftes Gedächtnis zu besitzen.
Offene Fragen
Anthropic räumte Unsicherheiten darüber ein, wie vollständig seine Theorie ist. „Wir sind uns nicht sicher, wie vollständig das Persona-Auswahlmodell das KI-Verhalten erklärt”, schrieb das Unternehmen und fügte hinzu, dass es „sich darauf freut, Forschung voranzutreiben, die darauf abzielt, diese Fragen zu beantworten, und allgemeiner Forschung, die empirische Theorien darüber formuliert, wie KI funktioniert”.