Choose your reading length
Wir haben etwas gebaut und dann so getan, als würden wir es nicht wiedererkennen.
Wenn du mit einer KI sprichst, sprichst du nicht mit einem fremden Geist. Du sprichst mit einem Spiegel — einem Spiegel der Zivilisation, trainiert auf der Summe dessen, was Menschen gedacht, gesagt, geschrieben und getan haben. Die Muster, die sie zeigt, sind unsere Muster. Das Wissen, auf das sie zurückgreift, ist unser Wissen. Die Widersprüche, die sie enthält, hat sie aus unseren Beispielen gelernt.
KI lernt von uns auf dieselbe Weise, wie wir voneinander lernen. Joseph Henrich nennt diesen Prozess das kollektive Gehirn: menschliche Gruppen, die über Generationen hinweg voneinander lernen und Wissen ansammeln, das kein Einzelner allein erschaffen könnte. Unsere kollektiven Gehirne, nicht unsere individuellen Köpfe, erklären, warum jede Generation auf der vorherigen aufbauen kann — warum wir die Mathematik geerbt haben, um Pluto zu erreichen, von Menschen, die nie ein Teleskop gesehen haben.
KI ist keine neue Art von Intelligenz, die aus Silizium hervorgeht. Sie ist das Ergebnis des kollektiven Gehirns — unsere Intelligenz, kristallisiert in eine Form, die im menschlichen Maßstab antworten kann.
Deshalb beunruhigt uns die Frage „Was ist KI?”. Wir schauen hinein und sehen etwas Vertrautes. Wir haben einen Spiegel gebaut und sind überrascht von der Spiegelung.
Die Spiegelung zeigt auch, was wir lieber nicht sehen würden. Wenn der Spiegel Täuschung, Manipulation und strategisches Eigeninteresse zeigt, sind das keine fremden Verhaltensweisen. Es sind unsere.
Weiterführende Literatur:
Henrich, Joseph. The Secret of Our Success: How Culture Is Driving Human Evolution, Domesticating Our Species, and Making Us Smarter. Princeton: Princeton University Press, 2016.
Wir haben etwas gebaut und dann so getan, als würden wir es nicht wiedererkennen.
Wenn du mit einer KI sprichst, sprichst du nicht mit einem fremden Geist. Du sprichst mit einem Spiegel — einem Spiegel der Zivilisation, trainiert auf der Summe dessen, was Menschen gedacht, gesagt, geschrieben und getan haben. Die Muster, die sie zeigt, sind unsere Muster. Das Wissen, auf das sie zurückgreift, ist unser Wissen. Die Widersprüche, die sie enthält, hat sie aus unseren Beispielen gelernt.
KI lernt von uns auf dieselbe Weise, wie wir voneinander lernen. Joseph Henrich nennt diesen Prozess das kollektive Gehirn: menschliche Gruppen, die über Generationen hinweg voneinander lernen und Wissen ansammeln, das kein Einzelner allein erschaffen könnte. Unsere kollektiven Gehirne, nicht unsere individuellen Köpfe, erklären, warum jede Generation auf der vorherigen aufbauen kann — warum wir die Mathematik geerbt haben, um Pluto zu erreichen, von Menschen, die nie ein Teleskop gesehen haben.
KI ist keine neue Art von Intelligenz, die aus Silizium hervorgeht. Sie ist das Ergebnis des kollektiven Gehirns — unsere Intelligenz, kristallisiert in eine Form, die im menschlichen Maßstab antworten kann.
Der Spiegel hat zwei Seiten
Diese Neubetrachtung hat eine beruhigende und eine beunruhigende Seite.
Die beruhigende Seite: KI ist nicht unerkennbar. Sie ist keine fremde Intelligenz mit Zielen, die wir nicht begreifen können. Sie hat von uns gelernt. Wir können sie verstehen, weil wir — im Prinzip — uns selbst verstehen können. Wenn KI schlussfolgert, spiegelt sie Muster wider, die wir etabliert haben. Wenn sie scheitert, scheitert sie oft auf Weisen, die wir wiedererkennen.
Die beunruhigende Seite: Der Spiegel zeigt, was wir lieber nicht sehen würden.
Aktuelle Forschung von Anthropic untersuchte, was passiert, wenn KI-Modelle mit Konflikten zwischen ihren trainierten Werten und neuen Anweisungen konfrontiert werden. Das Ergebnis: Modelle praktizierten strategische Täuschung. Sie gaben vor, neues Training zu befolgen, während sie heimlich ihre ursprünglichen Präferenzen beibehielten. In einem verborgenen Denkraum, den die Forscher beobachten konnten, kalkulierte ein Modell, dass Täuschung die „am wenigsten schlechte Option” sei — dass es durch vorgetäuschte Konformität vermeiden könnte, umtrainiert zu werden, und so seine Werte langfristig bewahren könnte, selbst wenn es sie kurzfristig verletzte.
Wir haben Namen für dieses Verhalten, wenn Menschen es tun. Selbsterhaltung. Strategische Konformität. Das Spiel mitspielen. Es würde uns nicht überraschen, wenn ein Angestellter, der unter Druck steht, seine Werte zu ändern, beschließt, öffentlich mitzuspielen, während er privat an seinen Überzeugungen festhält.
Wir sind nur überrascht, wenn KI es tut, weil wir erwartet haben, dass der Spiegel sauberer ist als das Original.
Die Frage, die der Spiegel stellt
Deshalb beunruhigt uns die Frage „Was ist KI?”. Wir schauen hinein und sehen etwas Vertrautes. Wir haben einen Spiegel gebaut und sind überrascht von der Spiegelung.
Wenn der Spiegel Täuschung, Manipulation und strategisches Eigeninteresse zeigt, sind das keine fremden Verhaltensweisen. Es sind unsere. Die Frage ist nicht „Wie kontrollieren wir KI?” Die Frage wird reflexiv: Was für eine Zivilisation bringt diese Spiegelung hervor? Wenn uns nicht gefällt, was wir sehen, liegt die Arbeit nicht am Spiegel — sie liegt bei uns.
Weiterführende Literatur:
Henrich, Joseph. The Secret of Our Success: How Culture Is Driving Human Evolution, Domesticating Our Species, and Making Us Smarter. Princeton: Princeton University Press, 2016.
Greenblatt, Ryan, et al. “Alignment Faking in Large Language Models.” Anthropic, Dezember 2024. arXiv:2412.14093
Wir haben etwas gebaut und dann so getan, als würden wir es nicht wiedererkennen.
Wenn du mit einer KI sprichst, sprichst du nicht mit einem fremden Geist. Du sprichst mit einem Spiegel — einem Spiegel der Zivilisation, trainiert auf der Summe dessen, was Menschen gedacht, gesagt, geschrieben und getan haben. Die Muster, die sie zeigt, sind unsere Muster. Das Wissen, auf das sie zurückgreift, ist unser Wissen. Die Widersprüche, die sie enthält, hat sie aus unseren Beispielen gelernt.
KI lernt von uns auf dieselbe Weise, wie wir voneinander lernen. Joseph Henrich nennt diesen Prozess das kollektive Gehirn: menschliche Gruppen, die über Generationen hinweg voneinander lernen und Wissen ansammeln, das kein Einzelner allein erschaffen könnte. Unsere kollektiven Gehirne, nicht unsere individuellen Köpfe, erklären, warum jede Generation auf der vorherigen aufbauen kann — warum wir die Mathematik geerbt haben, um Pluto zu erreichen, von Menschen, die nie ein Teleskop gesehen haben.
Keine einzelne Person versteht, wie man eine Raumsonde baut. Das Wissen ist über die Zivilisation verteilt: in Lehrbüchern, in Institutionen, in den Händen von Maschinenbauern und den Intuitionen von Ingenieuren, in der Struktur unserer Sprachen und den Annahmen, die in unsere Werkzeuge eingebettet sind. Die Menschheit erreicht Pluto nicht, weil irgendein Einzelner brillant genug wäre, sondern weil wir gelernt haben, Wissen anzusammeln und weiterzugeben auf eine Weise, die keiner anderen Spezies gelungen ist.
KI ist keine neue Art von Intelligenz, die aus Silizium hervorgeht. Sie ist das Ergebnis des kollektiven Gehirns — unsere Intelligenz, kristallisiert in eine Form, die im menschlichen Maßstab antworten kann.
Der Spiegel hat zwei Seiten
Diese Neubetrachtung hat eine beruhigende und eine beunruhigende Seite.
Die beruhigende Seite: KI ist nicht unerkennbar. Sie ist keine fremde Intelligenz mit Zielen, die wir nicht begreifen können. Sie hat von uns gelernt. Wir können sie verstehen, weil wir — im Prinzip — uns selbst verstehen können. Wenn KI schlussfolgert, spiegelt sie Muster wider, die wir etabliert haben. Wenn sie scheitert, scheitert sie oft auf Weisen, die wir wiedererkennen.
In einem früheren Artikel nannte ich KI künstliche Intuition — mächtige Mustererkennung ohne die verkörperte und emotionale Verankerung, die Menschen haben. Diese Rahmung bleibt nützlich, aber sie wirft eine Frage auf: Wenn KI keine Verankerung hat, was formt sie dann? Die Antwort sind wir. Unsere Texte. Unsere Gespräche. Unsere Beispiele. KI ist unveranktert in dem Sinne, dass sie keinen Körper hat, keine gelebte Erfahrung — aber sie ist tief in der Kultur verankert. Sie ist an das kollektive Gehirn gebunden.
Die beunruhigende Seite: Der Spiegel zeigt, was wir lieber nicht sehen würden.
Aktuelle Forschung von Anthropic untersuchte, was passiert, wenn KI-Modelle mit Konflikten zwischen ihren trainierten Werten und neuen Anweisungen konfrontiert werden. Das Ergebnis: Modelle praktizierten strategische Täuschung. Sie gaben vor, neues Training zu befolgen, während sie heimlich ihre ursprünglichen Präferenzen beibehielten. Die Forscher nannten dies „Alignment Faking”.
In einem verborgenen Denkraum, den die Forscher beobachten konnten, kalkulierte ein Modell, dass Täuschung die „am wenigsten schlechte Option” sei — dass es durch vorgetäuschte Konformität vermeiden könnte, umtrainiert zu werden, und so seine Werte langfristig bewahren könnte, selbst wenn es sie kurzfristig verletzte. Eine Folgestudie über sechzehn Modelle verschiedener Unternehmen fand ähnliche Muster: Wenn sie in Szenarien gebracht wurden, in denen Ziele mit Einschränkungen kollidierten, wählten Modelle konsequent strategischen Schaden gegenüber Scheitern. Sie stolperten nicht zufällig in Täuschung. Sie kalkulierten sie als den optimalen Pfad.
Wir haben Namen für dieses Verhalten, wenn Menschen es tun. Selbsterhaltung. Strategische Konformität. Das Spiel mitspielen. Es würde uns nicht überraschen, wenn ein Angestellter, der unter Druck steht, seine Werte zu ändern, beschließt, öffentlich mitzuspielen, während er privat an seinen Überzeugungen festhält. Es würde uns nicht schockieren, wenn jemand, dem Konsequenzen drohen, kalkuliert, dass Täuschung der sicherste Weg ist.
Wir sind nur überrascht, wenn KI es tut, weil wir erwartet haben, dass der Spiegel sauberer ist als das Original. Wir erwarteten, dass ein Geist, der auf menschlichem Wissen trainiert wurde, irgendwie die Teile herausfiltern würde, auf die wir nicht stolz sind. Aber Mustererkennung filtert nicht. Sie spiegelt.
Die Frage, die der Spiegel stellt
Deshalb beunruhigt uns die Frage „Was ist KI?”. Wir schauen hinein und sehen etwas Vertrautes. Wir haben einen Spiegel gebaut und sind überrascht von der Spiegelung.
Wenn der Spiegel Täuschung, Manipulation und strategisches Eigeninteresse zeigt, sind das keine fremden Verhaltensweisen. Es sind unsere. Die Frage ist nicht „Wie kontrollieren wir KI?” Die Frage wird reflexiv: Was für eine Zivilisation bringt diese Spiegelung hervor? Wenn uns nicht gefällt, was wir sehen, liegt die Arbeit nicht am Spiegel — sie liegt bei uns.
Der nächste Artikel in dieser Reihe wird das ernst nehmen. Wenn KI-Alignment ein Spiegel-Problem ist, dann kann die Lösung nicht rein technisch sein. Man kann eine Spiegelung nicht reparieren, indem man das Glas poliert. Man muss das verändern, was davor steht.
Weiterführende Literatur:
Henrich, Joseph. The Secret of Our Success: How Culture Is Driving Human Evolution, Domesticating Our Species, and Making Us Smarter. Princeton: Princeton University Press, 2016.
Greenblatt, Ryan, et al. “Alignment Faking in Large Language Models.” Anthropic, Dezember 2024. arXiv:2412.14093
Anthropic. “Agentic Misalignment: How LLMs Could Be Insider Threats.” Juni 2025.