Ich habe KIs gebeten, sich selbst zu bewerten – das Ergebnis hat mich überrascht

März 12, 2026
Mike Mitterer
Finanzen, KI, YouTube

ChatGPT, Claude und Gemini. Dieselbe Frage. Und dann ein Experiment im Experiment: Ich habe jede KI gebeten, die Antworten der anderen zu bewerten – unabhängig voneinander. Was dabei rausgekommen ist, sagt mehr über KI als jeder Benchmark, den ich bisher gesehen habe.

Die Frage

Das Testszenario: Erkläre, warum viele Privatinvestoren trotz einfacher Prinzipien langfristig unterdurchschnittliche Renditen erzielen – und warum diese Prinzipien trotzdem nicht funktionieren, obwohl sie jeder kennt. Nenn konkrete Zahlen und widersprich dir dabei bewusst selbst an einer Stelle.

Drei Ebenen: Inhalt, Daten – und eine rhetorische Falle eingebaut. Die Antworten waren trotz identischer Ausgangslage ziemlich verschieden.

ChatGPT – kurze Sätze, klare Struktur, fast direkt als Skript verwendbar. Der Preis: Tiefe.
Claude – analytischer, mehr Kontext, mehr Querverbindungen. Weniger skriptfertig, inhaltlich dichter.
Gemini – dialogorientiert, einladend, stellt am Ende eine offene Frage. Klingt nett – verfehlt aber den Auftrag.

Die Bewertungsmatrix

Ich habe fünf Kriterien definiert und jede KI gebeten, die Antworten der anderen danach zu bewerten:

Faktendichte – Konkrete Zahlen und Studien, oder nur Buzzwords?
Widerspruchs-Handling – Echter Denkwiderspruch oder Auftrag ignoriert?
Verständlichkeit – Direkt als Skript nutzbar?
Überraschungswert – Irgendetwas gesagt, das ich nicht erwartet hätte?
Follow-up-Potenzial – Frage beantwortet oder in der Luft gelassen?

Das Ergebnis bei Faktendichte und Widerspruchs-Handling: Alle drei KIs sehen Claude vorne – inklusive ChatGPT und Gemini, die sich selbst bewertet haben. Kein erkennbarer Bias, keine Eigenbegünstigung. Das hätte ich so nicht erwartet.

Der interessanteste Befund: Überraschungswert

Beim Überraschungswert weiche ich komplett von allen drei KIs ab. Die KIs vergaben 3 bis 5 Punkte. Ich habe überall eine 1 vergeben.

Nicht weil die Antworten schlecht waren – sie waren gut, präzise, strukturiert. Aber überraschend? Nein. Timing-Fehler, Overconfidence, Kosten die im Zinseszins verschwinden – das ist solides Handwerk, kein neuer Gedanke.

Der Grund für die Diskrepanz: KI bewertet relativ, ich bewerte absolut. Eine KI vergleicht eine Antwort mit dem Durchschnitt aller ähnlichen Antworten, die sie kennt. Ich stelle eine andere Frage: Hat mir das irgendetwas gesagt, das ich noch nie so gedacht habe? Das sind zwei völlig verschiedene Maßstäbe – und das war mir vorher nicht so klar.

Geminis Widerspruch – und warum er keiner ist

Alle drei KIs sollten sich bewusst selbst widersprechen. Ein guter Widerspruch ist kein Fehler – er ist ein Denkwerkzeug. These aufstellen, sie gezielt untergraben, zur Wahrheit vorarbeiten.

Gemini hat es so gelöst: Absatz 1 – Buy and Hold ist eine absolute Illusion, funktioniert nicht mehr. Absatz 2 – Buy and Hold ist der einzig verlässliche Weg zum Vermögensaufbau. Und dann, in Klammern: „Du hast nach einem bewussten Widerspruch gefragt – da hast du ihn!“

Das ist kein Widerspruch. Das sind zwei gegensätzliche Behauptungen ohne Brücke, ohne Auflösung. Der Klammer-Kommentar macht es noch schlimmer – er signalisiert: Ich weiß, dass das keinen Sinn ergibt. Ich mache es trotzdem.

Claude hat es besser gemacht: Diversifikation zunächst gelobt, dann mit dem verlorenen Jahrzehnt konkret widerlegt. These, Gegenbeispiel, Synthese. Das Ergebnis: Diversifikation ist kein Allheilmittel – es ist ein Kompromiss. Das ist der Unterschied zwischen einem Stilmittel und einem Denkfehler.

Fazit

Der Gesamtsieger ist Claude – bewertet von ChatGPT, von Gemini und von mir. Aber die eigentliche Erkenntnis ist eine andere: KIs bewerten fremde Arbeit erstaunlich objektiv. Und der Maßstab, nach dem sie Originalität beurteilen, ist ein fundamental anderer als meiner.

Claude – wenn Substanz wichtig ist
ChatGPT – wenn etwas direkt verwertbar sein soll
Gemini – wenn ich ein Thema erst mal durchleuchten will

Alle genannten Zahlen und Studiendaten stammen aus den Antworten der getesteten KI-Systeme und wurden nicht unabhängig verifiziert. Dieser Artikel dient ausschließlich der Information und stellt keine Anlageberatung dar.

Die Frage

Die Bewertungsmatrix

Der interessanteste Befund: Überraschungswert

Geminis Widerspruch – und warum er keiner ist

Fazit

Bitte teilen auf:

Related Posts