KI wirkt oft souverän schnell und erstaunlich treffsicher doch dieser Eindruck entsteht an der Oberfläche. Wer verstehen will, was im Hintergrund passiert, muss genauer hinsehen. Eine Reihe von Tools macht genau das möglich und zeigt, dass KI weniger weiß als berechnet, weniger versteht als strukturiert und dabei auf Ressourcen, Modelle und menschliche Bewertung angewiesen bleibt.
Wer mit KI arbeitet, bewegt sich meist an der Oberfläche, in Prompts, Antworten und scheinbar flüssigen Dialogen, doch erst ein Blick hinter die Kulissen macht sichtbar, wie fragil konstruiert und zugleich faszinierend komplex diese Systeme eigentlich sind. Eine Reihe von Webseiten eröffnet genau diesen Blick und verschiebt damit die Perspektive weg von der reinen Nutzung hin zu einem reflektierten Verstehen. Diese Liste wird laufend weiter ergänzt, wenn ich Webseiten finde, die helfen, hinter die Kulissen zu blicken. Die Webseiten sind jeweils im Titel verlinkt und damit direkt aufrufbar.
HalluHard
Mit HalluHard lässt sich ein erster, grundlegender Zugang finden. Die Webseite ist ein Forschungsbenchmark, der gezielt untersucht, wie und wann Sprachmodelle halluzinieren, also überzeugend klingende, aber inhaltlich falsche Aussagen produzieren. Anhand mehrstufiger Dialoge wird sichtbar, dass Fehler nicht zufällig auftreten, sondern sich im Gespräch sogar verstärken können. HalluHard zeigt damit, dass KI nicht auf Wissen im klassischen Sinn zugreift, sondern Wahrscheinlichkeiten berechnet und dabei Lücken mit plausiblen Inhalten füllt. Gleichzeitig zeigt uns die Seite, welche Modelle in welchem Ausmaß halluzinieren. Ein interessanter Indikator.
What Uses More
Die Seite lenkt den Blick auf eine andere oft übersehene Dimension, nämlich den Ressourcenverbrauch. Als interaktives Vergleichstool übersetzt sie Energie- und Wasserverbrauch digitaler Prozesse in alltagsnahe Einheiten, beispielsweise das Binge-Watchen auf Netflix. Dadurch wird greifbar, dass auch KI-Anfragen Teil einer physischen Infrastruktur sind und reale Kosten verursachen. Doch bleibt es spannend, zu sehen, was wie viel Ressourcen braucht. Ist KI wirklich so schädlich im Sinne eines ökologischen Fußabdrucks oder ist das Argument, KI nicht zu nutzen eigentlich ein Green Talking? Was verbraucht mehr Ressourcen: Prompten oder Netflixen?
DEversAI
Mit DEversAI wird der Blick noch stärker auf die Funktionsweise selbst gerichtet. Die Plattform beschreibt ein experimentelles Setting, in dem Sprachmodelle nicht nur vorwärts, sondern auch rückwärts arbeiten und von einem Text auf mögliche Eingaben schließen. Gleichzeitig werden Tokens, Wahrscheinlichkeiten und Vektorräume sichtbar gemacht. DEversAI macht damit deutlich, dass Sprachverarbeitung kein natürlicher Prozess ist, sondern das Ergebnis konkreter technischer Entscheidungen und mathematischer Modellierung
OpenAI Tokenizer
Der Tokenizer von OpenAI zeigt eine der grundlegendsten Ebenen von KI-Systemen nämlich die Tokenisierung. Texte werden hier in kleinste Einheiten zerlegt und damit wird sichtbar, dass Modelle Sprache nicht als Wörter oder Sätze verarbeiten, sondern als Sequenz von Fragmenten. Diese Perspektive hilft zu verstehen, warum bestimmte Formulierungen unterschiedlich funktionieren und warum es technische Grenzen bei Länge und Kosten gibt
GPT Tokenizer
Mit GPT Tokenizer wird diese Einsicht praktisch erfahrbar. Die Webseite erlaubt es, eigenen Text einzugeben und direkt zu sehen, wie viele Tokens entstehen. Sprache wird dadurch messbar und planbar. Schreiben mit KI erscheint nicht mehr nur als Ausdruck, sondern auch als Aushandlung zwischen Bedeutung und Effizienz innerhalb technischer Rahmenbedingungen
Arena AI
Die Plattform Arena AI bringt schließlich eine vergleichende und soziale Perspektive ein. Nutzer:innen bewerten Antworten verschiedener Modelle im Blindvergleich und tragen damit zu einem Ranking bei. Die Seite zeigt, dass es nicht die eine beste KI gibt, sondern dass Qualität immer relativ ist und im Zusammenspiel von Modell und menschlicher Bewertung entsteht. Gleichzeitig kann man die Ergebnisse unterschiedlicher Modelle bewerten, ohne voreingenommen zu sein. Manchmal liest man vielleicht einen Namen und dreht die Augen über, weil „dieses Modell eh nichts kann“. Manchmal wird man hier aber überrascht. Außerdem kann man auch mit kleineren Modellen als den bekannten experimentieren.
Temperatur
Ein weiterer oft übersehener, aber zentraler Parameter im Umgang mit KI ist die sogenannte Temperatur. Sie beschreibt, vereinfacht gesagt, wie „risikofreudig“ ein Modell bei der Wortwahl ist. Bei niedriger Temperatur tendiert die KI dazu, sehr wahrscheinliche, sichere und oft auch vorhersehbare Formulierungen zu wählen, während eine höhere Temperatur mehr Variation, Kreativität und damit auch mehr Unvorhersehbarkeit ins Spiel bringt. Technisch geht es dabei um die Gewichtung von Wahrscheinlichkeiten bei der Auswahl des nächsten Tokens. Für die Praxis bedeutet das, dass Antworten nicht nur vom Prompt abhängen, sondern auch davon, wie stark das Modell von der statistisch wahrscheinlichsten Option abweichen darf. Die Temperatur macht damit sichtbar, dass KI-Ausgaben nie eindeutig festgelegt sind, sondern immer innerhalb eines Möglichkeitsraums entstehen und genau dieser Spielraum ist es, der zwischen präziser Reproduktion und kreativer Generierung entscheidet. Brian Sykes erklärt die Rolle der Temperatur in seinem Beitrag auf LinkedIn: Die KI-Temperatur messen. Ausprobieren kann man das Spiel mit der Temperatur in allen Modellen. Ein Beispiel von Felix Reuth.

Wieso der Blick hinter die Kulissen?
Einzeln betrachtet oder auch zusammengenommen eröffnen diese Webseiten unterschiedliche Perspektiven auf KI von Fehleranfälligkeit über Ressourcenverbrauch bis hin zu innerer Struktur und gesellschaftlicher Bewertung. Sie zeigen nicht nur wie KI funktioniert, sondern auch unter welchen Bedingungen sie arbeitet und welche Annahmen in ihr stecken. Wer sich mit diesen Webseiten beschäftigt, lernt nicht nur, besser mit KI umzugehen sondern beginnt auch ihre Grenzen, ihre Voraussetzungen und ihre impliziten Logiken zu erkennen und genau darin liegt vielleicht die wichtigste Kompetenz im Umgang mit ihr: nicht die perfekte Nutzung sondern das informierte Hinterfragen.