KI kann Sudokus lösen, aber nicht erklären
30. Juli 2025Sudokus gelten als Gehirnjogging für zwischendurch. Mit etwas Geduld und logischem Denken lässt sich das Rätsel meist knacken. Am Ende ist das Gitter vollständig und korrekt ausgefüllt.
Doch was passiert, wenn man die gleiche Aufgabe einer Künstlichen Intelligenz stellt? Genau das haben Forschende der University of Colorado Boulder, USA, untersucht - mit durchaus überraschendem Ergebnis.
Einige KI-Modelle, sogenannte Large Language Models (LLMs), konnten einfache Sudokus lösen. Doch selbst die besten lieferten undeutliche, ungenaue oder absurde Erklärungen, wie sie auf die Lösung gekommen waren.
2300 Sudokus, viele Fehler
Für das Experiment erstellte das Team rund 2300 Sudoku-Rätsel in einem vereinfachtem 6x6-Format. Getestet wurden mehrere KI-Modelle, darunter ChatGPT-o1-preview von OpenAI, damals eines der fortschrittlichsten Systeme.
Während o1 etwa 65 Prozent der Sudoku-Rätsel korrekt löste, lagen andere Modelle bei unter einem Prozent. Doch das eigentliche Problem zeigte sich im nächsten Schritt: Die KI-Modelle sollten ihren Lösungsweg erklären. Die Resultate waren wenig vertrauenserweckend.
Wettervorhersage statt Lösungsweg
"Manchmal haben die KI-Erklärungen Fakten erfunden", so Ashutosh Trivedi, Mitautor der Studie und außerordentlicher Professor für Informatik an der CU Boulder. Oder sie hätte offensichtliche Erklärungen nicht gesehen: "So könnte es heißen: 'Hier kann keine Zwei stehen, weil in der gleichen Reihe bereits eine Zwei steht', aber das war nicht der Fall."
In einem besonders bezeichnenden Beispiel sprachen die Forschenden mit einem der KI-Tools über das Lösen von Sudoku, als dieses aus unbekannten Gründen mit einer Wettervorhersage antwortete. "An diesem Punkt ist die KI durchgedreht und war völlig verwirrt", so Studienmitautor Fabio Somenzi.
Ergebnis ist nicht gleich Verstehen
Man könnte einwenden: Hauptsache, das Ergebnis stimmt. Doch für die Forschenden ist das zu kurz gedacht.
"Bei bestimmten Arten von Sudoku-Rätseln sind die meisten LLMs immer noch unzureichend, insbesondere wenn es darum geht, Erklärungen zu erstellen, die für Menschen in irgendeiner Weise brauchbar sind", sagt Maria Pacheco, Mitautorin der Studie und Assistenzprofessorin am Fachbereich Informatik. "Warum ist es auf diese Lösung gekommen? Was sind die Schritte, die man unternehmen muss, um dorthin zu gelangen?"
Ihre Ergebnisse präsentierte das Team auf der Fachkonferenz ACL 2025. Die Arbeit ist auch in Findings of the Association for Computational Linguistics erschienen.
Denken oder raten?
Ziel der Studie war es nicht, KI bloßzustellen, sondern herauszufinden, wie große Sprachmodelle (LLMs) eigentlich "denken".
Sudoku diente als Testumgebung, ein "Mikrokosmos für maschinelles Entscheiden", wie Somenzi, Professor an der Fakultät für Elektrotechnik, Informatik und Energietechnik, es nennt. "Wenn Sie Ihre Steuern von einer künstlichen Intelligenz erstellen lassen, möchten Sie dem Finanzamt erklären können, warum die künstliche Intelligenz das geschrieben hat, was sie geschrieben hat."
Die zentrale Erkenntnis des Experiments: LLMs lösen Sudokus meist nicht durch systematisches regelbasiertes Denken, sondern durch statistisches Raten.
Das liegt auch an ihrer Funktionsweise: Bei der Entwicklung von ChatGPT zum Beispiel fütterten die Programmierer die KI zunächst mit fast allem, was jemals im Internet geschrieben worden war: in Blogs, sozialen Netzwerken, in wissenschaftlichen Datenbanken oder Nachrichtenportalen.
Ihre Aufgabe besteht darin, das wahrscheinlichste nächste Wort in einem Satz vorherzusagen, nicht, ein Problem logisch zu durchdringen. "Was sie tun, ist im Wesentlichen das nächste Wort vorherzusagen", so Pacheco. Statistisch gesehen.
Ein Schritt weiter: erklärbare KI
Pacheco, Somenzi und ihr Team hoffen, ihr eigenes KI-System zu entwickeln, das alles kann - komplizierte Rätsel lösen und erklären, wie das geht. Dafür beginnen sie mit einer anderen Art von Rätsel namens Hitori, das wie Sudoku aus einem Zahlengitter besteht.
Dabei setzen sie auch auf einen neuen Ansatz: sogenannte neurosymbolische KI, die sich allerdings noch in einem frühen Entwicklungsstadium befindet. Ziel ist es, das Gedächtnis eines LLMs mit der Fähigkeit des menschlichen Gehirns zur Logik zu kombinieren.
"Die Leute reden über die wachsenden Fähigkeiten der künstlichen Intelligenz, die Dinge lösen können, von denen man es nicht erwarten würde", sagt Pacheco. "Gleichzeitig ist es nicht überraschend, dass sie bei vielen Aufgaben immer noch schlecht sind."