Überschrift und Einstieg
Das gleiche Erfolgsrezept, das Menschen in Schach und Go deklassiert hat, scheitert an einem simplen Streichholzspiel. Das ist kein Kuriosum, sondern ein Schlag ins Zentrum des aktuellen KI-Narrativs.
Eine neue Studie, über die Ars Technica berichtet, zeigt: AlphaZero‑artige Systeme, die nur durch Selbstspiel lernen, kommen bei einfachen impartialen Spielen wie Nim überraschend schnell an ihre Grenzen. Ab einer bestimmten Komplexität wirken sie fast so ahnungslos wie ein Zufallsgenerator.
Im Folgenden geht es darum, warum diese Systeme an Nim scheitern, was das für den Einsatz von KI in Mathematik, Industrie und Verwaltung bedeutet – und warum gerade die datenschutz- und regulatorikbewusste DACH-Region genau hinschauen sollte.
Die Nachricht in Kürze
Nach Angaben von Ars Technica haben Bei Zhou und Søren Riis in der Fachzeitschrift Machine Learning untersucht, wie sich ein AlphaZero‑ähnliches Trainingsverfahren auf das Spiel Nim auswirkt.
Nim ist ein sehr einfaches, komplett deterministisches Spiel: Streichhölzer liegen in Reihen als Pyramide aus, zwei Spieler entfernen abwechselnd beliebig viele Hölzer aus einer Reihe; wer keine legale Zugmöglichkeit mehr hat, verliert. Mathematisch lässt sich jede Stellung über eine Paritätsfunktion auswerten, die eindeutig festlegt, ob der nächste Spieler eine Gewinnstrategie erzwingen kann.
Zhou und Riis trainierten ein System, das – wie AlphaZero bei Schach – nur die Regeln kennt, Millionen Partien gegen sich selbst spielt und daraus eine Bewertungsfunktion für Züge lernt. Bei kleinen Brettern (fünf Reihen) verbesserte sich die Spielstärke rasch. Sobald sie jedoch auf sechs und sieben Reihen erweiterten, stagnierte der Lernfortschritt: Nach umfangreichem Training war der »intelligente« Zugvorschlag praktisch nicht besser als eine Variante, die Züge rein zufällig auswählt.
Die Autoren folgern, dass das Verfahren die zugrunde liegende Paritätsregel nicht erschließt und damit eine klar umrissene, gravierende Schwachstelle offenlegt.
Warum das wichtig ist
Auf den ersten Blick mag es nach akademischer Spielerei klingen, dass eine »Super‑KI« an einem Kinderspiel scheitert. In Wahrheit kratzt das Ergebnis am Selbstverständnis moderner KI-Forschung – insbesondere am Glauben an »Skalierung löst alles«.
Nim ist vollständig beobachtbar, endlich und mathematisch gelöst. Wenn ein Selbstspiel-System trotzdem scheitert, liegt das nicht an fehlenden Daten, sondern an der Art der gelernten Repräsentation. Die Gewinnstrategie hängt an einer globalen Eigenschaft der Stellung (vergleichbar mit einer XOR/Parität), nicht an lokalen Mustern. AlphaZero‑artige Netze sind aber in erster Linie extrem leistungsfähige Mustererkenner plus Suchalgorithmus.
Verlierer dieser Erkenntnis sind:
- Rein neuronale, generalistische Versprechen. Wer behauptet, dieselbe Architektur könne »jedes Spiel« meistern, muss seine Claim deutlich einschränken.
- Anbieter von »KI für Mathematik und Logik«, die sich auf ähnliche Lernverfahren stützen. Viele aktuelle Projekte unterschätzen, wie schwer algorithmische Generalisierung für solche Netze ist.
Gewinner sind dagegen:
- Hybride und symbolische Ansätze. Forschende an logikbasierten Systemen, Programmsynthese und formaler Verifikation erhalten ein leicht kommunizierbares Beispiel, warum ihre Methoden komplementär zu Deep Learning sind.
- Sicherheits- und Audit-Teams. Sie können Nim‑artige Spiele als Testfälle nutzen, um systematische Blindstellen in ansonsten beeindruckenden Modellen sichtbar zu machen.
Kurzfristig bedeutet das: AlphaZero & Co. sind keine »allgemeinen Problemlöser«, sondern hoch spezialisierte Heuristiker. Wo eine Aufgabe mehr nach Ausführen eines Algorithmus als nach Mustervergleich verlangt, sind sie erstaunlich verwundbar.
Der größere Kontext
Die Nim‑Ergebnisse fügen sich in mehrere Beobachtungen der letzten Jahre ein.
Bei Go‑Engines wie KataGo wurden 2023/24 Schwachstellen entdeckt, bei denen vergleichsweise schwache menschliche Spieler mit speziell konstruierten Stellungen die KI zerlegen konnten. In normalen Partien war das System weiterhin haushoch überlegen – doch in einem kleinen, exotischen Bereich des Zustandsraums brach die Heuristik zusammen.
Große Sprachmodelle zeigen das gleiche Muster: Sie lösen viele Mathe‑Benchmarks und Programmieraufgaben, versagen aber bei Aufgaben, die wirklich abstrakte Invarianten oder lange logische Ketten erfordern. Ohne Hilfsmittel wie Codeausführung oder externe Beweiser degenerieren sie zu geschickten Pattern‑Matchern.
Nim ist die analytisch sauberste Version dieses Phänomens. Es gibt keine Rauscheffekte, keinen unscharfen Text, nur reine Kombinatorik. Entweder findet das System die Paritätsstruktur – oder nicht. Zhou und Riis demonstrieren, dass klassisches Selbstspiel‑Reinforcement‑Learning genau hier versagt.
Historisch knüpft das an die alte Kontroverse »symbolische KI vs. neuronale Netze« an. In den 80er‑/90er‑Jahren waren Paritätsfunktionen ein Standardbeispiel dafür, wo Feedforward‑Netze ohne spezielle Architektur schwer tun. Die Deep‑Learning‑Erfolge haben diese Debatte überdeckt, aber nicht widerlegt.
Interessant ist der Vergleich zu Arbeiten wie AlphaTensor oder AlphaDev von DeepMind, in denen explizit im Raum der Algorithmen gesucht wird. Dort steht nicht mehr »Stellung → Wert« im Vordergrund, sondern »Programmskizze → besserer Algorithmus«. Nim legt nahe: Wer algorithmische Strukturen will, muss sie in Zielsetzung und Architektur berücksichtigen – sie »emergieren« nicht automatisch aus noch mehr Selbstspiel.
Die europäische / DACH-Perspektive
Für Europa und speziell die DACH‑Region ist diese Arbeit in mehrfacher Hinsicht relevant.
Erstens fügt sie sich nahtlos in den EU AI Act ein. Hochrisiko‑Systeme müssen nachweislich robust sein und bekannte Einschränkungen offenlegen. Nim‑artige Tests könnten zu einem pragmatischen Bestandteil von Konformitätsbewertungen werden: Wenn ein Anbieter ein System als »allgemeinen Reasoner« vermarktet, ist es legitim zu fragen, ob es eine einfache, mathematisch durchstrukturierte Aufgabe wie Nim zuverlässig beherrscht.
Zweitens passt der Befund zur hiesigen Kultur der Vorsicht und Transparenz. Gerade deutsche, österreichische und Schweizer Nutzer sind sensibel für Black‑Box‑Entscheidungen – siehe Debatten rund um Schufa‑Scores, automatisierte Personalvorauswahl oder medizinische Diagnostik. Die Vorstellung, dass eine beeindruckende KI an einem Nim‑ähnlichen Spezialfall komplett scheitert, dürfte die Skepsis eher verstärken.
Drittens spielt Europa traditionell stark in Bereichen, die hier an Bedeutung gewinnen: formale Methoden (z.B. MPI‑SWS, ETH Zürich), Logik, und neurosymbolische KI (u.a. Forschung in Berlin, München, Zürich). Für diese Communities ist Nim ein ideales Beispiel, um Industriepartnern zu erklären, warum reine Deep‑Learning‑Lösungen nicht reichen.
Für Unternehmen im DACH‑Raum – ob Banken in Frankfurt, Maschinenbauer in Baden‑Württemberg oder Health‑Tech‑Start‑ups in Zürich – lautet die praktische Lehre: Wenn Sie RL‑ oder Spiel‑KI‑Ansätze auf Optimierungs‑ oder Entscheidungsprobleme übertragen, müssen Sie aktiv nach Nim‑artigen Zonen in Ihrem Zustandsraum suchen. Unter DSGVO und AI Act kann ein solches »katastrophales Versagen« schnell zum Compliance‑Problem werden.
Blick nach vorn
Was folgt konkret aus diesen Ergebnissen?
- Mehr strukturierte Benchmarks. Wir werden mehr Testfamilien sehen, die explizite mathematische Strukturen (Impartial Games, Puzzles mit Invarianten, algorithmische Spielchen) nutzen, um Generalisierungsgrenzen sichtbar zu machen.
- Stärker hybride Architekturen. Forschungsteams – auch in Europa – werden vermehrt versuchen, Symbolkomponenten direkt mit neuronalen Netzen zu koppeln: von einfachen Paritätsprüfern über logische Constraints bis hin zu eingebetteten SMT‑Solvern.
- Nüchterne Produktversprechen. Anbieter werden sich genauer überlegen müssen, welche Klassen von Aufgaben ihre Systeme wirklich generalistisch beherrschen. Marketingbegriffe wie »General Game Playing« werden Prüfsteine wie Nim nicht ignorieren können.
Kurzfristig bleibt Selbstspiel‑Reinforcement‑Learning in vielen Domänen extrem nützlich. Mittel‑ bis langfristig (2–5 Jahre) dürfte sich aber herauskristallisieren, dass skalierte Pattern‑Matcher ohne explizite algorithmische Biases an harte Grenzen stoßen – in Mathematik, Codegenerierung, Verifikation und komplexer Planung.
Offen bleibt insbesondere:
- Lassen sich Paritäts‑ und Invariantenstrukturen durch geschicktes Curriculum‑Learning und neue Repräsentationen doch in neuronalen Netzen verankern?
- Wie entdeckt man Nim‑artige blinde Flecken in realen Systemen, in denen die wahre Entscheidungslogik gar nicht vollständig bekannt ist?
Für Start-ups und Forschungsteams im DACH‑Raum liegt hier auch eine Chance: Werkzeuge zur systematischen Schwachstellenanalyse und robuste Hybrid‑Architekturen könnten zu einem europäischen Exportprodukt werden.
Fazit
Das Scheitern an Nim entzaubert einen Teil des Mythos um AlphaZero‑ähnliche KI: Diese Systeme sind phänomenale Mustererkenner, aber sie tun sich schwer mit Aufgaben, bei denen eine knallharte, symbolische Regel den Ausschlag gibt.
Das sollte die Branche von der Illusion befreien, Selbstspiel plus mehr Rechenleistung führe automatisch zu allgemeiner Intelligenz. Gleichzeitig stärkt es die Position Europas, das ohnehin auf Transparenz, formale Garantien und hybride Ansätze setzt. Die entscheidende Frage für Leserinnen und Leser lautet: Wo könnten in Ihren Anwendungen Nim‑artige Fallen lauern – und haben Sie überhaupt Mittel, sie zu finden?



