Überschrift und Einstieg
GPU‑Kapazität in der Cloud war bisher der Treibstoff des GenAI‑Booms – und dieser Treibstoff wird sichtbar knapp und teuer. Wenn sich daran etwas ändert, dann nicht, weil Modelle plötzlich winzig werden, sondern weil ein großer Teil der Inferenz auf Notebooks und Smartphones wandert. Das Londoner Startup Mirai, gegründet von den Machern hinter Prisma und Reface, setzt genau auf diesen Paradigmenwechsel. In diesem Artikel beleuchten wir jenseits der Funding‑Meldung, ob ein 14‑köpfiges Team die Ökonomie von GenAI wirklich verschieben kann – und was das für Entwickler, Hyperscaler und die DACH‑Region bedeutet.
Die Nachricht in Kürze
Laut einem Bericht von TechCrunch entwickelt Mirai eine Inferenz‑Engine, die KI‑Modelle effizient direkt auf Endgeräten ausführen soll, zunächst auf Apple‑Silicon‑Rechnern. Das Unternehmen wurde 2025 von Dima Shvets, Mitgründer der Face‑Swap‑App Reface, und Alexey Moiseenkov, Mitgründer und ehemaliger CEO der Filter‑App Prisma, gegründet.
Mirai hat eine Seed‑Runde über 10 Millionen US‑Dollar eingesammelt, angeführt von Uncork Capital. Mehrere bekannte Business Angels aus dem Umfeld von Snowflake, ElevenLabs, Coinbase und anderen sind beteiligt. Das 14‑köpfige technische Team hat eine in Rust geschriebene Engine aufgebaut, die laut eigenen Benchmarks die Generierungsgeschwindigkeit auf Apple‑Hardware um bis zu 37 Prozent steigert, ohne die Gewichte der Modelle zu verändern. Aktuell konzentriert sich Mirai auf Text‑ und Sprachmodelle, Bildverarbeitung soll folgen.
Ein SDK soll es Entwicklern ermöglichen, die Runtime mit wenigen Zeilen Code in eigene Anwendungen zu integrieren. Parallel arbeitet Mirai mit Model‑Anbietern und Chip‑Herstellern zusammen, um Modelle für Edge‑Use‑Cases zu optimieren. Eine Android‑Version ist geplant. Zudem entsteht eine Orchestrierungsschicht, die Anfragen in die Cloud auslagert, wenn das Endgerät sie lokal nicht bewältigen kann.
Warum das wichtig ist
Die wenig schmeichelhafte Wahrheit vieler GenAI‑Produkte lautet: Die Stückkosten sind miserabel. Nicht das Training, sondern die Inferenz frisst bei steigenden Nutzerzahlen das Budget. Ein Assistent, der für den Endnutzer kostenlos wirkt, kann im Hintergrund pro Sitzung mehrere Dutzend Cent an Cloud‑Kosten erzeugen. Solange Risikokapital reichlich vorhanden ist, wird das kaschiert – sobald Profitabilität zählt, wird es zum Risiko.
Genau hier setzt Mirai an: Möglichst viel Inferenz auf Hardware zu verlagern, die bereits beim Nutzer steht. Kann ein MacBook mit Apple Silicon ein ausreichend leistungsfähiges Sprach‑ oder Textmodell lokal ausführen, sinkt die Grenzkostenkurve pro Anfrage Richtung Null. Wertschöpfung verschiebt sich vom Rechenzentrum zur Runtime‑Schicht, die aus jedem Watt auf dem Gerät maximale Performance herausholt.
Für Entwickler ist das doppelt relevant. Erstens verspricht es bessere Margen und weniger Abhängigkeit von einzelnen Cloud‑Anbietern. Zweitens will Mirai die Integration radikal vereinfachen – ein Stripe‑ähnliches Erlebnis für On‑Device‑AI, bei dem Kernel‑Optimierung, Quantisierung und Gerätespezifika hinter einem SDK abstrahiert werden. Gelingt das, können kleine Teams Assistenten, Transkriptions‑ oder Übersetzungstools mit nahezu Echtzeitverhalten ausrollen, ohne eigene GPU‑Cluster zu betreiben.
Verlierer sind kurzfristig die Cloud‑Provider und GPU‑Hersteller, die heute an jedem generierten Token verdienen. Sie bleiben zwar für Trainingsläufe und besonders schwere Workloads unverzichtbar, aber selbst eine Verlagerung von 20 bis 30 Prozent der Inferenz auf die Edge‑Seite wäre signifikant. Gleichzeitig kratzt der Ansatz an der Kontrolle der großen Plattformen wie Apple, Google oder Qualcomm, die alle eigene On‑Device‑Stacks etablieren möchten.
Der größere Kontext
Mirai erfindet On‑Device‑AI nicht neu; das Startup will sie verallgemeinern und produktreif für alle machen. Die Hyperscaler und Plattformanbieter haben den Ansatz längst bestätigt: Apple nutzt seine Neural Engine für Fotos, Face ID und Diktierfunktionen, Google betreibt Übersetzungs‑ und Prädiktionsmodelle direkt auf Android‑Geräten, Tastatur‑Apps bringen schon seit Jahren eigene Sprachmodelle mit.
Neu ist der Maßstab. Generative Modelle sind um Größenordnungen gewachsen, und Nutzer erwarten heute Chatbots, Copilots und Sprachagenten, die sich fast wie Cloud‑Systeme anfühlen. Gleichzeitig ist die Branche unsanft mit den realen Kosten von reiner Cloud‑Inferenz konfrontiert worden. Das macht eine neutrale Edge‑Infrastruktur plötzlich attraktiv, insbesondere für Unternehmen, die sich nicht komplett in die Abhängigkeit eines einzelnen Plattformanbieters begeben wollen.
Historisch erinnert das an die Welle von Edge‑ML‑Startups vor rund zehn Jahren. Viele optimierten Modelle für Smartphones oder IoT‑Chips, waren dem Markt aber voraus: Die Modelle waren klein, der Nutzermehrwert begrenzt, Cloud‑Kapazität billig. Wie ein Investor gegenüber TechCrunch einräumte, endeten viele dieser Firmen in frühen Exits an Konzerne wie Spotify. Heute ist die Lage anders: Modelle sind deutlich größer, der Nachfragepull stark, GPU‑Ressourcen knapp.
Im Vergleich zu heutigen Platzhirschen wird Mirai sich nicht darüber differenzieren, dass Modelle überhaupt auf Geräten laufen – das können andere auch –, sondern darüber, ob es gelingt, der Standard‑Zugriffspunkt für Entwickler zu werden, ähnlich wie Stripe für Payments oder Twilio für Kommunikation. Dafür muss Mirai extrem pragmatisch sein: die relevanten Modelle und Chips unterstützen, hervorragende Tools und Benchmarks liefern und die Orchestrierung zwischen Edge und Cloud als zentrales Produktmerkmal begreifen.
Europäische und DACH‑Perspektive
Für Europa ist On‑Device‑AI mehr als ein Effizienzhebel; sie ist ein Instrument für Datenschutz und digitale Souveränität. Die DSGVO schreibt Datenminimierung und möglichst lokale Verarbeitung vor. Der kommende EU‑AI‑Act wird zusätzlich regeln, wie Hochrisiko‑Anwendungen mit sensiblen Daten umgehen. Mehr Inferenz auf dem Endgerät passt ideal in diesen Rahmen: Weniger personenbezogene Daten verlassen das Gerät, weniger landen dauerhaft im Rechenzentrum.
Das trifft auf starke europäische Branchen: Automobil, Industrie 4.0, Medizintechnik, Finanzwesen, öffentliche Verwaltung. Denken Sie an ein Kliniksystem, das Sprachaufzeichnungen von Visiten auf einem Tablet lokal transkribiert, oder eine Banking‑App, die Teile der Risikoanalyse direkt auf dem Smartphone durchführt. Solche Architekturen lassen sich gegenüber Aufsichtsbehörden leichter rechtfertigen, wenn eine geprüfte Runtime wie Mirai klare Aussagen zu Latenz, Ressourcenverbrauch und Datenflüssen machen kann.
Für Unternehmen in Deutschland, Österreich und der Schweiz ist zudem die Kultur der Datensparsamkeit relevant. Viele Betriebe – vom Mittelstand in Baden‑Württemberg bis zu Fintechs in Zürich – möchten sensible Daten nicht in US‑Clouds auslagern oder sind regulatorisch eingeschränkt. Ein europäisch geführter, plattformübergreifender On‑Device‑Stack kann hier ein wichtiges Puzzleteil sein.
Schließlich bietet der Fokus auf On‑Device‑Software Europa eine Chance, trotz Rückstandes bei Hyperscale‑Infrastruktur eine Rolle in der AI‑Wertschöpfung zu spielen. Die Region ist stark bei Embedded‑Systemen, Automotive‑Elektronik und industrieller Steuerung. Wenn Mirai und ähnliche Firmen die richtige Abstraktionsschicht liefern, könnten viele DACH‑Unternehmen GenAI‑Funktionen in Produkte integrieren, ohne selbst zu Cloud‑Infrastruktur‑Betreibern zu werden.
Ausblick
Ob Mirai ein strategischer Baustein des AI‑Stacks wird, hängt von mehreren Faktoren ab.
Erstens von der Plattformdynamik. Apple, Google und Chip‑Hersteller können ihre eigenen Toolchains jederzeit ausbauen und aggressiv in ihre Ökosysteme integrieren. Mirai muss nachweisen, dass eine neutrale Schicht echten Mehrwert bietet – etwa durch bessere Performance, einheitliche APIs über Geräteklassen hinweg oder integrierte Compliance‑Funktionen, die beim Umgang mit DSGVO und EU‑AI‑Act helfen.
Zweitens vom Wettbewerb durch Open Source. Die Community hat bereits leistungsfähige Bibliotheken für quantisierte, ressourcenschonende Modelle auf CPU und GPU hervorgebracht. Mirai wettet darauf, dass viele Unternehmen lieber eine wartbare, kommerziell unterstützte Lösung mit Monitoring, Orchestrierung und Support einsetzen, als selbst eine Sammlung von Open‑Source‑Bausteinen zu pflegen. Die Preisgestaltung wird dabei zum kritischen Punkt.
Drittens von der Fähigkeit, echte Hybrid‑Szenarien zu meistern. Der Orchestrator, der entscheidet, wann lokal gerechnet und wann in die Cloud ausgelagert wird, ist technisch anspruchsvoll und geschäftlich heikel. Er muss Latenz, Kosten, Geräteleistung, Nutzerpräferenzen und regulatorische Anforderungen gegeneinander abwägen. Genau hier könnte Mirai sich differenzieren – oder scheitern.
In den nächsten 12 bis 24 Monaten lohnt sich ein Blick auf unabhängige Benchmarks, erste Referenzkunden in regulierten Branchen und eventuelle Partnerschaften mit europäischen OEMs oder Tier‑1‑Zulieferern, etwa aus der Automobil‑ oder Maschinenbauindustrie. Schafft Mirai zudem den Sprung von Apple‑Silicon in die heterogene Android‑ und Windows‑Welt, vervielfacht sich das Marktpotenzial.
Fazit
Mirai ist eine klare Wette auf eine Zukunft, in der GenAI nicht nur ein dünner Client zur Cloud ist, sondern eine verteilte Fähigkeit, die dort läuft, wo sie ökonomisch und regulatorisch am meisten Sinn ergibt. Die Consumer‑App‑Erfahrung der Gründer und der Fokus auf Developer Experience sind Pluspunkte, doch der Markt für On‑Device‑Runtimes wird hart und politisch aufgeladen. Für Unternehmen und Entwickler in der DACH‑Region stellt sich weniger die Frage, ob Edge‑Inferenz wächst – das ist absehbar –, sondern wer die kritische Zwischenschicht zwischen Modellen und Geräten kontrollieren wird.



