Im April 2026 teilte Ubers Chief Technology Officer in einem Interview mit, dass das Unternehmen sein gesamtes KI-Budget für das laufende Jahr bereits aufgebraucht hatte. Acht Monate vor dem Jahresende.
Das war kein Misserfolg. Das war das eigentliche Problem.
Claude Code hatte unter Ubers 5.000 Entwicklern eine Adoptionsrate von 84 bis 95 Prozent erreicht. Die Produktivität stieg. Die Entwickler schätzten das Werkzeug. Doch die monatlichen API-Kosten lagen pro Mitarbeiter zwischen 500 und 2.000 Dollar und summierten sich schneller, als irgendjemand modelliert hatte. Das gesamte für KI-Tools vorgesehene Budget war aufgebraucht, bevor das Jahr zur Hälfte um war. Was als Erfolg hätte gefeiert werden sollen, erzwang eine Grundsatzdiskussion über Budgets, Preismodelle und Wirtschaftlichkeit.
Ungefähr zur gleichen Zeit kündigte Microsoft tausende interne Lizenzen für Claude Code zum 30. Juni und leitete seine Entwickler auf GitHub Copilot um, das eigene Produkt, das der direkten Tokenabrechnung entzogen ist. Auch das war keine Kritik an der Qualität der Modelle. Es war eine Kostenkontrolle.
Die Ausgangsthese war eingängig. Wissensarbeit ist teuer, weil Menschen teuer sind. Wenn Maschinen Texte schreiben, Code erstellen und Anfragen beantworten könnten, würden Kosten sinken. Produktivität würde steigen, während Personalkosten fielen.
Diese Logik war so glatt, dass kaum jemand nachfragte, wer die Maschinen bezahlt.
Dass die Infrastruktur von Grund auf teuer ist, hatte dieser Blog bereits beleuchtet: Das freie Modell: Was Open-Source-KI wirklich kostet zeigte, dass Trainingskosten für Frontier-Modelle im dreistelligen Millionenbereich liegen, Annotationsarbeit weitere Milliarden verschlingt und der Begriff „Open Source" bei KI oft trügt. Trainingskosten sind Vergangenheit. Einmal ausgegeben, abgeschlossen. Was neu ist: Die Kosten verlagern sich vom Training in die tägliche Nutzung. Und genau dort beginnt ein strukturelles Problem, das die Branche erst langsam durchrechnet.
Die Softwareindustrie hatte über Jahrzehnte ein Geschäftsmodell kultiviert, das sich fundamental von anderen Industrien unterschied. Ein Produkt wird einmal entwickelt und kann beliebig oft verteilt werden, ohne dass jede weitere Kopie neue Kosten erzeugt. Diese nahezu freie Reproduzierbarkeit machte Software zu einem der attraktivsten Geschäftsmodelle der Wirtschaftsgeschichte.
KI bricht dieses Prinzip auf.
Jede Anfrage an ein Sprachmodell erzeugt echte, laufende Kosten. Rechenzeit auf GPU-Clustern. Energie. Kühlung. Netzwerkinfrastruktur. Wenn eine Million Menschen gleichzeitig eine Textverarbeitungssoftware öffnen, entstehen dem Hersteller keine zusätzlichen Produktionskosten. Wenn eine Million Menschen gleichzeitig Anfragen an ein Sprachmodell stellen, laufen Kühlsysteme, drehen Lüfter, steigen Stromrechnungen.
Ökonomen sprechen von Grenzkosten, dem Preis für eine weitere produzierte Einheit. In der Softwarewelt tendierten diese gegen null. Das war das Fundament des Plattformkapitalismus: einmal bauen, endlos skalieren. KI kehrt zu einer Ökonomie zurück, die Fertigungsunternehmen seit jeher kennen. Jeder Auftrag verbraucht Material. Jede Anfrage verbraucht Strom.
Das hat unmittelbare Konsequenzen für die Art, wie Unternehmen Technologie planen. Klassische Software wird nach Lizenzen oder Sitzen eingekauft: ein fixer Jahresbetrag, planbar, budgetierbar. Eine Organisation weiß im Januar, was sie bis Dezember für eine bestimmte Plattform ausgeben wird. Mit KI-Tools funktioniert diese Logik nicht mehr. GitHub hat seine Copilot-Pläne ab Juni 2026 auf nutzungsbasierte Abrechnung umgestellt: Wer mehr nutzt, zahlt mehr. Wer produktiver ist, ist teurer. Finanzabteilungen, die KI-Ausgaben wie Software-Lizenzen behandeln, stellen fest, dass die Budgets nicht bis zum Jahresende reichen. Das ist kein Buchführungsproblem. Es ist ein strukturelles Beschaffungsproblem, das hinter jedem der Fälle steckt, über die gerade berichtet wird.
Aus diesem Problem folgt ein Widerspruch, den die Anbieter lieber nicht laut aussprechen.
KI wird als Produktivitätswerkzeug positioniert. Je intensiver ein Mitarbeiter es einsetzt, desto mehr leistet er. So das Versprechen. Bei klassischer Software ist der ideale Nutzer derjenige, der das Produkt täglich und intensiv verwendet. Bei tokenbasierter KI kann genau dieser Nutzer zum teuersten Kunden werden.
Das Prinzip hinter der Tokenabrechnung macht das konkret: Jede Eingabe, jede generierte Antwort, jede Code-Überprüfung, jede Debugging-Session erzeugt Kosten. Wer effizienter arbeitet und KI stärker einbindet, zahlt mehr. Die Umstellung von GitHub auf nutzungsbasierte AI Credits signalisiert, dass selbst etablierte Plattformen das Kostenrisiko nicht mehr vollständig tragen wollen.
Was daraus folgt, ist ein Anreizproblem. Wer KI-Tools erfolgreich in Prozesse integriert, hat höhere KI-Kosten. Wer die Nutzung einschränkt, um Kosten zu senken, gibt den versprochenen Produktivitätsvorteil auf. Microsoft und Uber haben sich für eine dritte Option entschieden: eigene Modelle entwickeln oder auf günstigere Alternativen umsteigen, was genau den Preisdruck auf die großen Anbieter erhöht.
Klarna wurde zum Paradebeispiel der KI-gestützten Unternehmenstransformation. Das schwedische Fintech-Unternehmen reduzierte seine Belegschaft von 5.500 auf 3.400 Mitarbeitende, erklärte öffentlich, KI könne menschliche Arbeit übernehmen, und feierte zunächst Einsparungen von zehn Millionen Dollar.
Dann sanken die Kundenzufriedenheitswerte. Beschwerden häuften sich. Mitte 2025 begann das Unternehmen wieder einzustellen. Der CEO räumte ein, zu stark auf Effizienz gesetzt zu haben. Das öffentlich gefeierte Experiment entpuppte sich als Halb-Erfolg, dessen Rückabwicklung selbst Kosten erzeugte: Wiedereinstellung, Onboarding, beschädigtes Vertrauen.
Klarna ist kein Einzelfall. Forrester Research schätzte im Future-of-Work-Report 2026, dass 55 Prozent der Arbeitgeber es bereuen, Mitarbeitende aus KI-bezogenen Gründen entlassen zu haben. Ein Drittel jener, die Stellen wieder besetzt haben, gab dafür mehr aus, als es durch die ursprünglichen Entlassungen gespart hatte. Gartner prognostiziert, dass die Hälfte der Unternehmen, die Kundenservice-Rollen gestrichen haben, diese innerhalb eines Jahres wieder besetzen wird.
Hinter diesen Zahlen steckt ein konsistentes Muster. KI erledigt 60 bis 80 Prozent einer Aufgabe zuverlässig und schnell. Die verbleibenden 20 bis 40 Prozent bleiben menschlich: Eskalationen, Urteilsvermögen, Verantwortungsübernahme in Grenzfällen. Diese letzte Meile erscheint selten in der ersten Version der Kalkulation. Qualitätskontrolle, Halluzinationsprüfung, regulatorische Verantwortung: reale Posten, die in der ursprünglichen Rechnung fehlen.
Bryan Catanzaro, Vizepräsident für Applied Deep Learning beim Chiphersteller Nvidia, brachte es in einem Gespräch mit Axios auf den Punkt: „Für mein Team liegen die Rechenkosten weit über den Personalkosten." Goldman Sachs Research kam im Mai 2026 zu einem ähnlichen Befund für den Kundenservice: Menschliche Mitarbeitende können in der Gesamtrechnung günstiger sein als KI-Gegenstücke. Eine MIT-Studie aus dem Jahr 2024 ermittelte, dass KI nur in etwa 23 Prozent der untersuchten Aufgaben wirtschaftlich sinnvoller war als menschliche Arbeit.
Man könnte erwarten, dass die Anbieter auf diese Kosten-Realität mit Preissenkungen reagieren. Das ist strukturell schwierig. Der Grund dafür wird wenig diskutiert.
Anthropic meldete sich laut Reuters am 1. Juni 2026 vertraulich bei der US-Börsenaufsicht für einen Börsengang an. Angestrebtes Listing: Oktober 2026 an der NASDAQ, mit einer Bewertung von rund 965 Milliarden Dollar. OpenAI folgte kurze Zeit später, laut Wall Street Journal bei einer Bewertung von etwa 852 Milliarden Dollar. Beide Unternehmen schreiben Verluste. OpenAI verliert Berichten zufolge auf jeden eingenommenen Dollar mehr als einen Dollar und erwartet Profitabilität frühestens 2030. Zusammen planen beide Unternehmen, allein in diesem Jahr einen zweistelligen Milliardenbetrag für Compute und Betrieb auszugeben.
Gleichzeitig sollen öffentliche Investoren Bewertungen nahe der Billion Dollar für gerechtfertigt halten.
Wer die Preise senkt, drückt die Umsatzkennzahlen, auf die es für das Listing ankommt. Wer die Preise hält, riskiert, dass Großkunden die Nutzung rationieren. Beide Wege sind unbequem. Die Preisentscheidungen der nächsten zwölf Monate werden nicht allein vom Wettbewerb getrieben. Die Roadshow-Präsentation spielt dabei eine genauso große Rolle.
In dieser Konstellation lohnt sich ein kurzer Blick zurück. Die Dotcom-Ära verlief strukturell ähnlich: Enormes Kapital floss in Infrastruktur und Wachstum, bevor tragfähige Geschäftsmodelle existierten. Aus der Konsolidierung entstanden Google, Amazon und das Cloud-Ökosystem, aber kein Unternehmen, das damals Verluste schrieb, wurde dadurch automatisch zum Gewinner. Dass sich Geschichte ähnelt, ist kein Versprechen, dass sie sich wiederholt. Die aktuelle Kapitalmarktbegeisterung, die Bewertungen nahe der Billion Dollar für verlustschreibende Anbieter trägt, ist eine Wette auf eine Zukunft, die noch nicht eingetroffen ist.
Die großen Tech-Unternehmen haben für 2026 gemeinsam rund 740 Milliarden Dollar an KI-bezogenen Investitionen angekündigt. Das entspricht einem Anstieg von 69 Prozent gegenüber dem Vorjahr. Breit angelegte Daten, die belegen, dass diese Investitionen proportionale Produktivitätsgewinne erzeugen, fehlen bisher.
Die Frage, ob KI Arbeit ersetzt, hat die Debatte jahrelang dominiert. Sie war nie falsch. Sie ist nur nicht mehr die entscheidendste. Was sich gerade herausschält, ist eine andere: Kann KI wirtschaftlich so günstig werden, wie es die ursprünglichen Versprechen verlangten?
Modelle werden effizienter, Infrastrukturkosten sinken langfristig, Open-Source-Alternativen holen auf. Gleichzeitig steigt der Hunger nach Rechenleistung schneller als die Effizienzgewinne. Ein IPO-Kontext, der Preissenkungen strukturell unattraktiv macht, ist kein günstiger Moment für Kundeninteressen. Und Unternehmen, die gerade dabei sind, KI-Budgets zurückzustutzen und menschliche Mitarbeitende zurückzuholen, schreiben Erfahrungsberichte, die in keiner Investor-Präsentation auftauchen.
Eine strukturelle Antwort auf das Budgetierungsproblem liegt im Wechsel vom Token-Modell zu eigenem Betrieb. Wer Sprachmodelle auf eigener Infrastruktur betreibt, zahlt Fixkosten statt variabler Nutzungskosten: Eine Stunde intensiver Nutzung kostet gleich viel wie eine ruhige. Für Verbände und medizinische Einrichtungen kommt ein weiterer Aspekt hinzu: Sensible Daten bleiben im eigenen System, ohne externe Verarbeitung. Was dabei ehrlich gesagt werden muss: Lokale Modelle erreichen selten die Spitzenleistung von Frontier-Modellen wie GPT-5.5 oder Claude Fable 5. Wer mit 80 Prozent der Leistung auskommt und die Token-Spirale vermeiden möchte, findet hier einen gangbaren Weg. Wie sich das konkret rechnet, haben wir in Das freie Modell: Was Open-Source-KI wirklich kostet beleuchtet.
Leistungsfähigkeit und Wirtschaftlichkeit sind nicht dasselbe.
Wer das verwechselt, finanziert den nächsten Börsengang.