KI & Kosten

Das freie Modell: Was Open-Source-KI wirklich kostet

Wer ein KI-Modell herunterlädt und lokal betreibt, sieht keine Rechnung mehr. Das ändert aber nichts an den Kosten.

von Oli Feiler · 4. Juni 2026

ChatGPT erschien im November 2022 und war innerhalb weniger Tage überall. Kostenlos, sofort verfügbar, keine Einstiegshürde. Wer es einmal benutzt hatte, wollte es jemandem zeigen. Millionen Menschen machten so ihre erste Erfahrung mit generativer KI, ohne dass eine Kampagne sie dazu gebracht hätte. Die Begeisterung war echt. Die Überschätzung auch.

Open-Source-Modelle kamen schnell. Erst vereinzelt, dann in Wellen: Llama, Mistral, Falcon, Phi. Und bald Ollama, ein einfaches Werkzeug, um Sprachmodelle lokal zu betreiben, auf dem eigenen Laptop, ohne Cloud-Anbindung, ohne monatliche Rechnung. „Ich habe jetzt meine eigene KI“ wurde in bestimmten Tech-Kreisen zum Satz des Jahres. Das war keine leere Übertreibung. Ein Modell, das lokal läuft, ist tatsächlich beeindruckend: Es antwortet, es formuliert, es erscheint fähig. Und es erzeugt, sobald es installiert ist, keine sichtbare Rechnung mehr.

Das Gefühl stimmt. Es ist nur unvollständig.

Denn die eigentlichen Kosten beginnen oft erst dort, wo KI verlässlich werden soll: Geld, Energie, Daten, Menschen, Zeit, Risiko. Das freie Modell ist der Anfang eines Prozesses, nicht sein Ende.

Was offen heißt — und was nicht

Der Begriff „Open Source“ hat in der Softwareentwicklung eine präzise Bedeutung. Der Quellcode liegt vor, kann gelesen, verändert, weitergegeben werden. Wer ein Open-Source-Programm nutzt, versteht im Prinzip, was es tut. Zumindest könnte er es. Diese Transparenz war Grundlage der freien Softwarebewegung, und sie hat echte gesellschaftliche Konsequenzen gehabt.

Bei klassischer Software meint Open Source vor allem: Der Quellcode liegt offen. Bei KI-Modellen reicht diese Vorstellung nicht mehr aus. Genauer müsste man bei den meisten aktuellen Systemen von Open-Weight-Modellen sprechen: Zugänglich sind die trainierten Parameter — Milliarden von Zahlenwerten, die beschreiben, wie das Modell auf Eingaben reagiert. Quellcode, Trainingsdaten, Filterlogik, vollständige Methodik: Das bleibt in der Regel geschlossen. Ein fertiges Produkt ohne Zutatenliste.

Das Trainingsrezept fehlt fast überall. Welche Daten wurden verwendet, in welcher Zusammensetzung, mit welchen Qualitätsstufen, welchen Ausschlusskriterien? Wie wurde annotiert, von wem, auf welcher Grundlage? Wie wurden menschliche Rückmeldungen gewichtet, welche Entscheidungen flossen in das Fine-Tuning ein? Diese Fragen bleiben unbeantwortet, auch bei Modellen, die sich demonstrativ „offen“ nennen.

Die Namen, die in diesem Bereich Schlagzeilen machen, spiegeln mehr als technische Qualitätsstufen. Meta veröffentlichte mit Llama eine Modellreihe, die sich „open“ nennt, deren Trainingsdaten und -prozesse aber weitgehend im Dunkeln bleiben. DeepSeek aus China überraschte mit Leistungsdaten, die bei bestimmten Benchmarks mit deutlich teureren proprietären Systemen konkurrierten; die gleichzeitig genannten Trainingskosten lösten eine Debatte darüber aus, wie transparent Hardwareeinsatz und Vorarbeiten tatsächlich ausgewiesen werden. Mistral aus Paris, Qwen aus Alibabas Laboren, Gemma von Google: Jede dieser Veröffentlichungen folgt eigenen Offenheitslogiken, bedient andere Abhängigkeitsverhältnisse, richtet sich an unterschiedliche geopolitische Interessen. „Offen“ ist eine strategische Kategorie, kein technischer Standard.

Die eigentliche Arbeit

Hier beginnt ein Bereich, den die öffentliche Diskussion meist überspringt. Weniger glamourös als ein überzeugend formulierender Chatbot, aber erheblich teurer.

Sprachmodelle entstehen nicht dadurch, dass man viel Text in einen Computer lädt und wartet. Sie entstehen durch mehrere aufeinander folgende Phasen, von denen jede Zeit, Rechenleistung und menschliches Urteilsvermögen erfordert. Das Vortraining auf großen Textmengen ist der bekannteste Teil. Er braucht GPU-Cluster in einem Ausmaß, das Elektrizitätsrechnungen produziert, die Industriebetrieben Respekt einflößen würden. Das Training von GPT-4 kostete laut Stanford AI Index 2025 allein an Rechenleistung zwischen 78 und 100 Millionen Dollar; Googles Gemini Ultra 1.0 liegt bei schätzungsweise 192 Millionen. Diese Zahlen decken ausschließlich den Compute — Personal, Infrastruktur und Daten kommen obendrauf. Anthropic-CEO Dario Amodei hat öffentlich geäußert, dass einzelne Trainings-Runs noch in diesem Jahrzehnt die Milliardengrenze überschreiten werden.

Aber mit dem Vortraining ist die schwierige Arbeit nicht beendet. Für viele reale Anwendungen beginnt sie dort erst.

RLHF, kurz für Reinforcement Learning from Human Feedback, bezeichnet den Prozess, durch den ein Modell lernt, nützliche, sichere, korrekte Antworten zu geben und nicht nur plausibel klingende. Menschen bewerten Antworten, rangieren sie gegeneinander, markieren Fehler, erklären, was fehlt oder falsch liegt. Diese Arbeit, oft ausgelagert und selten sichtbar, ist ein zentraler Baustein dessen, was ein Modell tauglich macht.

Laut einer Untersuchung des Time Magazine geben die großen Frontier-Labs je rund eine Milliarde Dollar pro Jahr für menschlich generierte Trainingsdaten aus. In der Praxis kosten 600 hochwertige RLHF-Annotationen etwa 60.000 Dollar — das 167-fache der reinen Compute-Kosten für denselben Training-Run. Von 2023 auf 2024 stiegen die Kosten für Datenannotation branchenweit um den Faktor 88; die Rechenkosten im gleichen Zeitraum um das 1,3-fache.

Synthetische Trainingsdaten kommen zunehmend hinzu: Modelle, die Daten für andere Modelle erzeugen, in einer Schleife, die Effizienzgewinne bringen kann, aber auch neue Fehlermuster einführt, wenn sie nicht sorgfältig überwacht wird. Evaluierung, Benchmarking, Sicherheitstests: Das klingt nach Qualitätssicherung und ist es auch. Nur: Es kostet.

Was das in der Praxis bedeutet, zeigt sich beim Aufbau von KOMPASS-RAD, einem von uns entwickelten KI-gestützten Prüfungssimulator für die medizinische Radiologie. Das System antwortet. Es formuliert überzeugend. Und genau deshalb werden Fehler gefährlich: Sie sehen nicht aus wie Fehler. Halluzinationen in medizinischen Kontexten sind kein Randproblem. Sie sind ein systematisches Risiko, das nicht durch mehr Parameter verschwindet, sondern durch mehr Kontrolle: wiederholte Korrekturschleifen, fachkundige Prüfung, klare Eskalationsregeln.

Die eigentliche Arbeit moderner KI besteht nicht darin, Antworten zu erzeugen. Sondern falsche Antworten zu verhindern.

Das bedeutet: Jede ernsthafte KI-Anwendung braucht Domänenwissen, Testinfrastruktur, laufende Qualitätskontrolle und menschliches Urteilsvermögen, nicht einmalig bei der Einführung, sondern dauerhaft. Das Modell ist der Ausgangspunkt. Das Produkt entsteht danach, durch Arbeit, die auf keinem Preiszettel steht.

Warum Offenheit trotzdem zählt

Aus dem bisher Gesagten zu schließen, offene Modelle seien bloß ein Marketingbegriff, wäre ein Fehler. Das Gegenteil trifft zu, nur auf andere Weise, als der Hype es nahezu ermöglichen lokale Verarbeitung. Daten, die das eigene System nicht verlassen, können nicht abgegriffen, nicht in fremden Trainingspipelines verwendet, nicht von einem Anbieter zum Druckmittel gemacht werden. Für Organisationen mit sensiblen Informationen ist das keine Komfortfrage. Medizinische Einrichtungen, juristische Kanzleien, Verwaltungen: Sie alle brauchen Garantien, die ein externer Cloud-Anbieter schlicht nicht geben kann.

Offene Modelle ermöglichen Forschung. Wer die Gewichte verändern kann, kann Mechanismen untersuchen, die bei proprietären Systemen verborgen bleiben. Diese Transparenz ist Grundlage für Kritik, Weiterentwicklung und ein realistisches Verständnis dieser Systeme.

Offene Modelle sind außerdem Bedingung für europäische KI-Souveränität. Wer keine eigenen Modelle trainieren oder anpassen kann, ist auf wenige, überwiegend amerikanische oder chinesische Anbieter angewiesen. Das ist eine strukturelle Abhängigkeit, die politisch irgendwann Konsequenzen haben wird.

Aber Offenheit ersetzt keine Infrastruktur.

Rechenzentren sind keine Wolken

Die Infrastruktur, die hinter KI steht, besteht nicht nur aus Serverpreisen und Wartungsverträgen. Sie besteht aus Strom, Wasser, Kühlung, Glasfaser, Transformatoren, Flächen, Beton, Stahl und seltenen Rohstoffen. Die Cloud ist kein immaterieller Raum — sie ist gebaute Industrie, nur so gut abstrahiert, dass sie im Alltag verschwindet.

Generative KI verschiebt diese Infrastrukturanforderungen in ein anderes Größenverhältnis. Klassische Webanwendungen lassen sich durch Caching, effizientere Abfragen und schlanke Architekturen optimieren. Sprachmodelle benötigen spezialisierte Hardware und dauerhaft verfügbare Energie in Mengen, die von der kleinen Anfrage im Interface gut verborgen werden, aber vorhanden sind.

Hinzu kommen Kühlsysteme, Wasserverbrauch und die Materialkosten der Hardwareproduktion. Wie stark KI-Anwendungen den globalen Rechenzentrumsbedarf konkret treiben, behandeln wir ausführlicher in unserem Artikel zu nachhaltigem Webdesign.

Das macht KI nicht ökologisch illegitim. Es bedeutet aber: Wer KI einsetzt, trägt Verantwortung für die Verhältnismäßigkeit. Wo einfache, robuste Logik denselben Zweck erfüllt, ist ein generatives Modell keine Verbesserung, sondern eine unnötige Infrastrukturbelastung. Diese Frage ist nicht akademisch. Sie stellt sich bei jedem Produkt, das gebaut wird.

Wo der Wettbewerb wirklich stattfindet

KI ist längst kein Wettbewerb mehr zwischen Chatbots. Benchmark-Vergleiche, Parameterzahlen, Antwortgeschwindigkeiten: Das sind Oberflächen, die mit der eigentlichen Verschiebung nur begrenzt zusammenhängen.

Wer am Ende die Oberhand behält, entscheidet sich an Stellen, die selten in die Schlagzeilen gelangen. Bei den Daten: Qualität, Spezifität, Kuration. Das, was kein Benchmark abbildet. Bei der Pipeline: die Fähigkeit, aus Fehlern systematisch zu lernen und Modelle laufend zu verbessern, statt sie einmalig einzurichten und dann zu verwalten. Und bei der organisatorischen Einbindung: KI, die in reale Entscheidungsprozesse integriert ist und von Domänenwissen flankiert wird, ist ein anderes Werkzeug als KI im Demo-Modus.

Für Verbände und Unternehmen konkretisiert sich das an einer simplen Frage: Wer in der Organisation weiß genug, um eine falsche Antwort als falsch zu erkennen? Ein frei verfügbares Modell kann Satzungen zusammenfassen, Anfragen beantworten, Recherchen beschleunigen. Aber es halluziniert auch — überzeugend, fließend, ohne Warnung. Die Kosten dafür sind nicht im Modell enthalten. Sie entstehen dort, wo jemand die Ausgaben prüft, korrigiert und verantwortet. Wer das nicht einplant, kauft sich keine KI, sondern ein gut klingendes Risiko.

Das ist relevant für Unternehmen, Verbände und wissenschaftliche Einrichtungen, nicht als abstrakte Warnung, sondern als Beschreibung eines Wettbewerbs, der bereits läuft. Ein Modell herunterzuladen ist der einfachste Schritt in einer langen Kette. Was danach kommt, lässt sich weder kaufen noch herunterladen. Genau dort beginnt die eigentliche Kostenrechnung der KI.

Weiterlesen

Quellen

Stanford HAI (2025): AI Index Report 2025. Stanford University.
Cottier, Ben et al. (2024): The rising costs of training frontier AI models . Epoch AI / Stanford University.
Kandpal, Nikhil et al. (2025): The Most Expensive Part of an LLM should be its Training Dataset . University of Toronto & Vector Institute. Preprint.
Time Magazine (2025): Investigation on human-generated training data costs at major AI labs.
Second Talent (2026): Data Annotation for LLM Fine-Tuning: RLHF and Instruction Tuning Guide.

Sprechen wir über Ihren KI-Einsatz.

Wir begleiten Verbände und Unternehmen von der Modellauswahl bis zum verlässlichen Betrieb. Mit eigener Infrastruktur, Domänenwissen und laufender Qualitätssicherung.

Oli Feiler, Geschäftsführer

Gespräch anfragen 030 / 217 990 470