10. Juni 2026

KI und Nachhaltigkeit: Was kostet ein Prompt wirklich?

Bei unserer letzten Memberumfrage wurde ein klares Signal gesendet: Viele von uns nutzen täglich KI-Tools und viele fragen sich dabei, ob das eigentlich vertretbar ist. Ist ChatGPT, Claude oder Copilot ein ökologisches Problem? Die ehrliche Antwort ist: Ja und es kommt sehr darauf an. Und auf diese Nuancen möchte ich in diesem Post eingehen.

Digital Transformation

AI & Data Analytics

Daniel Binggeli

Chief Technology Officer
Member of the Executive Team

Serverrack Beispielbild Blog KI / Umwelt

Inhalt:

Das Training: Der grosse, einmalige Energiefresser Die Nutzung: Überraschend moderat Wo der echte Unterschied liegt Die nächste Phase: Von Hype zu Optimierung Spezialisierung statt Universalmodell Was das für den Energieverbrauch bedeutet Was das für eine IT-Firma wie Puzzle bedeutet Fazit: Weder verteufeln noch ignorieren

Das Training: Der grosse, einmalige Energiefresser

Wenn man über den Ressourcenverbrauch von LLMs spricht, muss man zwei Phasen klar voneinander trennen: das Training und die Inference, also die tatsächliche Nutzung.

Das Training eines grossen Sprachmodells wie GPT-4 oder Claude Opus ist tatsächlich enorm energieintensiv. Die dafür benötigten Energiemengen sind beträchtlich. Aktuelle Schätzungen gehen von mehreren zehntausend bis hunderttausend Megawattstunden (MWh) allein für den Stromverbrauch aus. Die graue Energie der benötigten Hardware ist dabei noch nicht berücksichtigt.

Zum Vergleich: Ein durchschnittlicher Schweizer Haushalt verbraucht rund 4,4 MWh Strom pro Jahr. Das Training eines grossen Modells entspricht also dem Jahresverbrauch von mehreren tausend Haushalten. Dieser Aufwand fällt jedoch nur einmal pro Modellgeneration an.

Viele grosse Anbieter haben ihre Rechenzentren in den vergangenen Jahren zunehmend mit erneuerbaren Energien betrieben. Gleichzeitig zeigt der steigende Energiebedarf der Branche, dass die Entwicklung nicht ausschliesslich in diese Richtung verläuft.

Die Nutzung: Überraschend moderat

Für die meisten Anwenderinnen und Anwender ist die Inference relevanter, also der tatsächliche Energieverbrauch pro Anfrage. Und hier relativiert sich das Bild erheblich.

Ein einzelner LLM-Request, also beispielsweise eine Frage an ChatGPT oder die Generierung eines Textes, verbraucht je nach Modell und Komplexität zwischen 0,001 und 0,01 kWh. Das entspricht ungefähr 1 bis 10 Wattstunden.

Aktivität	Energieverbrauch
Eine Google-Suche	~0,0003 kWh
Ein ChatGPT-Request	~0,002–0,01 kWh
Eine E-Mail versenden	~0,0004 kWh
1 Minute Netflix streamen	~0,001 kWh
Einen Kaffee kochen	~0,033 kWh
1 km mit dem Auto fahren	~0,2 kWh

Ein Prompt kostet also ungefähr so viel Energie wie eine Minute Videostreaming. Oder anders gesagt: Wer täglich zehn KI-Anfragen stellt, verursacht damit weniger CO₂ als ein einziger Kilometer Autofahrt.

Quellen: IEA, Goldman Sachs Research (2024) sowie verschiedene akademische Studien. Die Zahlen variieren je nach Modell, Infrastruktur und Messmethode.

Wo der echte Unterschied liegt

Nicht alle LLM-Nutzungen sind gleich. Hier sind die Faktoren, die wirklich einen Unterschied machen:

1. Modellgrösse wählen

Ein kleines Modell wie Claude Haiku oder GPT-4o mini verbraucht für viele Aufgaben fünf- bis zehnmal weniger Energie als ein grosses Modell, bei oft vergleichbarer Qualität. Für eine einfache Code-Formatierung braucht es kein Frontier-Modell.

2. Rechenzentrum-Standort und Energiemix

Die Kohlenstoffintensität des Stroms am Serverstandort macht einen massiven Unterschied. Ein identischer Request, der in einem Rechenzentrum mit Wasserkraft läuft, hat einen deutlich kleineren CO₂-Fussabdruck als derselbe Request in einem kohlebasierten Rechenzentrum.

Bei SaaS-Angeboten wie ChatGPT oder Claude haben Nutzerinnen und Nutzer darauf kaum Einfluss. Bei lokalen Modellen oder selbst betriebenen Lösungen sieht das anders aus.

3. Effizienz der eigenen Nutzung

Vage oder schlecht formulierte Prompts führen oft zu mehreren Iterationen. Ein gut formulierter Prompt, der im ersten Anlauf ein brauchbares Ergebnis liefert, ist nicht nur produktiver, sondern auch ressourcenschonender.

4. Lokale Modelle

Für bestimmte Anwendungsfälle, insbesondere im Bereich Datenschutz, laufen Modelle lokal auf der eigenen Infrastruktur oder direkt auf dem Endgerät. Der Energieverbrauch verlagert sich dabei auf die eigene Hardware. Je nach GPU und Aufgabe kann das effizienter oder ineffizienter sein als die Cloud-Variante.

Die nächste Phase: Von Hype zu Optimierung

Wir befinden uns aktuell noch mitten im KI-Hype-Zyklus. Die dominante Strategie der letzten Jahre lautete: Nimm das grösste verfügbare Modell und wirf es auf jedes Problem.

Das ist verständlich. In einer Phase, in der es primär darum geht herauszufinden, was überhaupt möglich ist, ist dieser Ansatz pragmatisch.

Aber diese Phase neigt sich langsam dem Ende zu. Warum? Weil die Kosten steigen.

Leider ist der Preis auch heute noch der stärkste Treiber für Optimierungen und nicht der Wunsch nach mehr Umweltschutz.

Die Nutzung grosser Frontier-Modelle über APIs ist teuer. Wer beginnt, KI ernsthaft in Produktivsysteme zu integrieren, merkt schnell, dass die monatliche Rechnung spürbar wächst. Dieser Kostendruck wird den Markt ganz ohne politischen Druck in Richtung Effizienz bewegen.

Was jetzt folgt, ist eine Kosten-Nutzen-Optimierungsphase, die aus Nachhaltigkeitssicht durchaus erfreulich sein dürfte.

Spezialisierung statt Universalmodell

Das Energieintensive an grossen Frontier-Modellen ist ihre Universalität. Sie können alles ein bisschen: Gedichte schreiben, Code debuggen, Verträge analysieren oder auf Swahili antworten. Für die meisten Produktivanwendungen braucht man das nicht.

Die Industrie bewegt sich deshalb zunehmend in Richtung spezialisierter, kleinerer Modelle, die für einen bestimmten Use Case optimiert sind.

Die wichtigsten Techniken dabei:

Fine-Tuning: Ein bestehendes Modell wird mit spezifischen Daten nachtrainiert, beispielsweise mit den Supportanfragen und Antworten eines Unternehmens. Das resultierende Modell ist kleiner, schneller, günstiger und für seinen Zweck oft besser geeignet als ein grosses Allzweckmodell. Der Energieverbrauch pro Request sinkt deutlich.

Retrieval-Augmented Generation (RAG): Statt das gesamte Unternehmenswissen in ein Modell hineinzutrainieren, wird dem Modell bei jeder Anfrage nur der relevante Kontext aus einer Wissensdatenbank mitgegeben. Das Modell selbst bleibt klein, die Intelligenz liegt in der Datenstruktur. RAG ist heute einer der pragmatischsten Wege, um interne Wissenssysteme aufzubauen.

Quantisierung und Destillation: Grosse Modelle können mathematisch komprimiert werden, ohne dass die Qualität stark leidet. Modelle mit ursprünglich 70 Milliarden Parametern lassen sich auf deutlich kleinere Grössen reduzieren und liefern für spezifische Aufgaben oft weiterhin vergleichbare Ergebnisse.

Was das für den Energieverbrauch bedeutet

Ein gut spezialisiertes Modell mit sieben bis dreizehn Milliarden Parametern verbraucht für seine spezifische Aufgabe zehn- bis hundertmal weniger Energie als ein grosses Frontier-Modell.

Wenn sich dieser Trend durchsetzt, und vieles spricht dafür, muss der Energieverbrauch pro produktivem KI-Task trotz wachsender Nutzung nicht zwangsläufig explodieren.

Was das für eine IT-Firma wie Puzzle bedeutet

Als IT-Dienstleister stehen wir an einer interessanten Stelle. Wir sind nicht nur Nutzer von KI-Tools, sondern unterstützen auch Kunden bei deren Einführung und Umsetzung.

In der eigenen Nutzung

Das passende Werkzeug für die Aufgabe wählen. Nicht immer das grösste Modell verwenden.
Prompts präzise formulieren. Weniger Iterationen sind produktiver und ressourcenschonender.
Interne Automatisierungen, die heute noch grosse Modelle nutzen, mittelfristig auf spezialisierte Modelle migrieren.
Lokale Modelle dort einsetzen, wo Datenschutz, Kosten oder Nachhaltigkeit dafür sprechen.

In der Kundenberatung

Nicht reflexartig die neueste Frontier-API empfehlen.
Für viele Produktivanwendungen kann ein feinabgestimmtes Open-Source-Modell on-premises langfristig die nachhaltigere und wirtschaftlichere Lösung sein.
Die Optimierungsphase von Beginn an mitdenken. Für erste Experimente kann ein Frontier-Modell sinnvoll sein. Im produktiven Betrieb sollte jedoch das passende Modell gewählt werden.
KI-Architekturen ressourcenbewusst designen. Welche Komponente braucht wirklich ein LLM? Was kann eine klassische Suche übernehmen? Was erledigt ein einfacher Classifier?
Kunden dabei unterstützen, den tatsächlichen Energieverbrauch ihrer KI-Systeme zu messen.

Als Marktbegleitung

Die Kosten-Nutzen-Optimierungsphase kommt. Unternehmen, die heute modulare KI-Architekturen aufbauen, werden künftig deutlich einfacher auf effizientere Modelle wechseln können.

Fazit: Weder verteufeln noch ignorieren

Die Skepsis gegenüber dem Energieverbrauch von KI ist berechtigt. Gleichzeitig wäre es falsch, KI pauschal abzulehnen.

Die Realität ist differenzierter. Der Ressourcenverbrauch pro Nutzung ist mit vielen anderen digitalen Aktivitäten vergleichbar. Die grössten Hebel liegen beim Modelltraining, beim Energiemix der Rechenzentren und bei der Art, wie wir KI einsetzen.

Was wirklich hilft: KI dort einsetzen, wo sie echten Mehrwert schafft. Nicht überall. Aber auch nicht gar nicht.

Die Entwicklung von KI lässt sich nicht aufhalten. Wir können jedoch aktiv mitgestalten und mitentscheiden, welchen ökologischen Fussabdruck sie hinterlässt.

Das grösste Modell zu nutzen, ist einfach. Das richtige Modell zu nutzen, ist Handwerkskunst.

PS: Ein Aspekt bleibt hier bewusst ausgeklammert: der Wasserverbrauch. Für die Kühlung von KI-Rechenzentren werden erhebliche Mengen Wasser benötigt. Je nach Studie verdampft für einige Dutzend Prompts grob geschätzt etwa ein halber Liter Frischwasser. Dieser physische Ressourcenverbrauch wird in der öffentlichen Diskussion oft deutlich weniger beachtet als der Stromverbrauch.

Mehr Wissen