Das Training großer AI-Modelle ist energieintensiv, doch mit der richtigen Infrastruktur lässt sich der Ressourcenverbrauch deutlich senken. Im Gastbeitrag zeigt CANCOM-Experte Daniel Kiehl (Director Competence Center, Datacenter & Cloud bei CANCOM) anhand eines Praxisbeispiels auf, wie sich durch ein gezieltes Design der Infrastruktur sowohl CO₂-Emissionen als auch Betriebskosten messbar reduzieren lassen – ohne Einbußen bei der Leistung.
22. August 2025
|
Lesedauer: ca. 3 Min.

Bild: © Sugar & Kane/stock.adobe.com
Smartes Infrastruktur-Design senkt beim AI-Training den Energieverbrauch deutlich. CANCOM-Experte Daniel Kiehl zeigt am Beispiel des CAIDAS-LLM der Universität Würzburg, wie stromsparende GPUs, optimierte Strom- und Kühlkonzepte sowie präzise Workload-Analysen den Bedarf von 16,6 MWh auf nur 3,7 MWh reduzieren. Das spart rund 4,1 t CO₂ und über 4.200 € pro Lauf – ohne Leistungseinbußen. Effiziente AI-Infrastrukturen sind damit ökologisch wie wirtschaftlich nachhaltig. Nähere Informationen zu den Leistungen von CANCOM im Bereich AI-Infrastruktur finden Sie hier.
Dieser Text wurde mit Unterstützung von AI erstellt und redaktionell überprüft.
Moderne AI-Trainings- und Inferenz-Workloads – die anfallen, wenn AI-Modelle entwickelt, trainiert und eingesetzt werden – erfordern hochskalierbare Rechenressourcen, eine zuverlässige Stromversorgung sowie eine effizient ausgelegte Kühlung. Ohne eine darauf abgestimmte Infrastruktur drohen hohe Betriebskosten und unnötig hohe CO₂-Emissionen. Genau hier setzen wir als CANCOM an: Durch eine präzise Analyse der Trainingsanforderungen, die gezielte Auswahl stromsparender GPUs (Grafikprozessoren) und ein maßgeschneidertes Strom- und Kühlkonzept erreichen wir deutliche Einsparungen – ganz ohne Kompromisse bei Performance und Zuverlässigkeit.
Jedes AI-Projekt beginnt mit der sorgfältigen Erfassung des Trainingsvolumens und der Betriebsdauer. Das Pretraining großer Sprachmodelle kann schnell mehrere Wochen auf Hunderten GPUs bedeuten. Entscheidend sind hierbei neben der reinen Rechenleistung vor allem die Thermale Design Power (TDP), d.h. die maximale Wärmeleistung der eingesetzten Hardware sowie das Facility-Setup. Eine niedrige TDP gepaart mit einem hohen Token-Durchsatz – also wie schnell das AI-Modell Sprachbausteine verarbeitet – sorgt für ein günstiges Verhältnis von Energieverbrauch zu Leistung.
Gleichzeitig gilt es, die Stromkreise redundanter USVs (unterbrechungsfreie Stromversorgungen bei Stromausfall) und PDUs (Stromverteilereinheiten) exakt zu dimensionieren. Für die Kühlung ist ein Kaltgang-Containment aufzubauen, bei dem kalte Luft gezielt in bestimmten Gängen gehalten wird, um die Kühlung zu optimieren und keine Energie durch unnötige Wärme zu verlieren. Dieses Vorgehen verbessert die sogenannte Power Usage Effectiveness (PUE), also das Verhältnis der insgesamt verbrauchten Energie zur tatsächlich für die IT genutzten Energie. Nur so kann man garantieren, dass ein hoher Durchsatz bei minimalem Kühlaufwand erhalten bleibt und Monitoring-Mechanismen Lastspitzen intelligent steuern.
Wie sich diese Voraussetzungen in der Praxis auszahlen, zeigt das folgende Beispiel aus einem realen Projekt – mit konkreten Zahlen und Einsparungspotenzialen.
Im Projekt mit der Universität Würzburg beriet und begleitete CANCOM die Einführung des CAIDAS-LLM mit 1,1 Mrd. Parametern. Das CAIDAS-LLM ist ein deutschsprachiges Large Language Model, das am Center for Artificial Intelligence and Data Science (CAIDAS) der Universität Würzburg entwickelt wurde. Die Zielvorgabe lautete: Pretraining über 10.000 GPU-Stunden auf stromsparenden GPUs (TDP 300 Watt) statt auf üblichen A100-Modellen (TDP 400 Watt). Durch die enge Abstimmung mit dem Data-Science-Team und die iterative Validierung der Workload-Profile gelang es uns, den reinen Compute-Verbrauch auf ein relativ niedriges Niveau von 3.100 kWh zu bringen. Dank eines PUE-optimierten Kühlkonzepts mit 20 Prozent Overhead kamen lediglich weitere 600 kWh hinzu – insgesamt also nur rund 3.700 kWh pro Trainingslauf.
Im direkten Vergleich zum Training des gleich großen AI-Sprachmodells TinyLlama der Singapore University of Technology and Design auf 16 × A100 über 90 Tage (34.560 GPU-Stunden) ergibt sich folgendes Bild: Das A100-Setup benötigt insgesamt rund 16.600 kWh (13.824 kWh Compute plus 2.765 kWh Kühlung) und emittiert bei einem deutschen Strommix von 321 g CO₂/kWh über 5,3 t CO₂. Das CAIDAS-Setup dagegen kommt mit nur 3,7 MWh aus und stößt etwa 1,2 t CO₂ aus.
Unterm Strich bedeutet das: Pro Lauf spart der Kunde dadurch knapp 13 MWh Energie, reduziert seine CO₂-Emissionen um rund 4,1 t und senkt die laufenden Strom- und Kühlkosten um mehr als 4.200 €.

Das Diagramm zeigt deutlich den Unterschied auf: Beim Training von CAIDAS konnten im Vergleich zu TinyLlama knapp 13 MWh und 4,1 t CO2 eingespart werden (Bild: © CANCOM).
Ein intelligentes Infrastruktur-Design ist für moderne AI-Projekte unverzichtbar: Nur durch eine ganzheitliche Betrachtung von Workload-Analyse, Hardware-Auswahl und Facility-Optimierung lassen sich ökonomische und ökologische Potenziale vollständig ausschöpfen.
CANCOM hat mit dem CAIDAS-Projekt an der Universität Würzburg eindrucksvoll bewiesen, dass sich durch den Einsatz stromsparender GPUs, präzise abgestimmter Strom- und Kühlkonzepte sowie einer engen Zusammenarbeit mit Forschungsteams erhebliche Verbesserungen erzielen lassen. So sind AI-Infrastrukturen nicht nur umweltfreundlich, sondern rechnen sich auch wirtschaftlich – das ist der Schlüssel für nachhaltige, zukunftsweisende Forschung und Entwicklung.
Nähere Informationen zu den Leistungen von CANCOM im Bereich AI-Infrastruktur finden Sie hier.
Daniel Kiehl
Director Competence Center Datacenter & Cloud, CANCOM
Daniel Kiehl leitet das Competence Center Datacenter & Cloud bei CANCOM. Er und sein Team beschäftigen sich täglich mit den unterschiedlichen Facetten rund um AI, Cloud und Datacenter.
Dazu gehören zum Beispiel die Themen AI-Training und AI-Infrastruktur.