Wie smartes Infrastruktur-Design AI-Training energieeffizient macht

Das Training großer AI-Modelle ist energieintensiv, doch mit der richtigen Infrastruktur lässt sich der Ressourcenverbrauch deutlich senken. Im Gastbeitrag zeigt CANCOM-Experte Daniel Kiehl (Director Competence Center, Datacenter & Cloud bei CANCOM) anhand eines Praxisbeispiels auf, wie sich durch ein gezieltes Design der Infrastruktur sowohl CO₂-Emissionen als auch Betriebskosten messbar reduzieren lassen – ohne Einbußen bei der Leistung.

22. August 2025

Daniel Kiehl

Lesedauer: ca. 3 Min.

Bild: © Sugar & Kane/stock.adobe.com

Wenig Zeit? Erfahren Sie das Wichtigste in Kürze

Moderne AI-Trainings- und Inferenz-Workloads – die anfallen, wenn AI-Modelle entwickelt, trainiert und eingesetzt werden – erfordern hochskalierbare Rechenressourcen, eine zuverlässige Stromversorgung sowie eine effizient ausgelegte Kühlung. Ohne eine darauf abgestimmte Infrastruktur drohen hohe Betriebskosten und unnötig hohe CO₂-Emissionen. Genau hier setzen wir als CANCOM an: Durch eine präzise Analyse der Trainingsanforderungen, die gezielte Auswahl stromsparender GPUs (Grafikprozessoren) und ein maßgeschneidertes Strom- und Kühlkonzept erreichen wir deutliche Einsparungen – ganz ohne Kompromisse bei Performance und Zuverlässigkeit.

Voraussetzungen für energieeffizientes AI-Training

Jedes AI-Projekt beginnt mit der sorgfältigen Erfassung des Trainingsvolumens und der Betriebsdauer. Das Pretraining großer Sprachmodelle kann schnell mehrere Wochen auf Hunderten GPUs bedeuten. Entscheidend sind hierbei neben der reinen Rechenleistung vor allem die Thermale Design Power (TDP), d.h. die maximale Wärmeleistung der eingesetzten Hardware sowie das Facility-Setup. Eine niedrige TDP gepaart mit einem hohen Token-Durchsatz – also wie schnell das AI-Modell Sprachbausteine verarbeitet – sorgt für ein günstiges Verhältnis von Energieverbrauch zu Leistung.

Gleichzeitig gilt es, die Stromkreise redundanter USVs (unterbrechungsfreie Stromversorgungen bei Stromausfall) und PDUs (Stromverteilereinheiten) exakt zu dimensionieren. Für die Kühlung ist ein Kaltgang-Containment aufzubauen, bei dem kalte Luft gezielt in bestimmten Gängen gehalten wird, um die Kühlung zu optimieren und keine Energie durch unnötige Wärme zu verlieren. Dieses Vorgehen verbessert die sogenannte Power Usage Effectiveness (PUE), also das Verhältnis der insgesamt verbrauchten Energie zur tatsächlich für die IT genutzten Energie. Nur so kann man garantieren, dass ein hoher Durchsatz bei minimalem Kühlaufwand erhalten bleibt und Monitoring-Mechanismen Lastspitzen intelligent steuern.

Wie sich diese Voraussetzungen in der Praxis auszahlen, zeigt das folgende Beispiel aus einem realen Projekt – mit konkreten Zahlen und Einsparungspotenzialen.

Use Case: Universität Würzburg & CAIDAS-LLM

Im Projekt mit der Universität Würzburg beriet und begleitete CANCOM die Einführung des CAIDAS-LLM mit 1,1 Mrd. Parametern. Das CAIDAS-LLM ist ein deutschsprachiges Large Language Model, das am Center for Artificial Intelligence and Data Science (CAIDAS) der Universität Würzburg entwickelt wurde. Die Zielvorgabe lautete: Pretraining über 10.000 GPU-Stunden auf stromsparenden GPUs (TDP 300 Watt) statt auf üblichen A100-Modellen (TDP 400 Watt). Durch die enge Abstimmung mit dem Data-Science-Team und die iterative Validierung der Workload-Profile gelang es uns, den reinen Compute-Verbrauch auf ein relativ niedriges Niveau von 3.100 kWh zu bringen. Dank eines PUE-optimierten Kühlkonzepts mit 20 Prozent Overhead kamen lediglich weitere 600 kWh hinzu – insgesamt also nur rund 3.700 kWh pro Trainingslauf.

CAIDAS vs. TinyLlama-Training: Quantitative Mehrwerte

Im direkten Vergleich zum Training des gleich großen AI-Sprachmodells TinyLlama der Singapore University of Technology and Design auf 16 × A100 über 90 Tage (34.560 GPU-Stunden) ergibt sich folgendes Bild: Das A100-Setup benötigt insgesamt rund 16.600 kWh (13.824 kWh Compute plus 2.765 kWh Kühlung) und emittiert bei einem deutschen Strommix von 321 g CO₂/kWh über 5,3 t CO₂. Das CAIDAS-Setup dagegen kommt mit nur 3,7 MWh aus und stößt etwa 1,2 t CO₂ aus.

Unterm Strich bedeutet das: Pro Lauf spart der Kunde dadurch knapp 13 MWh Energie, reduziert seine CO₂-Emissionen um rund 4,1 t und senkt die laufenden Strom- und Kühlkosten um mehr als 4.200 €.

Das Diagramm zeigt deutlich den Unterschied auf: Beim Training von CAIDAS konnten im Vergleich zu TinyLlama knapp 13 MWh und 4,1 t CO2 eingespart werden (Bild: © CANCOM).

Fazit

Ein intelligentes Infrastruktur-Design ist für moderne AI-Projekte unverzichtbar: Nur durch eine ganzheitliche Betrachtung von Workload-Analyse, Hardware-Auswahl und Facility-Optimierung lassen sich ökonomische und ökologische Potenziale vollständig ausschöpfen.

CANCOM hat mit dem CAIDAS-Projekt an der Universität Würzburg eindrucksvoll bewiesen, dass sich durch den Einsatz stromsparender GPUs, präzise abgestimmter Strom- und Kühlkonzepte sowie einer engen Zusammenarbeit mit Forschungsteams erhebliche Verbesserungen erzielen lassen. So sind AI-Infrastrukturen nicht nur umweltfreundlich, sondern rechnen sich auch wirtschaftlich – das ist der Schlüssel für nachhaltige, zukunftsweisende Forschung und Entwicklung.

Nähere Informationen zu den Leistungen von CANCOM im Bereich AI-Infrastruktur finden Sie hier.

Hintergrund zum Experten

Daniel Kiehl

Director Competence Center Datacenter & Cloud, CANCOM

Daniel Kiehl leitet das Competence Center Datacenter & Cloud bei CANCOM. Er und sein Team beschäftigen sich täglich mit den unterschiedlichen Facetten rund um AI, Cloud und Datacenter.

Dazu gehören zum Beispiel die Themen AI-Training und AI-Infrastruktur.

Mehr zum Thema „Artificial Intelligence“

AI Deployment: Wie lässt sich AI am besten betreiben?

Für den Erfolg von AI ist das AI Deployment zentral. Doch welche Methoden gibt es, um AI-Modelle bereitzustellen? Das zeigt Expertin Eva Dölle im Gastbeitrag.

Lesedauer: 8 Min.

Artikel lesen

Wie Unternehmen generative KI für kreative Workflows nutzen können

Immer mehr Unternehmen setzen auf generative KI-Lösungen. Eine davon ist Adobe Firefly. Doch was zeichnet diese Lösung aus?

Lesedauer: 3 Min.

Artikel lesen

Klein, smart, autonom: Warum effiziente KI-Modelle und Agenten jetzt durchstarten

Effizient, lokal einsetzbar und zunehmend autonom: Kleine Sprachmodelle und KI-Agenten verändern die Art, wie Firmen KI nutzen. Doch wie funktioniert das genau?

Lesedauer: 3 Min.

Artikel lesen