So möchte NVIDIA bei der Umsetzung der AI-Inferenz neue Maßstäbe setzen

Die AI-Inferenz ist für alle AI-Modelle von entscheidender Bedeutung: So sind die Inferenzprozesse hauptverantwortlich dafür, dass AI-Modelle auf Basis ihrer Trainingsdaten Output generieren. Dies entscheidet gleichzeitig, ob Unternehmen vom AI-Einsatz tatsächlich profitieren können. Um die AI-Inferenz erfolgreich in der Praxis umzusetzen, müssen Firmen jedoch einige Herausforderungen bewältigen. Dazu zählen vor allem die Bereiche IT-Infrastruktur und Kosten. Abhilfe schaffen möchte NVIDIA – das machte der IT-Konzern auf der GTC 2026 deutlich. Doch was heißt das genau?

8. April 2026

|

Christian Schinko

Die AI-Inferenz ist die Grundvoraussetzung dafür, dass AI-Tools Output, etwa in Form von Textzusammenfassungen oder Bildern, generieren können. Mit seiner neuen Inferenzplattform möchte der Hersteller NVIDIA die technische Basis für eine erfolgreiche Umsetzung schaffen (Bild: © Zulfugar Karimov/unsplash.com).

Wenig Zeit? Erfahren Sie das Wichtigste in Kürze

Die Bedeutung der AI-Inferenz steigt rasant an und wird in Zukunft sogar noch wichtiger werden als das AI-Training. Mit anderen Worten: Es findet in Unternehmen aktuell eine Verschiebung der Prioritäten statt – weg vom Training, hin zur Inferenz.

Dass die AI-Inferenz für Firmen immer entscheidender wird, zeigen auch aktuelle Marktzahlen. Laut aktuellen Prognosen des Marktforschungsinstituts „Fortune Business Insights“ wird der globale Markt für AI-Inferenz bis 2034 jedes Jahr um durchschnittlich knapp 13 Prozent wachsen – und ein Gesamtvolumen von über 312 Milliarden US-Dollar erreichen. Zum Vergleich: Im Jahr 2025 betrug das Volumen laut den Analysten „nur“ knapp 104 Milliarden US-Dollar.

Die praktische Umsetzung der AI-Inferenz stellt Unternehmen jedoch vor mehrere Herausforderungen. Dazu zählen vor allem eine veraltete IT-Infrastruktur sowie ein hoher Kostendruck.

Traditionelle IT-Infrastruktur nicht für AI-Inferenz gerüstet

Wie aus Studien von Deloitte oder Telehouse hervorgeht, sind traditionelle IT-Infrastrukturen den Anforderungen von AI-Inferenzprozessen und Workloads nicht gewachsen. Dies ist insbesondere dann der Fall, wenn AI-Lösungen von der Pilotphase in den produktiven Betrieb überführt werden sollen – so die Deloitte-Studie. Dann würden viele Unternehmen feststellen, dass ihre bestehende IT-Infrastruktur nicht auf die Anforderungen von AI ausgelegt ist. Die Gründe dafür seien vielfältig: Diese würden von der Kostenfrage über die Datensouveränität und Ausfallsicherheit bis hin zu Latenzanforderungen reichen.

Letzteres veranschaulicht die Studie von Telehouse mit konkreten Zahlen: Demnach hat bereits mehr als jedes zweite Unternehmen deutliche Netzwerkprobleme wegen der Nutzung von AI erlebt.

Solche langen Latenzzeiten sind im Kontext der AI-Inferenz fatal. Denn damit werden Anwendungsfälle wie AI-Agenten im Kundenservice de facto unmöglich gemacht. So sind AI-Agenten auf die Echtzeit-Inferenz angewiesen: Nur dann können sie schnellstmöglich auf Kundenanfragen reagieren und antworten. Die Echtzeit-Inferenz lässt sich jedoch nur umsetzen, wenn die Netzwerk-Latenzzeiten bei nahezu Null liegen.

Nutzung der AI-Inferenz häufig mit hohen Kosten verbunden

Neben einer veralteten IT-Infrastruktur birgt das Thema AI-Inferenz eine weitere zentrale Herausforderung: die Kostenfrage. Wie die Deloitte-Studie betont, kann die praktische Anwendung der AI-Inferenz für Unternehmen sehr kostspielig werden – gerade, wenn die Inferenzprozesse unternehmensweit zum Einsatz kommen. Die Studienautoren sprechen in diesem Kontext von einem „Weckruf der Inferenzökomonie“.

Denn obwohl die Kosten für die Inferenz selbst stark gesunken seien, sorge die rasant zunehmende Nutzung der AI-Inferenz in Unternehmen dafür, dass die Gesamtkosten für AI steigen. Als einen der größten Kostentreiber sehen die Marktforscher den Einsatz von AI-Agenten. Dafür seien nämlich kontinuierliche Inferenzprozesse notwendig – was wiederum die Token-Kosten in die Höhe treiben würde.

So werden bei jedem Inferenzprozess die eingegebenen Texte oder Prompts in kleinste Recheneinheiten – sogenannte Tokens – zerlegt, analysiert und zu einer Antwort, dem Output des jeweiligen AI-Modells, zusammengesetzt. Je häufiger und komplexer Inferenzprozesse auftreten, desto höher fällt der entsprechende Tokenverbrauch und somit auch die Kosten aus. Bei AI-Agenten, die dauerhaft im Einsatz sind, steigen Tokenverbrauch und -kosten daher besonders schnell.

NVIDIA mit Full-Stack-Lösung für AI-Inferenz

Um diese und weitere Herausforderungen rund um die AI-Inferenz zu bewältigen, hat NVIDIA im Rahmen der GTC 2026 eine ganzheitliche Inferenzplattform vorgestellt. Diese besteht aus Software- und Hardware-Lösungen und soll das technologische Fundament für die praktische Umsetzung der AI-Inferenz bilden. Damit soll Unternehmen ermöglicht werden, gerade inferenzlastige AI-Anwendungen latenzarm, wirtschaftlich und skalierbar zu betreiben. Der IT-Konzern spricht in diesem Kontext auch von einer „Full-Stack-Lösung“ für die „AI-Inferenz-Ära“.

Doch was sind die zentralen Bestandteile dieser Lösung?

Software: Hier hat NVIDIA mit NVIDIA Dynamo eine Orchestrierungssoftware im Portfolio, mit der Unternehmen AI-Inferenz-Workloads zentral steuern, aufteilen und betreiben können. Dazu gehört beispielsweise die Verteilung der Inferenzphasen und -prozesse auf mehrere Prozessoren und Nodes. Wie der Hersteller betont, lassen sich einzelne Server damit besser auslasten, die Latenzen reduzieren und Prozessorressourcen dynamisch, also je nach Bedarf, planen. Zudem ermöglicht die Lösung laut Hersteller ein effizienteres Management von Cache- und Speicherressourcen – wodurch sich die Kosten pro Inferenz verringern.
Hardware: NVIDIA bietet sowohl GPUs, CPUs, Netzwerk- und Speicherbeschleuniger als auch sogenannte LPUs (NVIDIA-eigene Bezeichnung, steht für Language Processing Units, Anm. d. Red.) an. Letztere wurden speziell für die AI-Inferenz entwickelt. Das hebt der IT-Konzern hervor. So sind LPUs darauf ausgelegt, die besonders latenzsensiblen und interaktiven Phasen des AI-Inferenzprozesses zu übernehmen. Dies gewährleiste niedrige, vorhersagbare Latenzen sowie einen hohen Token-Durchsatz pro Sekunde bei gleichzeitig effizientem Energieverbrauch. Dies sei entscheidend, damit etwa AI-Agenten bzw. Chatbots reaktiv und in Echtzeit antworten können. Gleichzeitig blieben die Betriebskosten im Rahmen: Unter anderem ließen sich die Token-Kosten durch den hohen Token-Durchsatz pro Sekunde senken. Wie NVIDIA hervorhebt, ersetzen LPUs dabei andere Prozessortypen wie GPUs nicht, sondern ergänzen sie. Im Gegensatz zu LPUs würden GPUs zum Beispiel die rechenintensiven Phasen der AI-Inferenz übernehmen.

Fazit

Das Thema AI-Inferenz wird für Unternehmen immer entscheidender. Nur wer Inferenzprozesse erfolgreich in der Praxis umsetzt, kann tatsächlich von AI-Modellen bzw. -Agenten profitieren. Die praktische Umsetzung birgt jedoch mehrere Herausforderungen.

NVIDIA ist sich dieser Tatsache sehr bewusst und positioniert sich in diesem Bereich als Lösungsanbieter: Im Rahmen der GTC 2026 hat der IT-Konzern eine ganzheitliche Inferenzplattform vorgestellt, die insbesondere die Herausforderungen in Bezug auf Infrastruktur und Kosten adressieren soll. So bietet die Plattform eine Reihe von Software- und Hardware-Lösungen, die Unternehmen ermöglichen sollen, inferenzlastige AI-Anwendungen mit geringer Latenz, wirtschaftlich und skalierbar zu betreiben.

Sie möchten sich unverbindlich zu Themen rund um AI-Inferenz und deren praktische Umsetzung informieren – inklusive der NVIDIA-Lösungen? Dann wenden Sie sich gerne an die Experten von CANCOM.

Mehr zum Thema „Artificial Intelligence“

Warum KI-Nutzung im Unternehmen ein solides Fundament benötigt

Für eine gelungene KI-Nutzung mangelt es vielen deutschen Unternehmen an der passenden IT-Infrastruktur. Wie diese beschaffen sein sollte, erfahren Sie hier.

Lesedauer: 4 Min.

Artikel lesen