Mindestens so wichtig wie Training

Wieso die AI-Inferenz unverzichtbar ist – und wie die Umsetzung gelingen kann

Damit ein AI-Modell richtig funktioniert, ist der Prozess der Inferenz entscheidend. Nur mithilfe dieses Prozesses ist das AI-Modell in der Lage, das im Training angelernte Wissen in die Praxis zu übersetzen. So ist die AI-Inferenz hauptverantwortlich für den Output eines AI-Modells – und somit dafür, ob das Modell für das Unternehmen Mehrwerte erzielt. Doch was müssen Firmen bei der praktischen Umsetzung der Inferenz beachten? Und wie können Hersteller wie AMD dabei unterstützen? Das erfahren Sie im Beitrag.

11. März 2026

Christian Schinko

Lesedauer: ca. 5 Min.

Die AI-Inferenz ist hauptverantwortlich dafür, dass ein AI-Modell nach einem Prompt Output generieren kann (Bild: AI-generiert mit Adobe Firefly).

Wenig Zeit? Erfahren Sie das Wichtigste in Kürze

Der Prozess der Inferenz ist für alle AI-Modelle von entscheidender Bedeutung. Nur mithilfe dieses Prozesses können die Modelle auf Basis der Trainingsdaten und optional unter Einsatz von Retrieval Augmented Generation (kurz: RAG) Output generieren – also beispielsweise Texte oder Bilder erstellen. Das bedeutet: Die Umsetzung der AI-Inferenz ist die wesentliche Voraussetzung dafür, dass Unternehmen vom Einsatz von AI-Modellen überhaupt profitieren können.

Folglich ist es wenig überraschend, dass der globale Markt für AI-Inferenz in den kommenden Jahren stark ansteigen wird. Laut aktuellen Prognosen des Marktforschungsinstituts „Fortune Business Insights“ wird dieser Markt von 103,73 Milliarden US-Dollar in 2025 auf 312,64 Milliarden US-Dollar im Jahr 2034 anwachsen. Das entspreche einer durchschnittlichen jährlichen Wachstumsrate von 12,98 Prozent.

Welche Prozessarten von AI-Inferenz gibt es?

Nun muss grundsätzlich beachtet werden: „AI-Inferenz“ ist ein Oberbegriff, der verschiedene Prozessarten umfasst. Es gibt erhebliche Unterschiede, wenn es um die Frage geht, wo und wie das jeweilige AI-Modell die Trainingsdaten verarbeitet (und optional zusätzlich RAG-Technologie nutzt), um darauf basierend Output zu generieren.

Primär können folgende Prozessarten unterschieden werden:

1. Ort der Datenverarbeitung (das „Wo“)

Cloud-Inferenz: Die Trainingsdaten werden in der Cloud verarbeitet. Dies können sowohl Public Cloud-Lösungen von Hyperscalern als auch Private Cloud-Umgebungen sein. Gerade in Punkto Skalierbarkeit, Flexibilität und Integrationsfähigkeit mit großen AI-Modellen ist die Cloud-Inferenz ungeschlagen – so die Marktforscher von Fortune Business Insights. Herausforderungen bestehen vor allem bei Themen rund um Datenschutz und Latenz.
On Premises-Inferenz: Der Prozess der Inferenz findet vor Ort im lokalen Rechenzentrum statt. Das können sowohl eigene als auch Colocation-Rechenzentren sein. Die größten Vorteile liegen in einer hohen Datensicherheit und niedrigen Latenz. Herausforderungen sind vor allem die mitunter hohe Anfangsinvestitionen in Hardware und Infrastruktur sowie die nur eingeschränkt mögliche Skalierbarkeit.
Edge-Inferenz: Die Verarbeitung findet direkt auf dem Endgerät statt. Dies kann beispielsweise ein Smartphone (Stichwort: On-Device-AI) oder auch ein Sensor sein. Die größten Vorteile sind eine hohe Datensicherheit und geringe Latenz. Gerade bei größeren AI-Modellen stößt die Edge-Inferenz jedoch schnell an ihre Grenzen. Dies liegt unter anderem an begrenzten Hardware-Ressourcen und fehlender Skalierbarkeit.
Hybride Inferenz: Dabei handelt es sich um eine Kombination aus Cloud-, On Premises und Edge-Inferenz. Ein typisches Szenario ist es beispielsweise, kleinere, „einfachere“ Datenverarbeitungen am Edge (etwa über ein Endgerät) abzuwickeln und komplexere Aufgaben an die Cloud zu delegieren.

2. Art der Datenverarbeitung (das „Wie“)

Echtzeit-Inferenz: Wie der Begriff bereits sagt, werden die Trainingsdaten in Echtzeit verarbeitet. Dadurch ist das AI-Modell in der Lage, sofort auf Prompts der Nutzer zu reagieren und entsprechenden Output zu generieren. Die Echtzeit-Inferenz wird beispielsweise in der Regel bei Chatbots eingesetzt.
Batch-Inferenz: Hier werden zunächst große Datenmengen gesammelt und anschließend in festen Intervallen als Ganzes verarbeitet. Ein Beispiel für die Anwendung der Batch-Inferenz ist die Aktualisierung allgemeiner Risikoprofile für Kundenkonten im Bankensektor. Diese Aktualisierung wird AI-gestützt etwa alle 24 Stunden durchgeführt – und basiert auf den Daten der Transaktionen, die in diesem Zeitraum über das entsprechende Kundenkonto abgewickelt wurden.

All diese Prozessarten werden in der Regel miteinander kombiniert – je nach Use Case. Wenn zum Beispiel ein Chatbot auf Basis spezialisierter, kleinerer Datenmengen in Echtzeit auf Nutzeranfragen reagieren soll, bietet es sich an, die Edge-Inferenz mit der Echtzeit-Inferenz zu verknüpfen.

Was sind die Herausforderungen bei der Umsetzung der AI-Inferenz?

Soweit die Theorie. Die praktische Umsetzung der AI-Inferenz ist jedoch alles andere als einfach. Wie aus Studien wie von BARC, Deloitte, Stanford oder Telehouse hervorgeht, stehen Unternehmen vor einigen Hürden. Zentrale Punkte sind:

Mangelnde Datenqualität

Damit das AI-Modell durch den Inferenz-Prozess qualitativ hochwertigen Output liefern kann, müssen die Trainingsdaten, auf die der Output ausschließlich bzw. größtenteils basiert, ebenfalls hochwertig sein. Genau das stellt viele Unternehmen aber vor große Probleme: Laut der Studie von BARC sehen 44 Prozent der Unternehmen eine mangelnde Datenqualität als das wichtigste Hindernis für die erfolgreiche Umsetzung von AI-Projekten.

Kostendruck

Die Anwendung der AI-Inferenz in der Praxis ist teuer – gerade bei einem unternehmensweiten Einsatz. Darauf weisen die Marktforscher von Deloitte hin. Denn obwohl die Inferenzkosten an sich drastisch gesunken seien, führe die schnell wachsende Nutzung von AI-Inferenz in Unternehmen (jedes Mal, wenn beispielsweise ein Mitarbeiter einen Prompt in ein AI-Modell eingibt, Anm. d. Red.) dazu, dass die Kosten für die AI-Nutzung insgesamt steigen. Dies sei vor allem beim Einsatz von LLMs und AI-Agenten der Fall.

„Einige Unternehmen sehen inzwischen monatliche Rechnungen für die AI-Nutzung im zweistelligen Millionenbereich. Der größte Kostentreiber ist agentische AI, die kontinuierliche Inferenz erfordert und dadurch die Token-Kosten in die Höhe schnellen lässt“, so die Marktforscher.

Ein ähnliches Bild zeichnet die Studie von Stanford – wobei die Studienautoren hervorheben, dass die Budgets für Inferenz gegenüber Training so deutlich steigen, dass die Inferenz zunehmend die Firmenbudgets dominiert.

Veraltete IT-Infrastruktur und Netz-Latenz

Traditionelle IT-Infrastrukturen sind den Anforderungen moderner AI-Workloads und Inferenz-Prozesse nicht gewachsen. Das geht etwa aus den Studien von Deloitte und Telehouse hervor. Ein zentrales Problem ist demnach die Netz-Latenz: Laut der Studie von Telehouse hat mehr als jedes zweite Unternehmen (55%) bereits deutliche Netzwerkprobleme aufgrund der Nutzung von AI erlebt. Dies macht vor allem die Echtzeit-Inferenz quasi unmöglich.

Wie die Studie von Telehouse weiter ausführt, stehen Unternehmen auch vor Herausforderungen in Bezug auf Performance und Datensicherheit. Die richtige IT-Infrastruktur für AI aufzubauen – und damit den technologischen Anforderungen für das Training und die Inferenz von AI-Modellen zu genügen – sei eine komplexe Angelegenheit. Universallösungen gebe es nicht.

„Die meisten Unternehmen ziehen Cloud-Hyperscaler, eigene Rechenzentren oder Drittanbieter von Colocation-Services als potenzielle Knotenpunkte für ihre AI-Infrastruktur in Betracht. Die Ansätze unterscheiden sich dabei deutlich zwischen einzelnen Branchen und Regionen“, so die Studienautoren von Telehouse.

Wie können AMD und CANCOM unterstützen?

Prozessorhersteller wie AMD sind sich diesen und weiteren Hürden in Unternehmen bewusst – und positionieren sich als Lösungsanbieter. Dabei knüpft AMD insbesondere an die Bereiche Kostendruck und IT-Infrastruktur an. So hat der Hersteller mit den AMD EPYC™ 9005-CPU-Prozessoren sowie den AMD Instinct™-GPU-Beschleunigern Komponenten im Portfolio, die beide speziell auf die Anforderungen von AI-Inferenz zugeschnitten sind. Entsprechend sollen sie wesentlich dazu beitragen, die IT-Infrastruktur in Unternehmen für AI zu modernisieren. Trotz dieser Gemeinsamkeit verfolgen beide jedoch einen unterschiedlichen Ansatz.

Die AMD EPYC™ 9005-CPU-Prozessoren sind auf kleinere und mittlere AI-Inferenzbereitstellungen und -prozesse ausgerichtet. Dies kann beispielsweise ein Chatbot sein, der im lokalen Rechenzentrum läuft und auf Basis einer klar abgesteckten, internen Datenbasis Mitarbeiterfragen in Echtzeit beantwortet (On Premises-Inferenz, Echtzeit-Inferenz). Auch für die Umsetzung der Batch-Inferenz, etwa im Rahmen von Predictive Maintenance, seien die Prozessoren geeignet. Wie AMD betont, zeichnen sich die CPUs durch eine hohe Performance bei vergleichsmäßig niedrigen Energiekosten aus. Dadurch könnten Unternehmen etwa den LLM-Inferenzdurchsatz um 39 Prozent beschleunigen – und gleichzeitig die Inferenzkosten reduzieren. Auch könnten AI-Modelle menschliche Sprache um rund 36 Prozent schneller verarbeiten. Verbaut sind die Prozessoren etwa in den neuen PowerEdge-Servern von Dell Technologies: Diese sind speziell für AI- und Cloud-Workloads optimiert.
Die AMD Instinct™-GPU-Beschleuniger sind auf größere und rechenintensive AI-Inferenzbereitstellungen und -prozesse zugeschnitten. Ein typischer Use Case ist Fraud Detection im Bankensektor – also die AI-gestützte, kontinuierliche Analyse von Betrugsmustern in Transaktionsströmen. Damit diese Analysen auch bei hohem Transaktionsvolumen in Echtzeit ablaufen können (Echtzeit-Inferenz), werden eine hohe Skalierbarkeit (in der Regel durch Cloud-Inferenz) und Performance benötigt. Laut AMD liefern die GPU-Beschleuniger genau das: Demnach laufen beispielsweise große LLMs bis zu 2,7 mal schneller als bei Vorgängermodellen – mit niedriger Latenz und hoher Energieeffizienz.

Doch wie können Unternehmen nun entscheiden, ob und welche AMD-Lösungen sie für ihre konkreten Use Cases benötigen? Genau hier kommen IT-Dienstleister wie CANCOM ins Spiel. So bietet CANCOM Unternehmen für das AI-Umfeld den sogenannten One-4-All-Ansatz an. Dieser Ansatz deckt zahlreiche Facetten ab, wenn es darum geht, AI-Lösungen auf die individuellen Anforderungen zuzuschneiden und im Betrieb einzuführen – von der initialen Beratung bis hin zur erfolgreichen Implementierung. Dazu gehört auch die Modernisierung der IT-Infrastruktur für AI mittels Lösungen wie von AMD.

Sie möchten sich näher über die Leistungen von CANCOM im AI-Umfeld informieren – inklusive Kontaktmöglichkeit? Dann besuchen Sie gerne die exklusive Themenseite. Weitere Informationen zu AMD-Lösungen finden Sie hier.

Mehr zum Thema „Artificial Intelligence“

AI ganzheitlich denken: die Dell AI Factory

Der praktische Einsatz von AI-Lösungen birgt zahlreiche Herausforderungen. Die Dell AI Factory soll dazu beitragen, diese zu meistern.

Lesedauer: 7 Min.

Artikel lesen

ServiceNow World Forum: CANCOM CEO Rüdiger Rath über die Chancen und Herausforderungen von AI

Beim diesjährigen ServiceNow Word Forum sprach CANCOM-CEO Rüdiger Rath über die tiefgreifende Bedeutung von AI – und wie CANCOM selbst AI integriert hat.

Lesedauer: 2 Min.

Artikel lesen

250620_cc_info_it_infrastruktur_cancom.info

Modernisierung der IT-Infrastruktur: So rüsten sich Unternehmen für das AI-Zeitalter

Moderne AI erfordert skalierbare, effiziente IT. Dell und AMD bieten dafür leistungsstarke Lösungen – als Basis für zukunftsfähige Infrastrukturen.

Lesedauer: 2 Min.

Artikel lesen