Mindestens so wichtig wie Training
Damit ein AI-Modell richtig funktioniert, ist der Prozess der Inferenz entscheidend. Nur mithilfe dieses Prozesses ist das AI-Modell in der Lage, das im Training angelernte Wissen in die Praxis zu übersetzen. So ist die AI-Inferenz hauptverantwortlich für den Output eines AI-Modells – und somit dafür, ob das Modell für das Unternehmen Mehrwerte erzielt. Doch was müssen Firmen bei der praktischen Umsetzung der Inferenz beachten? Und wie können Hersteller wie AMD dabei unterstützen? Das erfahren Sie im Beitrag.
11. März 2026
|
Lesedauer: ca. 5 Min.

Die AI-Inferenz ist hauptverantwortlich dafür, dass ein AI-Modell nach einem Prompt Output generieren kann (Bild: AI-generiert mit Adobe Firefly).
Die AI-Inferenz übersetzt Trainingswissen in praktischen Output und ist somit die Grundlage dafür, dass AI-Anwendungen für Unternehmen nutzbar sind und Mehrwerte generieren können. Bei der Umsetzung der AI-Inferenz stehen Firmen jedoch vor Hürden wie Datenqualität, Kosten und veralteter Infrastruktur.
Gerade bei den Themen Kosten und Infrastruktur setzen Hersteller wie AMD an. So hat AMD mit den AMD EPYC™ 9005-CPU-Prozessoren sowie AMD Instinct™-GPU-Beschleunigern Komponenten im Portfolio, die die nötige Performance sowohl für kleinere als auch rechenintensive AI-Inferenzbereitstellungen und -prozesse bereitstellen – und damit die Infrastruktur für AI modernisieren. Bei der Einführung der AMD-Lösungen kann CANCOM umfassend unterstützen. Weitere Informationen zu den CANCOM-Leistungen im AI-Umfeld erhalten Sie auf der Themenseite.
Dieser Text wurde mithilfe von AI erstellt und redaktionell überprüft.
Der Prozess der Inferenz ist für alle AI-Modelle von entscheidender Bedeutung. Nur mithilfe dieses Prozesses können die Modelle auf Basis der Trainingsdaten und optional unter Einsatz von Retrieval Augmented Generation (kurz: RAG) Output generieren – also beispielsweise Texte oder Bilder erstellen. Das bedeutet: Die Umsetzung der AI-Inferenz ist die wesentliche Voraussetzung dafür, dass Unternehmen vom Einsatz von AI-Modellen überhaupt profitieren können.
Folglich ist es wenig überraschend, dass der globale Markt für AI-Inferenz in den kommenden Jahren stark ansteigen wird. Laut aktuellen Prognosen des Marktforschungsinstituts „Fortune Business Insights“ wird dieser Markt von 103,73 Milliarden US-Dollar in 2025 auf 312,64 Milliarden US-Dollar im Jahr 2034 anwachsen. Das entspreche einer durchschnittlichen jährlichen Wachstumsrate von 12,98 Prozent.
Nun muss grundsätzlich beachtet werden: „AI-Inferenz“ ist ein Oberbegriff, der verschiedene Prozessarten umfasst. Es gibt erhebliche Unterschiede, wenn es um die Frage geht, wo und wie das jeweilige AI-Modell die Trainingsdaten verarbeitet (und optional zusätzlich RAG-Technologie nutzt), um darauf basierend Output zu generieren.
Primär können folgende Prozessarten unterschieden werden:
All diese Prozessarten werden in der Regel miteinander kombiniert – je nach Use Case. Wenn zum Beispiel ein Chatbot auf Basis spezialisierter, kleinerer Datenmengen in Echtzeit auf Nutzeranfragen reagieren soll, bietet es sich an, die Edge-Inferenz mit der Echtzeit-Inferenz zu verknüpfen.
Soweit die Theorie. Die praktische Umsetzung der AI-Inferenz ist jedoch alles andere als einfach. Wie aus Studien wie von BARC, Deloitte, Stanford oder Telehouse hervorgeht, stehen Unternehmen vor einigen Hürden. Zentrale Punkte sind:
Damit das AI-Modell durch den Inferenz-Prozess qualitativ hochwertigen Output liefern kann, müssen die Trainingsdaten, auf die der Output ausschließlich bzw. größtenteils basiert, ebenfalls hochwertig sein. Genau das stellt viele Unternehmen aber vor große Probleme: Laut der Studie von BARC sehen 44 Prozent der Unternehmen eine mangelnde Datenqualität als das wichtigste Hindernis für die erfolgreiche Umsetzung von AI-Projekten.
Die Anwendung der AI-Inferenz in der Praxis ist teuer – gerade bei einem unternehmensweiten Einsatz. Darauf weisen die Marktforscher von Deloitte hin. Denn obwohl die Inferenzkosten an sich drastisch gesunken seien, führe die schnell wachsende Nutzung von AI-Inferenz in Unternehmen (jedes Mal, wenn beispielsweise ein Mitarbeiter einen Prompt in ein AI-Modell eingibt, Anm. d. Red.) dazu, dass die Kosten für die AI-Nutzung insgesamt steigen. Dies sei vor allem beim Einsatz von LLMs und AI-Agenten der Fall.
„Einige Unternehmen sehen inzwischen monatliche Rechnungen für die AI-Nutzung im zweistelligen Millionenbereich. Der größte Kostentreiber ist agentische AI, die kontinuierliche Inferenz erfordert und dadurch die Token-Kosten in die Höhe schnellen lässt“, so die Marktforscher.
Ein ähnliches Bild zeichnet die Studie von Stanford – wobei die Studienautoren hervorheben, dass die Budgets für Inferenz gegenüber Training so deutlich steigen, dass die Inferenz zunehmend die Firmenbudgets dominiert.
Traditionelle IT-Infrastrukturen sind den Anforderungen moderner AI-Workloads und Inferenz-Prozesse nicht gewachsen. Das geht etwa aus den Studien von Deloitte und Telehouse hervor. Ein zentrales Problem ist demnach die Netz-Latenz: Laut der Studie von Telehouse hat mehr als jedes zweite Unternehmen (55%) bereits deutliche Netzwerkprobleme aufgrund der Nutzung von AI erlebt. Dies macht vor allem die Echtzeit-Inferenz quasi unmöglich.
Wie die Studie von Telehouse weiter ausführt, stehen Unternehmen auch vor Herausforderungen in Bezug auf Performance und Datensicherheit. Die richtige IT-Infrastruktur für AI aufzubauen – und damit den technologischen Anforderungen für das Training und die Inferenz von AI-Modellen zu genügen – sei eine komplexe Angelegenheit. Universallösungen gebe es nicht.
„Die meisten Unternehmen ziehen Cloud-Hyperscaler, eigene Rechenzentren oder Drittanbieter von Colocation-Services als potenzielle Knotenpunkte für ihre AI-Infrastruktur in Betracht. Die Ansätze unterscheiden sich dabei deutlich zwischen einzelnen Branchen und Regionen“, so die Studienautoren von Telehouse.
Prozessorhersteller wie AMD sind sich diesen und weiteren Hürden in Unternehmen bewusst – und positionieren sich als Lösungsanbieter. Dabei knüpft AMD insbesondere an die Bereiche Kostendruck und IT-Infrastruktur an. So hat der Hersteller mit den AMD EPYC™ 9005-CPU-Prozessoren sowie den AMD Instinct™-GPU-Beschleunigern Komponenten im Portfolio, die beide speziell auf die Anforderungen von AI-Inferenz zugeschnitten sind. Entsprechend sollen sie wesentlich dazu beitragen, die IT-Infrastruktur in Unternehmen für AI zu modernisieren. Trotz dieser Gemeinsamkeit verfolgen beide jedoch einen unterschiedlichen Ansatz.
Doch wie können Unternehmen nun entscheiden, ob und welche AMD-Lösungen sie für ihre konkreten Use Cases benötigen? Genau hier kommen IT-Dienstleister wie CANCOM ins Spiel. So bietet CANCOM Unternehmen für das AI-Umfeld den sogenannten One-4-All-Ansatz an. Dieser Ansatz deckt zahlreiche Facetten ab, wenn es darum geht, AI-Lösungen auf die individuellen Anforderungen zuzuschneiden und im Betrieb einzuführen – von der initialen Beratung bis hin zur erfolgreichen Implementierung. Dazu gehört auch die Modernisierung der IT-Infrastruktur für AI mittels Lösungen wie von AMD.
Sie möchten sich näher über die Leistungen von CANCOM im AI-Umfeld informieren – inklusive Kontaktmöglichkeit? Dann besuchen Sie gerne die exklusive Themenseite. Weitere Informationen zu AMD-Lösungen finden Sie hier.