Semantisch statt syntaktisch: Wie generative AI dank Retrieval Augmented Generation endlich versteht, was Sie meinen 

Damit generative AI wirklich verlässliche Antworten liefern kann, braucht sie mehr als nur umfangreiche Trainingsdaten – sie braucht Zugang zu strukturiertem Wissen. Genau hier setzt das Konzept der Retrieval Augmented Generation (kurz: RAG) an. Was sich konkret dahinter verbirgt, erklärt CANCOM-Experte Daniel Kiehl (Director Competence Center, Datacenter & Cloud bei CANCOM) im Gastbeitrag.

13. August 2025

|

  • Daniel Kiehl

Lesedauer: ca. 5 Min.

retrieval-augmented-generation-rag-vektorsuche-berg

Generative AI-Modelle, die Retrieval Augmented Generation nutzen, greifen häufig auf die Vektorsuche zurück, um relevante Informationen aus externen Datenquellen zu beziehen. Diese Suchmethode verändert grundlegend, wie Informationen in unstrukturierten Daten gefunden werden und erleichtert beispielsweise die Bildersuche enorm – etwa nach einem verschneiten Berg bei Sonnenuntergang (Bild: © eberhardgross/pexels.com).

Generative AI-Modelle haben bis heute ein zentrales Problem: Selbst fortschrittliche Modelle können häufig nur Antworten auf Grundlage der Daten generieren, mit denen sie trainiert wurden. Enthalten die Trainingsdaten die für die richtige Antwort benötigten Informationen nicht, erfinden die Modelle diese Informationen einfach. Generative AI-Modelle wissen nicht, dass sie etwas nicht wissen! Dies führt häufig zu ungenauen oder schlicht falschen Antworten. Man kann diese als Halluzinationen, Verzerrungen oder schlicht Unsinn bezeichnen.

Retrieval Augmented Generation (kurz: RAG) kann dieses Problem nun beheben.

Was bedeutet Retrieval Augmented Generation?

Retrieval Augmented Generation bezeichnet ein Framework, mit dem generative AI-Modelle erweitert werden: So versetzt die RAG-Technologie die Modelle in die Lage, neben Trainingsdaten zusätzlich relevante Daten aus externen Quellen abzurufen – und das nahezu in Echtzeit. Anstatt fehlende Informationen also einfach zu erfinden, können die AI-Modelle dank RAG diese „nachrecherchieren“. Dies erlaubt ihnen, genauere und kontextbezogene Antworten zu generieren.

Damit RAG in der Praxis funktioniert, werden vor allem zwei Komponenten benötigt: die Vektorsuche und der Einsatz von Object Storage. Während die Vektorsuche die Suchmethode ist, mit der generative AI-Modelle die fehlenden Informationen „nachrecherchieren“, sind moderne Object Storage-Lösungen für eine performante Vektorsuche essenziell. Im Folgenden beleuchten wir beide Themen genauer.

Was macht die Vektorsuche so besonders?

Die Vektorsuche verändert grundlegend, wie Informationen in unstrukturierten Daten gefunden werden. Denn im Gegensatz zur klassischen, tabellenbasierten Suche, die auf Schlagwörtern oder exakten Begriffen (also syntaktisch) basiert, geht es bei der Vektorsuche um die Bedeutung bzw. den Inhalt von Daten (also semantisch).

Ein generatives AI-Modell, das mittels RAG-Technologie beispielsweise die Vektorsuche für das Auffinden von Bildern verwendet, orientiert sich dann nicht mehr am exakten Dateinamen, sondern analysiert den Inhalt des jeweiligen Bildes.

Für Nutzer birgt dies den großen Vorteil, dass sie den genauen Dateinamen des Bildes nicht mehr wissen müssen. Es genügt, wenn sie das Bild mit einer Beschreibung wie „verschneiter Berg bei Sonnenuntergang“ suchen. Das AI-Modell „versteht“ die Bedeutung dieser Beschreibung und findet passende Bilder – ganz unabhängig vom Dateinamen. Dies macht die Suche einfacher und intuitiver.

retrieval-augmented-generation-infografik-1

Bei der tabellarischen Suche müssen die Nutzer den genauen Dateinamen des Bildes kennen, um es zu finden. Wenn der Dateiname teils nicht korrekt gepflegt wurde (wie in der Abbildung zu sehen), kann die Suche mühsam werden. Solche Probleme gehören mit der Vektorsuche der Vergangenheit an (Bild: © CANCOM).

Vektordatenbank als technologische Basis

Damit die Vektorsuche technologisch funktioniert, müssen jedoch zentrale Frage beantwortet werden: Wie ist es möglich, dass ein AI-Modell die Bedeutung von Daten versteht? Wie lässt sich die Bedeutung quantifizieren? Genau hier kommt die Vektordatenbank ins Spiel, auf die die Vektorsuche zugreift.

Bei dieser Datenbank werden anstelle klassischer Schlagwörter oder Begriffe sogenannte Embedding-Vektoren abgespeichert. Dabei handelt es sich um mathematische Zahlenreihen, die die Bedeutung von Daten (z.B. Kontext eines Satzes, Bildinhalt) in einem Zahlenformat ausdrücken.

Diese Embedding-Vektoren werden als Punkte in einem hochdimensionalen Vektorraum gespeichert – häufig mit mehreren tausend Dimensionen. Abhängig von ihrer Zahlenreihe werden die Vektoren in diesem Raum angeordnet – wie in einem Koordinatensystem. Je ähnlicher die Zahlenreihen sind – und damit die Bedeutung der entsprechenden Daten, die durch die Zahlenreihen ausgedrückt werden – desto näher liegen die Vektoren im Vektorraum beieinander. So nimmt jeder Vektor eine repräsentative Position im Raum ein.

Ein generatives AI-Modell kann somit anhand des Abstands zwischen den Embedding-Vektoren sofort die inhaltliche Ähnlichkeit der jeweiligen Daten analysieren. Die absolute Lage der Vektoren im Vektorraum spielt dabei eine untergeordnete Rolle – entscheidend ist vielmehr ihre relative Position gegenüber den anderen Vektoren. Je näher zwei Vektoren beieinander stehen, desto ähnlicher sind sich die zugrundeliegenden Daten.

Auf das vorherige Szenario der Bildersuche bezogen, bedeutet das zum Beispiel: In der Nähe des Embedding-Vektors „verschneiter Berg“ werden Vektoren wie „Skifahrer“ oder „Schneemann“ im Vektorraum positioniert – eben, weil sie sich inhaltlich ähneln.

retrieval-augmented-generation-infografik-2

In der Vektordatenbank werden Dateien semantisch, also nach inhaltlicher Ähnlichkeit, angeordnet. Wie in der Abbildung zu sehen, werden Bilder wie die Schneepiste oder der Berg deshalb nah beieinander platziert – während das Bild der Stadt deutlich weiter entfernt positioniert wird (Bild: © CANCOM).

Wichtig in diesem Kontext: In der Vektordatenbank sind nicht die Daten in ihrer Gesamtheit („Rohdaten“), sondern die Embedded-Vektoren und (optional) Metadaten gespeichert. Die Rohdaten sind in der Vektordatenbank zwar verlinkt, werden aber an einem separaten Speicherort gesichert und nur dann geladen, wenn sie tatsächlich gebraucht werden.

Object Storage: Die ideale Ergänzung zur Vektorsuche

Genau hier kommt das Thema Object Storage ins Spiel: So basiert dieser Speicherort im Idealfall auf einer objektbasierten Speicherinfrastruktur, die ideal für die Anforderungen der Vektorsuche geeignet ist. Object Storage-Lösungen sind speziell für hohe Skalierbarkeit und Performance ausgelegt, wodurch die dort gesicherten Rohdaten bei Bedarf schnell (im Idealfall nahezu in Echtzeit) geladen werden können.

Damit sind Object Storage-Systeme eine wichtige Komponente, um generative AI-Modelle mit der RAG-Technologie effektiv zu erweitern. Die wichtigsten Vorteile sind:

  • Enorme Skalierbarkeit: Object Storage ermöglicht die nahtlose Skalierung auf Milliarden von Daten, ohne dass die Systemleistung darunter leidet. Selbst bei massiv wachsenden Datenmengen bleiben die Antwortzeiten für Suchergebnisse damit konstant niedrig.
  • Klare Trennung von Speicher- und Rechenlast: Dadurch lassen sich die vorhandenen Ressourcen effizient nutzen – und so die Performanz der Vektorsuche zusätzlich steigern, bei gleichzeitig reduzierten Betriebskosten.
  • Flexibilität dank modularem Aufbau: Eine objektbasierte Speicherinfrastruktur ist so konzipiert, dass sich Rechenkapazität und Speicherplatz unabhängig voneinander erweitern lassen. Dadurch wächst das System flexibel mit den Anforderungen mit, ohne dass ein kompletter Umbau der Infrastruktur notwendig ist.
  • Hohe Energieeffizienz: Moderne Object Storage-Lösungen nutzen Flash-optimierte Speichertechnologien, disaggregierte Systemkomponenten und High-Speed-Interfaces. Dies schafft eine nachhaltige Grundlage für datengetriebene Anwendungen – wie sie eben generative AI-Modelle sind.

Deshalb ist die Trennung von Metadaten und Rohdaten entscheidend

Die Ausführungen zeigen: Für die Vektorsuche werden Dateien getrennt gespeichert: Die Embedding-Vektoren und Metadaten liegen in der Vektordatenbank vor, die Rohdaten werden in Object Storage-Umgebungen gesichert. Warum werden aber Metadaten und Rohdaten getrennt voneinander gespeichert? Die einfache Antwort lautet: Weil generative AI-Modelle die Metadaten, aufgrund ihrer geringeren Größe, wesentlich schneller durchsuchen können. Die Rohdaten sind in der Vektordatenbank schließlich lediglich verlinkt und werden nur geladen, wenn sie wirklich gebraucht werden.

retrieval-augmented-generation-infografik-3

Bei einer Vektorsuche nach einem Bild mit Bergen wird zunächst die Vektordatenbank nach passenden Embedded-Vektoren und (optional) nach Metadaten durchsucht. Anschließend werden die für die Suche relevantesten Originalbilder (Rohdateien) aus dem Bilderpool geladen – dieser ist im Objektspeicher abgelegt (Bild: © CANCOM).

In diesem Kontext muss dies nicht immer die komplette Rohdatei sein: Wenn Nutzer zum Beispiel nach bestimmten Informationen aus einem PDF-Dokument mit mehreren hundert Seiten suchen, müssen nicht alle Seiten geladen werden, sondern nur diejenigen Abschnitte, die die gewünschten Informationen enthalten. Identifiziert werden die Abschnitte über die in der Vektordatenbank gespeicherten Embedded-Vektoren und Metadaten.  

Neben dem Vorteil der deutlich schnelleren und effizienteren Suche ergeben sich handfeste wirtschaftliche Mehrwerte: Durch die Trennung von Metadaten und Rohdaten lässt sich die Netzwerk- und Speicherlast erheblich reduzieren. Dies hat direkte Auswirkungen auf die Betriebskosten. So benötigen Unternehmen zum Beispiel deutlich weniger Netzwerkbandbreite.

Fazit

Die Art, wie (generative) AI auf Wissen zugreift, verändert sich grundlegend. Statt starre Abfragen über Tabellenstrukturen zu formulieren, rücken semantische Beziehungen und Vektorräume in den Mittelpunkt. Technologien wie Retrieval-Augmented Generation (RAG) schaffen die Brücke zwischen generativer AI und verlässlichem Unternehmenswissen – vorausgesetzt, die zugrunde liegende Infrastruktur stimmt.

Vektordatenbanken, performante Object Storage-Lösungen und eine saubere Trennung zwischen Metadaten und Rohdaten sind keine Nebensache, sondern das Fundament für präzise, nachvollziehbare und richtige Antworten. Nur wer den technischen Unterbau versteht, kann AI-Systeme aufbauen, die sowohl leistungsfähig sind als auch zuverlässig arbeiten.

Wir unterstützen Sie dabei, generative AI-Modelle mit der RAG-Technologie erfolgreich zu erweitern und in Ihrem Unternehmen zu implementieren. Auf der exklusiven Themenseite finden Sie detaillierte Informationen über unsere Leistungen im AI-Bereich – inklusive der Möglichkeit, mit unseren Experten in Kontakt zu treten.

Hintergrund zum Experten

Daniel Kiehl

Director Competence Center Datacenter & Cloud, CANCOM

Daniel Kiehl leitet das Competence Center Datacenter & Cloud bei CANCOM. Er und sein Team beschäftigen sich täglich mit den unterschiedlichen Facetten von AI, Cloud und Datacenter.

Dazu gehören unter anderem Themen wie generative AI-Modelle und Retrieval Augmented Generation.

Mehr zum Thema „Artificial Intelligence“

AI Act

EU-Regulierungen: Der AI Act und seine Auswirkungen auf KI und Cybersicherheit

Der AI Act schafft klare Regeln für KI in Europa. Ab 2. Februar 2025 gilt die Pflicht zur KI-Kompetenz. CANCOM unterstützt Firmen dabei, die Chancen zu nutzen.

Lesedauer: 3 Min.

CANCOM.info-Themenseite-Artificial-Intelligence

CANCOM.info veröffentlicht eigene AI-Themenseite

Das Thema AI wird für Unternehmen immer entscheidender. Vor diesem Hintergrund haben wir nun eine eigene AI-Themenseite herausgebracht.

Lesedauer: 2 Min.

ki-it-betrieb-aiops

KI für den IT-Betrieb: Was sich hinter AIOps verbirgt – und wie Unternehmen davon profitieren können

Der Einsatz von KI für den IT-Betrieb, kurz „AIOps“, ist in Firmen stark im Kommen. So setzen immer mehr auf AIOps-Plattformen. Doch was zeichnet AIOps aus?

Lesedauer: 4 Min.