Retrieval Augmented Generation (RAG)

Die künstliche Intelligenz hat in den letzten Jahren enorme Fortschritte gemacht. Vor allem im Bereich der Sprachverarbeitung. Doch es gibt eine Herausforderung: KI-Suchmaschinen basieren auf statischen Trainingsdaten und können keine aktuellen oder spezifischen Informationen abrufen. Hier setzt Retrieval Augmented Generation, kurz RAG, an – ein Ansatz, der die Leistungsfähigkeit von KI-Suchmaschinen durch den Zugriff auf externe Wissensquellen deutlich erweitert.

Was ist Retrieval Augmented Generation (RAG)?

Retrieval Augmented Generation (RAG) ist ein innovativer Ansatz in der Künstlichen Intelligenz (KI), der darauf abzielt, die Leistungsfähigkeit von KI-Systemen zu verbessern, indem externe Wissensquellen in den Generierungsprozess einbezogen werden. Dies führt zu kontextabhängigen Antworten.

Retrieval Augmented Generation ist eine Methode, die zwei Schlüsseltechnologien kombiniert:

Retrieval = Abrufen: Ein externer Such- oder Datenabrufprozess, bei dem relevante Informationen in Echtzeit aus Wissensdatenbanken, Dokumenten oder APIs abgerufen werden.

Generation = Generierung: KI-Suchmaschinen, die auf Basis der abgerufenen Informationen natürliche Sprache generieren.

Wie funktioniert das Verfahren der Retrieval Augmented Generation (RAG) konkret?

Wie oben beschrieben, besteht RAG aus zwei Schlüsseltechnologien, die das Verfahren reflektieren:

Abrufphase (Retrieval)

Wenn eine Frage oder Anfrage gestellt wird, wird der Text der Anfrage in eine durchsuchbare Form umgewandelt, häufig durch Vektorisierung.

Das System greift dann auf eine externe Wissensquelle zu, um Informationen zu sammeln, die semantisch am besten zur Anfrage passen.

Die relevantesten Textfragmente werden herausgefiltert und zum nächsten Schritt weitergeleitet.

Moderne RAG-Systeme verwenden häufig spezialisierte Modelle wie Dense Retriever, um relevante Informationen aus großen Mengen unstrukturierter Daten effizient zu finden.

Generierungsphase (Generation)

Das Modell nimmt die gefundenen Passagen und kombiniert sie mit seinem eigenen trainierten Wissen.

Auf diese Weise werden nicht nur die generischen Informationen des Modells, sondern auch aktuelle, spezifische und relevante Details aus den externen Quellen in die Antwort einbezogen.

Das Modell erzeugt nun eine vollständige Antwort in natürlicher Sprache, die alle relevanten Informationen integriert.

Die Antwortgenerierung erfolgt entweder durch direktes Einfügen der abgerufenen Textpassagen in die Antwort oder durch eine komplexere Synthese der abgerufenen Informationen.

Die Vorteile von Retrieval Augmented Generation

Genauigkeit

RAG nutzt ein Abrufmodell, um gezielt relevante Informationen aus vorhandenen Wissensquellen zu extrahieren. Dadurch stützen sich die generierten Antworten auf spezifische und oft aktuellere Informationen, was sie genauer und zuverlässiger macht als Antworten rein generativer Modelle.

Verbesserte Informationssynthese

Diese Fähigkeit zur Synthese ist besonders nützlich bei komplexen Anfragen, die eine Zusammenstellung verschiedener Daten oder Perspektiven erfordern.

Kontextbezogene Antworten

Im Gegensatz zu reinen Abrufsystemen kann RAG den Gesprächskontext berücksichtigen, um Antworten zu liefern, die präzise auf die jeweilige Situation zugeschnitten sind.

Vereinfachtes Training

Das Training eines großen Sprachmodells (LLM) für generative Aufgaben erfordert enorme Datenmengen. RAG-Modelle umgehen dies, indem sie bereits vorhandene Wissensquellen einbinden, was den Bedarf an zusätzlichen Trainingsdaten deutlich reduziert.

Höhere Effizienz

Da die Abrufphase vorab relevante Informationen filtert, wird die Menge an Daten, die in der Generierungsphase verarbeitet werden müssen, deutlich reduziert.

RAG vs Fine tuning: Optimierung von LLMs

Beide, „Retrieval Augmented Generation“ (RAG) und „Feintuning“, sind Ansätze, große Sprachmodelle (engl. „Large Language Models“; LLMs) zu verbessern, und doch verfolgt jeder Ansatz unterschiedliche Ziele und Anwendungszwecke.

RAG, das das heißt „Retrieval Augmented Generation“, verbindet externe Datenquellen mit einem LLM, wie etwa firmeneigene Datenbanken oder Wissensbasen. Es ermöglicht dem Modell die Einbindung von zusätzlichen aktuellsten Informationen in den Antwort- oder Ausgabeprozess, ohne daß die ursprünglichen internen Modelloptionen verändert werden. Das macht das Modell für Echtzeitanwendungen zu einem idealen Werkzeug.
Feintuning bezieht sich auf das Training eines vorgefertigten Modells mit einem kleineren, spezialisierten Datensatz, um das Modell auf eine spezifische Aufgabe zu optimieren. Die Einstellungen der Modellparameter werden dabei so geändert, daß das Modell seine Leistungsfähigkeit spezifisch in einem speziellen Anwendungsgebiet maximieren und verbessern kann.

Wichtigste Unterschiede:

Datenquellen: RAG greift auf externe Quellen in Echtzeit zu; Feintuning verwendet spezifische Daten im Training.
Anpassungsfähigkeit: RAG ist lern- und adaptionsfähiger für weitere Informationen; Feintuning erfordert eine klar definierte Neujustierung.
Umsetzbarkeit: Das Verfahren RAG läßt sich einfacher umsetzen als Feintuning, bei letzterem sind tiefgreifende Kenntnisse im NLP- und im Deep Learning erforderlich.
Anwendungszwecke: RAG liefert (extrem) aktuelle Informationen und eignet sich für größere Mengen an externen nachgeordneten Wissenstrukturen, während Feintuning empfohlen wird für standardisierte, sich ständig wiederholende Aufgabenstellungen.
Halluzinationen: Zur Reduktion des Phänomens der Halluzinationen eigenen sich insbesondere Feintuning, wahrend RAG durch die Aktualisierung von Quellen eine (annähernds) faktische Antwort liefert, weil immer auf die neuesten Wissensbestände des Unternehmens Bezug genommen wird.

Kombination: Es mehren sich auch Stimmen und damit konkrete Einsatzbeispiele bei Organisations- und Unternehmenkunden, die an einer Nutzung beider Methoden (RA Feintuning T) interessiert sind, um präzise und kontextbezogene Ergebnisse erzielen zu können.

Fazit

Retrieval Augmented Generation ist ein spannender Schritt in der Entwicklung moderner KI-Technologien. Es kombiniert die Stärken von Retrieval und Generierung und bietet eine leistungsstarke Lösung für viele der Herausforderungen, mit denen klassische KI-Modelle konfrontiert sind. Ob im Kundensupport, in der Wissenschaft oder in der Medizin – die Möglichkeiten sind nahezu unbegrenzt.

Sylvia Marian

Business & IT Consultant

contact@machcon.com