RAG bei Bedarf

Nicht alles speichern.
Bei Bedarf holen.

Die meisten RAG-Systeme lagern Dokumente vorab ein und zahlen Speicher- plus Neu-Embedding-Kosten, egal ob jemand danach fragt oder nicht. Eldric ist anders: Die Plattform versucht zuerst gelernte Gewichte, dann assoziatives Memory, dann Ihre Wissensbasis, dann externe Live-Quellen — und integriert nur das Material, das die Plattform tatsächlich nützlich findet, sobald sie es nützlich findet. Das Ergebnis ist eine Wissens-Schicht, die auf Signal wächst, nicht auf Anhäufen.


Die Kaskade

Vier Stufen, kleinste zuerst.

Bei jeder Anfrage durchläuft die Plattform vier Stufen in dieser Reihenfolge und stoppt, sobald sie eine ausreichend sichere Antwort hat:

  1. ENRN gelernte Gewichte — kleiner neuronaler Klassifikator, der die Muster Ihres Clusters verinnerlicht hat. Sub-Millisekunde. Wenn die Anfrage zu einem gut bekannten Muster passt, antwortet der Klassifikator direkt ohne Retrieval.
  2. EMM assoziatives Memory — die komprimierte, generalisierende Schicht (Modern-Hopfield-Form). Hält Muster, die die Plattform mit der Zeit gelernt hat. Mikrosekunden-Latenz auf CPU. Gut für Anfragen, bei denen die genaue Formulierung anders ist, aber die Bedeutung schon gesehen wurde.
  3. Ihre Wissensbasis (RAG) — exaktes Retrieval über Ihre indizierten Dokumente. Liefert die konkreten Passagen mit Zitaten. Gut für Anfragen, deren Antwort lautet „was steht eigentlich in meinem Dokument“.
  4. Externe Live-Quellen — wenn keine der obigen Stufen ausreicht, fragt die Plattform konfigurierte externe Quellen (Wissenschafts-Quellen-Registrierung, Web-Suche, Anbieter-APIs) live ab und synthetisiert eine Antwort mit Herkunft. Feuert nur, wenn nötig.

Jede Stufe trägt einen Vertrauens-Wert; die Plattform eskaliert nur dann zur nächsten Stufe, wenn die aktuelle nicht sicher genug ist. Spart Zyklen, spart Geld bei bezahlten externen APIs, hält das Latenz-Budget intakt.


Die Retention-Schleife

Suchen → akzeptieren → ingestieren → anreichern → träumen → trainieren.

Die Kaskade ist der Lese-Pfad. Die Retention-Schleife ist, was danach passiert — und sie ist, was Eldric mit der Nutzung klüger werden lässt, statt schwerer.

Der Ablauf:

  1. Suchen. Sie stellen eine Frage; die Kaskade läuft; Sie bekommen eine Antwort mit Zitaten.
  2. Akzeptieren. Unter der Antwort steht ein 👍-/👎-Fuß. Ein Klick auf ein Zitat zählt als implizites Akzeptieren.
  3. Ingestieren. Bei Akzeptanz ingestiert die Plattform die zitierten Quellen automatisch in die passende Wissensbasis. Neue Dokumente aus externen Live-Quellen landen in Ihrer RAG-Schicht; die nächste Anfrage zum selben Thema braucht den Live-Roundtrip nicht.
  4. Anreichern. Die ingestierten Dokumente laufen durch die inhaltsbewusste Chunking-Pipeline (gemäß Chunking-Strategien) und bekommen Auto-Metadaten — Autoren, DOIs, Themen-Tags, Querverweise, Entitäts-Links.
  5. Träumen. Im nächsten Dream-Zyklus extrahiert die Plattform Themen aus akzeptierten Sitzungen und schreibt sie ins Matrix-Memory. Muster, die die Plattform oft sieht, werden zu Schnell-Lookup-Mustern.
  6. Trainieren. Heiße Muster werden Kandidaten für den nächsten ENRN-Trainings-Korpus. Anfragen, die früher auf Stufe-3 (RAG) trafen, treffen jetzt direkt Stufe-1 (gelernte Gewichte) — die Antwort-Zeit der Plattform sinkt mit der Zeit, ohne Genauigkeit zu verlieren.

Die ganze Schleife ist pro Mandant deaktivierbar; Admins können mit ausgeschalteter Retention-Schleife laufen, wenn sie eine statische RAG-Schicht wollen. Standardmäßig an, weil das der Weg zu einer Wissens-Schicht ist, die mit Traffic besser wird, statt zu stagnieren.


Was der Nutzer sieht

Daumen hoch. Daumen runter. Das ist die ganze UI.

Die Retention-Schleife läuft im Hintergrund. Aus Nutzer-Sicht ist die einzige neue Oberfläche der kleine Fuß unter jeder Assistenten-Antwort — ein 👍-Knopf, ein 👎-Knopf, und ein „Quellen anzeigen“-Link, der die Zitate inline aufklappt. Ein Klick auf 👍 (oder das Aufklappen eines Zitats, was als sanftes Akzeptieren zählt) startet das Ingestieren. Ein Klick auf 👎 markiert die Antwort als minderwertig; die Zitate werden nicht automatisch ingestiert, der Dream-Zyklus gewichtet sie niedriger, und die Plattform versucht beim nächsten Mal zum selben Thema andere Quellen.

Der Nutzer sieht nie, wie die Kaskade Stufen wählt; er muss nicht wissen, ob die Antwort aus gelernten Gewichten oder aus Live-OpenAlex kam. Die Antwort kommt mit Zitaten zurück; die Schleife läuft im Hintergrund.


Was sich operativ ändert

Weniger Speicher, schneller mit der Zeit, weniger bezahlt.

Weniger Speicher. Ein klassisches Vor-Lager-RAG nimmt jede Quelle auf, die dem Operator einfällt, und hofft, dass die relevanten dabei sind. Eldric nimmt nur die Quellen auf, die jemand tatsächlich akzeptiert — die Wissensbasis bleibt also so groß wie das, was die Plattform tatsächlich nutzt.

Schneller mit der Zeit. Anfragen, die früher Stufe-3 (Vektor-Suche) brauchten, wandern zu Stufe-2 (komprimiertes Memory), zu Stufe-1 (gelernte Gewichte), während die Plattform Muster verinnerlicht. Latenz sinkt ohne Tuning.

Bezahlte externe APIs seltener. Wenn die Antwort auf eine Frage in Ihren eigenen Dokumenten oder schon in den gelernten Gewichten der Plattform liegt, feuert die Eskalation auf Stufe-4 nie. Rechnungen für bezahlte Embedding- oder Retrieval-APIs sinken entsprechend.

Der Trade-off ist ehrlich: Eine ganz neue Installation antwortet viel über Stufe-3/4, weil noch nichts in den gelernten Gewichten der Plattform ist. Nach ein paar Wochen akzeptierter Anfragen trägt Stufe-1/2 einen wachsenden Anteil. Die Plattform zahlt die Kaltstart-Steuer mit der Zeit zurück, nicht auf einmal.


Weiter

Tiefer einsteigen.

Die Anleitung für Endnutzer zur RAG-Seite: RAG verwenden. Die technische Sicht auf die Verdrahtung der Kaskade über die Worker: Wie es funktioniert. Die Chunking-Ebene, die die RAG-Treffer-Qualität bestimmt: Chunking-Strategien. Für Kunden, die Eldric ihre eigenen Intent-Klassen beibringen wollen (damit Stufe-1 domänen-spezifische Anfragen schneller abdeckt): Eigene Klassifikation.