Die meisten RAG-Systeme lagern Dokumente vorab ein und zahlen Speicher- plus Neu-Embedding-Kosten, egal ob jemand danach fragt oder nicht. Eldric ist anders: Die Plattform versucht zuerst gelernte Gewichte, dann assoziatives Memory, dann Ihre Wissensbasis, dann externe Live-Quellen — und integriert nur das Material, das die Plattform tatsächlich nützlich findet, sobald sie es nützlich findet. Das Ergebnis ist eine Wissens-Schicht, die auf Signal wächst, nicht auf Anhäufen.
Bei jeder Anfrage durchläuft die Plattform vier Stufen in dieser Reihenfolge und stoppt, sobald sie eine ausreichend sichere Antwort hat:
Jede Stufe trägt einen Vertrauens-Wert; die Plattform eskaliert nur dann zur nächsten Stufe, wenn die aktuelle nicht sicher genug ist. Spart Zyklen, spart Geld bei bezahlten externen APIs, hält das Latenz-Budget intakt.
Die Kaskade ist der Lese-Pfad. Die Retention-Schleife ist, was danach passiert — und sie ist, was Eldric mit der Nutzung klüger werden lässt, statt schwerer.
Der Ablauf:
Die ganze Schleife ist pro Mandant deaktivierbar; Admins können mit ausgeschalteter Retention-Schleife laufen, wenn sie eine statische RAG-Schicht wollen. Standardmäßig an, weil das der Weg zu einer Wissens-Schicht ist, die mit Traffic besser wird, statt zu stagnieren.
Die Retention-Schleife läuft im Hintergrund. Aus Nutzer-Sicht ist die einzige neue Oberfläche der kleine Fuß unter jeder Assistenten-Antwort — ein 👍-Knopf, ein 👎-Knopf, und ein „Quellen anzeigen“-Link, der die Zitate inline aufklappt. Ein Klick auf 👍 (oder das Aufklappen eines Zitats, was als sanftes Akzeptieren zählt) startet das Ingestieren. Ein Klick auf 👎 markiert die Antwort als minderwertig; die Zitate werden nicht automatisch ingestiert, der Dream-Zyklus gewichtet sie niedriger, und die Plattform versucht beim nächsten Mal zum selben Thema andere Quellen.
Der Nutzer sieht nie, wie die Kaskade Stufen wählt; er muss nicht wissen, ob die Antwort aus gelernten Gewichten oder aus Live-OpenAlex kam. Die Antwort kommt mit Zitaten zurück; die Schleife läuft im Hintergrund.
Weniger Speicher. Ein klassisches Vor-Lager-RAG nimmt jede Quelle auf, die dem Operator einfällt, und hofft, dass die relevanten dabei sind. Eldric nimmt nur die Quellen auf, die jemand tatsächlich akzeptiert — die Wissensbasis bleibt also so groß wie das, was die Plattform tatsächlich nutzt.
Schneller mit der Zeit. Anfragen, die früher Stufe-3 (Vektor-Suche) brauchten, wandern zu Stufe-2 (komprimiertes Memory), zu Stufe-1 (gelernte Gewichte), während die Plattform Muster verinnerlicht. Latenz sinkt ohne Tuning.
Bezahlte externe APIs seltener. Wenn die Antwort auf eine Frage in Ihren eigenen Dokumenten oder schon in den gelernten Gewichten der Plattform liegt, feuert die Eskalation auf Stufe-4 nie. Rechnungen für bezahlte Embedding- oder Retrieval-APIs sinken entsprechend.
Der Trade-off ist ehrlich: Eine ganz neue Installation antwortet viel über Stufe-3/4, weil noch nichts in den gelernten Gewichten der Plattform ist. Nach ein paar Wochen akzeptierter Anfragen trägt Stufe-1/2 einen wachsenden Anteil. Die Plattform zahlt die Kaltstart-Steuer mit der Zeit zurück, nicht auf einmal.
Die Anleitung für Endnutzer zur RAG-Seite: RAG verwenden. Die technische Sicht auf die Verdrahtung der Kaskade über die Worker: Wie es funktioniert. Die Chunking-Ebene, die die RAG-Treffer-Qualität bestimmt: Chunking-Strategien. Für Kunden, die Eldric ihre eigenen Intent-Klassen beibringen wollen (damit Stufe-1 domänen-spezifische Anfragen schneller abdeckt): Eigene Klassifikation.