Erweiterte Retrieval (Preview)

Schnellerer Abruf.
Kleinere Memory.

Zwei Preview-Funktionen werden in 5.0 als Opt-in-Erweiterungen des Memory-Subsystems ausgeliefert. Sie decken den Fall ab, dass der Standard-Wissensbasis-Pfad bereits gut funktioniert und Sie die Latenz bei Skalierung, den Speicher-Footprint oder das passende Routing der Anfrage an das richtige Modell weiter optimieren möchten — mit weniger LLM-Zeit.

Komprimierte Memory

Der Pfad zum komprimierten Memory.

Die Matrix-Memory-Schicht hinter den Wissensbasen von Eldric ist ein einstufiger assoziativer Abruf-Mechanismus. Ein bewährtes Design — jede Retrieval ist ein einzelner Direkt-Lookup gegen die gespeicherten Muster. Die Preview ergänzt eine komprimierte Variante desselben Mechanismus: die Muster in einer kleineren Form speichern, schneller abrufen, bei den härtesten Anfragen ein wenig Genauigkeit einbüßen.

Was Sie bekommen

Kleinere .emm-Dateien auf der Platte — relevant für Mandanten mit Millionen gespeicherter Muster.
Schnellerer Abruf bei hoher Parallelität — Sub-Millisekunden auf dem heißen Pfad; mehrfach schneller, wenn viele parallele Anfragen dieselbe Wissensbasis treffen.
Zweistufige Retrieval möglich — die voll-präzise Matrix für die Archiv-Genauigkeit behalten und die komprimierte Variante als heißen Vor-Filter davorschalten.

Der Trade-off

Ein kleiner Genauigkeits-Einbruch bei den härtesten Anfragen — typischerweise 1–3 % auf den Benchmarks, die die Forschungs-Community für diese Techniken verwendet. Für die meisten Kunden-Workloads (Suche über eine kuratierte Wissensbasis, ein paar gute Kandidaten an das LLM weiterreichen) ist der Verlust unsichtbar. Workloads, die auf exaktes Treffen seltener Muster angewiesen sind, lassen sich mit einem Verifikations-Schritt gegen die voll-präzise Matrix absichern.

Aktivierung

Admin-Konsole → Wissensbasen → eine Wissensbasis wählen → Erweiterte Retrieval → komprimierte Memory aktivieren. Die Umwandlung läuft im Hintergrund; die ursprüngliche voll-präzise Datei bleibt erhalten, bis Sie die komprimierte Version freigeben. Ab Standard-Tier. Opt-in pro Wissensbasis, niemals Standard.

Destillierter Router

Ein kleinerer Klassifikator vor dem LLM.

Der Router nutzt aktuell ein kleines LLM, um bei jeder Anfrage Intent, Thema und Ziel-Backend zu klassifizieren. Der destillierte Router (Preview) ersetzt das durch einen einstufigen neuronalen Klassifikator, der aus den vergangenen Entscheidungen des LLM auf Ihrem Cluster trainiert wurde. Das Ergebnis: niedrigere Latenz bei der Routing-Entscheidung, weniger GPU-Zeit, die in die Auswahl statt in die Antwort fließt, und ein Routing-Modell, das Sie auf Ihren eigenen Verkehrsmustern trainieren.

Was Sie bekommen

Niedrigere Router-Latenz — typischerweise wenige Millisekunden statt den zehn bis hundert Millisekunden des LLM.
Freie LLM-Kapazität für tatsächliche Arbeit statt für Routing-Klassifikation.
Auf Ihren Verkehrsmustern trainiert — die Destillation nutzt die tatsächlichen Routing-Entscheidungen Ihres Clusters als Trainingsdaten, so dass der Klassifikator zu Ihren Mustern passt, nicht zu einer generischen Baseline.

Der Trade-off

Ein kleiner Klassifikator argumentiert nicht so gut über mehrdeutige Grenzfälle wie ein kleines LLM. Der Router fällt für Anfragen mit niedrigem Konfidenz-Wert auf den LLM-Pfad zurück; die Latenz fällt nur bei der tatsächlich mehrdeutigen Fraktion an.

Status

Preview. Als Opt-in für Professional- und Enterprise-Tier verfügbar. Die Inbetriebnahme ist Admin-gesteuert; der Destillations-Schritt nutzt Ihre akkumulierten Routing-Daten und läuft als einmaliger Trainings-Job, bevor der Klassifikator den LLM-Routing-Pfad ablöst.

Ehrlicher Stand

Was diese Funktionen nicht sind.

Nicht standardmäßig aktiv. Der Standard-Wissensbasis-Pfad bleibt für jeden Mandanten die Voreinstellung.
Kein Ersatz für die voll-präzise Matrix. Die komprimierte Variante liegt daneben; Opt-in pro Wissensbasis.
Heute noch Preview. Beide werden als Preview ausgeliefert; der Reifegrad bleibt vorerst Preview. Produktionsreife kommt in einem kommenden 5.0.x-Patch nach einer breiteren Kunden-Erprobung.
Nur lokales Training. Sowohl der Kompressions-Schritt als auch die Router-Destillation laufen auf Ihrer eigenen Hardware. Eldric leitet Ihre Trainings-Jobs nicht an externe Stellen weiter.

Schnellerer Abruf.Kleinere Memory.

Der Pfad zum komprimierten Memory.

Was Sie bekommen

Der Trade-off

Aktivierung

Ein kleinerer Klassifikator vor dem LLM.

Was Sie bekommen

Der Trade-off

Status

Was diese Funktionen nicht sind.

Weiter.

Schnellerer Abruf.
Kleinere Memory.