Erweiterte Retrieval (Preview)

Schnellerer Abruf.
Kleinere Memory.

Zwei Preview-Funktionen werden in 5.0 als Opt-in-Erweiterungen des Memory-Subsystems ausgeliefert. Sie decken den Fall ab, dass der Standard-Wissensbasis-Pfad bereits gut funktioniert und Sie die Latenz bei Skalierung, den Speicher-Footprint oder das passende Routing der Anfrage an das richtige Modell weiter optimieren möchten — mit weniger LLM-Zeit.


Komprimierte Memory

Der Modern-Hopfield-Pfad.

Die Matrix-Memory-Schicht hinter den Wissensbasen von Eldric ist ein einstufiger assoziativer Abruf-Mechanismus. Ein bewährtes Design — jede Retrieval ist ein einzelnes Matrix-Vektor-Produkt gegen die gespeicherten Muster. Die Preview ergänzt eine komprimierte Variante desselben Mechanismus: die Muster in einer kleineren Form speichern, schneller abrufen, bei den härtesten Anfragen ein wenig Genauigkeit einbüßen.

Volle Präzision jedes Muster in voller Auflösung gespeicherte Muster größer · langsamer bei hoher c komprimieren Komprimiert Low-Rank- und quantisierte Form gespeicherte Muster kleiner · schneller bei hoher c

Was Sie bekommen

Der Trade-off

Ein kleiner Genauigkeits-Einbruch bei den härtesten Anfragen — typischerweise 1–3 % auf den Benchmarks, die die Forschungs-Community für diese Techniken verwendet. Für die meisten Kunden-Workloads (Suche über eine kuratierte Wissensbasis, ein paar gute Kandidaten an das LLM weiterreichen) ist der Verlust unsichtbar. Workloads, die auf exaktes Treffen seltener Muster angewiesen sind, lassen sich mit einem Verifikations-Schritt gegen die voll-präzise Matrix absichern.

Aktivierung

Admin-Konsole → Wissensbasen → eine Wissensbasis wählen → Erweiterte Retrieval → komprimierte Memory aktivieren. Die Umwandlung läuft im Hintergrund; die ursprüngliche voll-präzise Datei bleibt erhalten, bis Sie die komprimierte Version freigeben. Ab Standard-Tier. Opt-in pro Wissensbasis, niemals Standard.


Destillierter Router

Ein kleinerer Klassifikator vor dem LLM.

Der Router nutzt aktuell ein kleines LLM, um bei jeder Anfrage Intent, Thema und Ziel-Backend zu klassifizieren. Der destillierte Router (Preview) ersetzt das durch einen einstufigen neuronalen Klassifikator, der aus den vergangenen Entscheidungen des LLM auf Ihrem Cluster trainiert wurde. Das Ergebnis: niedrigere Latenz bei der Routing-Entscheidung, weniger GPU-Zeit, die in die Auswahl statt in die Antwort fließt, und ein Routing-Modell, das Sie auf Ihren eigenen Verkehrsmustern trainieren.

Was Sie bekommen

Der Trade-off

Ein kleiner Klassifikator argumentiert nicht so gut über mehrdeutige Grenzfälle wie ein kleines LLM. Der Router fällt für Anfragen mit niedrigem Konfidenz-Wert auf den LLM-Pfad zurück; die Latenz fällt nur bei der tatsächlich mehrdeutigen Fraktion an.

Status

Preview. Als Opt-in für Professional- und Enterprise-Tier verfügbar. Die Inbetriebnahme ist Admin-gesteuert; der Destillations-Schritt nutzt Ihre akkumulierten Routing-Daten und läuft als einmaliger Trainings-Job, bevor der Klassifikator den LLM-Routing-Pfad ablöst.


Ehrlicher Stand

Was diese Funktionen nicht sind.


Weiter.

Zum gesamten Memory-Modell der Plattform: Wie es funktioniert. Zur Daten-Residenz-Position: Ihre Daten. Zur 5.0-GA-Übersicht: Release Notes. Konkrete Fragen: office@eldric.ai.