Eine Preview-Funktion in 5.0 verbindet den Inferenz-Daemon direkt mit der Memory-Schicht Ihrer Wissensbasis. Bevor das Modell antwortet, holt es relevanten Kontext aus der Matrix-Memory Ihrer Installation; die Antwort ist in Ihren eigenen Daten verankert, ohne einen separaten Retrieval-Round-Trip. Opt-in pro Anfrage, unter 2 ms zusätzlicher Aufwand pro Token, Pro+-Stufe.
Das übliche Muster, ein Modell auf Ihren Daten zu verankern, sind zwei Schritte: ein Retrieval-Aufruf (Wissensbasis-Suche) liefert dem Modell den relevanten Kontext, dann antwortet das Modell. Intelligente Memory-Inferenz fasst das zu einem zusammen: der Inferenz-Daemon hat bereits Zugriff auf die Matrix-Memory-Schicht der Wissensbasis, auf die Ihr Mandant zeigt; an der Prompt-Grenze werden die passenden Muster konsultiert und in den Dekodier-Zustand des Modells eingespielt, bevor das erste Token produziert wird.
Was sich für die Nutzerin oder den Nutzer ändert:
Auf unserem Demo-Cluster (CPU-only auf dem Controller-Host) ergänzt der Recall-Lookup 1–2 Millisekunden pro Token bei typischen Wissensbasis-Größen. Bei einer 300-Token-Antwort ist das ein Bruchteil einer Sekunde zusätzlicher Dekodier-Zeit. Auf einer GPU-Inferenz-Maschine läuft der Recall parallel zur Modell-Berechnung; der Overhead ist faktisch verdeckt.
Der Lookup skaliert sublinear mit der Wissensbasis-Größe — die Matrix-Memory-Schicht ist ein einzelnes Matrix-Vektor-Produkt gegen die gespeicherten Muster, keine Suche über Vektoren. Größere Wissensbasen kosten mehr pro Lookup, aber der Anstieg ist sanft.
Zwei Betriebsmodi werden in 5.0 ausgeliefert:
Zwei Pfade:
smart_memory: true im Chat-Completion-Request-Body aktiviert die Funktion für genau diesen Aufruf. Sinnvoll, wenn die Funktion nur für bestimmte Workloads gelten soll (Lang-Form-Generierung, kunden-spezifische Berichte) und nicht für kurze generische Anfragen.Voreinstellung überall: aus. Das Aktivieren ändert das Modell, den Prompt oder die Antwort-Form nicht — nur den Datenblick des Dekoders.
Zu den anderen Memory-Schicht-Previews (komprimierte Memory, destillierter Router): Erweiterte Retrieval. Zur Daten-Residenz-Position der Plattform: Ihre Daten. Zum Installieren: Loslegen. Fragen: office@eldric.ai.