Intelligente Memory-Inferenz (Preview)

Das Modell
nutzt Ihre Memory.

Eine Preview-Funktion in 5.0 verbindet Eldrics native Inferenz direkt mit der Memory-Schicht Ihrer Wissensbasis. Bevor das Modell antwortet, holt es relevanten Kontext aus der Matrix-Memory Ihrer Installation; die Antwort ist in Ihren eigenen Daten verankert, ohne einen separaten Retrieval-Round-Trip. Opt-in pro Anfrage, unter 2 ms zusätzlicher Aufwand pro Token, Pro+-Stufe.

Was sie macht

Memory-Zugriff direkt im Dekoder.

Das übliche Muster, ein Modell auf Ihren Daten zu verankern, sind zwei Schritte: ein Retrieval-Aufruf (Wissensbasis-Suche) liefert dem Modell den relevanten Kontext, dann antwortet das Modell. Intelligente Memory-Inferenz fasst das zu einem zusammen: Eldrics native Inferenz hat bereits Zugriff auf die Matrix-Memory-Schicht der Wissensbasis, auf die Ihr Mandant zeigt; an der Prompt-Grenze werden die passenden Muster konsultiert und in den Dekodier-Zustand des Modells eingespielt, bevor das erste Token produziert wird.

Was sich für die Nutzerin oder den Nutzer ändert:

Das Modell hat Ihren Kontext bereits. Es zitiert Ihre Dokumente, verwendet Ihre Terminologie, bezieht sich auf frühere Konversationen innerhalb desselben Mandanten — ohne dass ein expliziter Retrieval-Aufruf den Chat umschließt.
Ein Round-Trip statt zwei. Nützlich, wenn die Gesamtlatenz zählt: der Agent-Worker braucht keinen separaten /search-Schritt zur Verankerung, wenn die Antwort eine Matrix-Memory-Anfrage weit weg ist.
Qualität bei kunden-spezifischen Inhalten. Bei Workloads, die sich um die Dokumente des Hauses drehen — klinische Leitlinien, Vertrags-Vorlagen, Bearbeitungs-Protokolle — liest sich die Erst-Antwort des Modells wie eine Antwort, die Ihre Daten gelesen hat, nicht wie eine generische Antwort mit Rückfrage.

Performance

Wie hoch der Overhead ist.

Auf unserem Demo-Cluster (CPU-only auf dem Controller-Host) ergänzt der Recall-Lookup 1–2 Millisekunden pro Token bei typischen Wissensbasis-Größen. Bei einer 300-Token-Antwort ist das ein Bruchteil einer Sekunde zusätzlicher Dekodier-Zeit. Auf einer GPU-Inferenz-Maschine läuft der Recall parallel zur Modell-Berechnung; der Overhead ist faktisch verdeckt.

Der Lookup skaliert sublinear mit der Wissensbasis-Größe — die Matrix-Memory-Schicht ist ein einzelner Direkt-Lookup gegen die gespeicherten Muster, keine Suche über Vektoren. Größere Wissensbasen kosten mehr pro Lookup, aber der Anstieg ist sanft.

Zwei Modi

Heute Prompt-Boundary-Recall; Per-Token-Recall in der Preview.

Zwei Betriebsmodi werden in 5.0 ausgeliefert:

Prompt-Boundary-Recall. Eldrics native Inferenz konsultiert die Matrix-Memory einmal zu Beginn einer Antwort und spielt den abgerufenen Kontext in den Modell-Zustand ein, bevor die Dekodierung beginnt. Niedrigster Overhead; passt für die meisten Chat-Workloads. GA auf Pro+.
Per-Token-Recall (Preview). Der Daemon greift bei jedem dekodierten Token erneut auf die Memory zu. Nützlich für sehr lange Antworten, bei denen sich der relevante Kontext mitten in der Antwort verschiebt (etwa eine mehrteilige Dokument-Zusammenfassung, ein Schritt-für-Schritt-Vorgang, der auf Zwischenergebnissen aufbaut). Höherer Overhead; bleibt vorerst Preview, GA-Ziel ein kommender 5.0.x-Patch.

Aktivierung

Opt-in pro Anfrage oder pro Mandant.

Zwei Pfade:

Admin-Opt-in pro Mandant. Admin-Konsole → Mandanten → einen Mandanten wählen → Intelligente Memory-Inferenz → Namespace + Modus festlegen. Sobald aktiviert, nutzen Anfragen aus diesem Mandanten die Funktion automatisch.
Flag pro Anfrage. smart_memory: true im Chat-Completion-Request-Body aktiviert die Funktion für genau diesen Aufruf. Sinnvoll, wenn die Funktion nur für bestimmte Workloads gelten soll (Lang-Form-Generierung, kunden-spezifische Berichte) und nicht für kurze generische Anfragen.

Voreinstellung überall: aus. Das Aktivieren ändert das Modell, den Prompt oder die Antwort-Form nicht — nur den Datenblick des Dekoders.

Ehrlicher Stand

Was diese Funktion nicht ist.

Kein Ersatz für explizite Retrieval. Wenn Sie Quellen mit verifizierbaren Verweisen auf Dokumente in der Antwort zitieren möchten, nutzen Sie das übliche Wissensbasis-Such-Muster. Intelligente Memory-Inferenz ist ein Recall-Mechanismus, kein Zitations-Mechanismus.
Nicht standardmäßig aktiv. Standard-Workloads bleiben auf dem Standard-Inferenz-Pfad. Die Funktion bleibt über die 5.0-Linie Preview; wir wollen Kunden-Feedback, bevor sie die neue Voreinstellung wird.
Keine mandantenübergreifende Funktion. Die Memory, die der Dekoder erreicht, ist die des aktiven Mandanten. Der Dekoder sieht per Konstruktion keine Daten anderer Mandanten.
Nur lokal. Der Recall-Schritt läuft auf Ihrer Hardware, in Ihrer Installation. Keine Cloud-Komponente, kein externer Lookup, keine Daten verlassen Ihr Netzwerk.

Das Modellnutzt Ihre Memory.