Intelligente Memory-Inferenz (Preview)

Das Modell
nutzt Ihre Memory.

Eine Preview-Funktion in 5.0 verbindet den Inferenz-Daemon direkt mit der Memory-Schicht Ihrer Wissensbasis. Bevor das Modell antwortet, holt es relevanten Kontext aus der Matrix-Memory Ihrer Installation; die Antwort ist in Ihren eigenen Daten verankert, ohne einen separaten Retrieval-Round-Trip. Opt-in pro Anfrage, unter 2 ms zusätzlicher Aufwand pro Token, Pro+-Stufe.


Was sie macht

Memory-Zugriff direkt im Dekoder.

Das übliche Muster, ein Modell auf Ihren Daten zu verankern, sind zwei Schritte: ein Retrieval-Aufruf (Wissensbasis-Suche) liefert dem Modell den relevanten Kontext, dann antwortet das Modell. Intelligente Memory-Inferenz fasst das zu einem zusammen: der Inferenz-Daemon hat bereits Zugriff auf die Matrix-Memory-Schicht der Wissensbasis, auf die Ihr Mandant zeigt; an der Prompt-Grenze werden die passenden Muster konsultiert und in den Dekodier-Zustand des Modells eingespielt, bevor das erste Token produziert wird.

Was sich für die Nutzerin oder den Nutzer ändert:


Performance

Wie hoch der Overhead ist.

Auf unserem Demo-Cluster (CPU-only auf dem Controller-Host) ergänzt der Recall-Lookup 1–2 Millisekunden pro Token bei typischen Wissensbasis-Größen. Bei einer 300-Token-Antwort ist das ein Bruchteil einer Sekunde zusätzlicher Dekodier-Zeit. Auf einer GPU-Inferenz-Maschine läuft der Recall parallel zur Modell-Berechnung; der Overhead ist faktisch verdeckt.

Der Lookup skaliert sublinear mit der Wissensbasis-Größe — die Matrix-Memory-Schicht ist ein einzelnes Matrix-Vektor-Produkt gegen die gespeicherten Muster, keine Suche über Vektoren. Größere Wissensbasen kosten mehr pro Lookup, aber der Anstieg ist sanft.


Zwei Modi

Heute Prompt-Boundary-Recall; Per-Token-Recall in der Preview.

Zwei Betriebsmodi werden in 5.0 ausgeliefert:


Aktivierung

Opt-in pro Anfrage oder pro Mandant.

Zwei Pfade:

Voreinstellung überall: aus. Das Aktivieren ändert das Modell, den Prompt oder die Antwort-Form nicht — nur den Datenblick des Dekoders.


Ehrlicher Stand

Was diese Funktion nicht ist.


Weiter.

Zu den anderen Memory-Schicht-Previews (komprimierte Memory, destillierter Router): Erweiterte Retrieval. Zur Daten-Residenz-Position der Plattform: Ihre Daten. Zum Installieren: Loslegen. Fragen: office@eldric.ai.