Inferenza con memoria intelligente (anteprima)

Il modello
consulta la tua memoria.

Una funzionalità in anteprima nella 5.0 collega direttamente il daemon di inferenza alla memoria della tua base di conoscenza. Prima che il modello risponda, estrae il contesto rilevante dalla matrix memory della tua installazione; la risposta è ancorata ai tuoi dati senza un round-trip di retrieval separato. Opt-in per richiesta, sovraccarico sotto i 2 ms per token, fascia Pro+.


Cosa fa

Richiamo, dentro il decoder.

Il pattern standard per ancorare un modello ai tuoi dati prevede due passi: una chiamata di retrieval (ricerca nella base di conoscenza) fornisce al modello il contesto rilevante, poi il modello risponde. L'inferenza con memoria intelligente li unisce in uno solo: il daemon di inferenza ha già accesso allo strato di matrix memory della base di conoscenza a cui punta il tuo tenant; al confine del prompt, i pattern rilevanti vengono consultati e integrati nello stato di decodifica del modello prima che produca il primo token.

Cosa cambia per l'utente:


Prestazioni

Quanto incide il sovraccarico.

Sul nostro cluster di demo (solo CPU sull'host controller), la ricerca di richiamo aggiunge 1–2 millisecondi per token con dimensioni tipiche della base di conoscenza. Per una risposta di 300 token sono frazioni di secondo in più sul tempo di decodifica. Per i carichi su un nodo di inferenza con GPU, il richiamo avviene in parallelo al calcolo del modello e il sovraccarico è di fatto invisibile.

La ricerca scala sotto-linearmente rispetto alla dimensione della base di conoscenza — lo strato di matrix memory esegue una singola operazione contro l'insieme dei pattern memorizzati, non una ricerca su tutti i vettori. Basi di conoscenza più grandi costano di più per ricerca, ma il rapporto resta gentile.


Due modalità

Richiamo al confine del prompt oggi; richiamo per-token in anteprima.

Due modalità operative nella 5.0:


Come attivarla

Opt-in per richiesta, oppure per tenant.

Due strade:

Di default è disattivata ovunque. Abilitarla non cambia il modello, il prompt o la forma della risposta — solo la vista del decoder sui tuoi dati.


Ambito onesto

Cosa non è.


Prossimo.

Per le altre anteprime dello strato di memoria (memoria compressa, router distillato), leggi retrieval avanzato. Per la postura generale dei dati della piattaforma, leggi i tuoi dati. Per installare: inizia qui. Domande: office@eldric.ai.