Una funzionalità in anteprima nella 5.0 collega direttamente il daemon di inferenza alla memoria della tua base di conoscenza. Prima che il modello risponda, estrae il contesto rilevante dalla matrix memory della tua installazione; la risposta è ancorata ai tuoi dati senza un round-trip di retrieval separato. Opt-in per richiesta, sovraccarico sotto i 2 ms per token, fascia Pro+.
Il pattern standard per ancorare un modello ai tuoi dati prevede due passi: una chiamata di retrieval (ricerca nella base di conoscenza) fornisce al modello il contesto rilevante, poi il modello risponde. L'inferenza con memoria intelligente li unisce in uno solo: il daemon di inferenza ha già accesso allo strato di matrix memory della base di conoscenza a cui punta il tuo tenant; al confine del prompt, i pattern rilevanti vengono consultati e integrati nello stato di decodifica del modello prima che produca il primo token.
Cosa cambia per l'utente:
Sul nostro cluster di demo (solo CPU sull'host controller), la ricerca di richiamo aggiunge 1–2 millisecondi per token con dimensioni tipiche della base di conoscenza. Per una risposta di 300 token sono frazioni di secondo in più sul tempo di decodifica. Per i carichi su un nodo di inferenza con GPU, il richiamo avviene in parallelo al calcolo del modello e il sovraccarico è di fatto invisibile.
La ricerca scala sotto-linearmente rispetto alla dimensione della base di conoscenza — lo strato di matrix memory esegue una singola operazione contro l'insieme dei pattern memorizzati, non una ricerca su tutti i vettori. Basi di conoscenza più grandi costano di più per ricerca, ma il rapporto resta gentile.
Due modalità operative nella 5.0:
Due strade:
smart_memory: true nel corpo della richiesta di chat-completion per attivare la funzionalità su quella specifica chiamata. Utile quando vuoi la funzionalità solo per certi carichi (generazione long-form, report specifici del cliente) e non per query brevi e generiche.Di default è disattivata ovunque. Abilitarla non cambia il modello, il prompt o la forma della risposta — solo la vista del decoder sui tuoi dati.
Per le altre anteprime dello strato di memoria (memoria compressa, router distillato), leggi retrieval avanzato. Per la postura generale dei dati della piattaforma, leggi i tuoi dati. Per installare: inizia qui. Domande: office@eldric.ai.