Inferenza con memoria intelligente (anteprima)

Il modello
consulta la tua memoria.

Una funzionalità in anteprima nella 5.0 collega direttamente il daemon di inferenza alla memoria della tua base di conoscenza. Prima che il modello risponda, estrae il contesto rilevante dalla matrix memory della tua installazione; la risposta è ancorata ai tuoi dati senza un round-trip di retrieval separato. Opt-in per richiesta, sovraccarico sotto i 2 ms per token, fascia Pro+.

Cosa fa

Richiamo, dentro il decoder.

Il pattern standard per ancorare un modello ai tuoi dati prevede due passi: una chiamata di retrieval (ricerca nella base di conoscenza) fornisce al modello il contesto rilevante, poi il modello risponde. L'inferenza con memoria intelligente li unisce in uno solo: il daemon di inferenza ha già accesso allo strato di matrix memory della base di conoscenza a cui punta il tuo tenant; al confine del prompt, i pattern rilevanti vengono consultati e integrati nello stato di decodifica del modello prima che produca il primo token.

Cosa cambia per l'utente:

Il modello ha già il tuo contesto. Cita i tuoi documenti, usa la tua terminologia, fa riferimento a conversazioni precedenti dello stesso tenant — senza una chiamata di retrieval esplicita attorno alla chat.
Un round-trip, non due. Utile quando conta la latenza totale: l'agent worker non ha bisogno di un passo /search separato per l'ancoraggio quando la risposta è a una sola query di matrix memory di distanza.
Qualità sui contenuti specifici del cliente. Per i carichi di lavoro in cui la risposta dipende dai documenti dell'istituzione — linee guida cliniche, modelli di contratto, registrazioni di lavorazione meccanica — la risposta del modello al primo passaggio si legge come una risposta che ha letto i tuoi dati, non come una risposta generica che ti chiede chiarimenti.

Prestazioni

Quanto incide il sovraccarico.

Sul nostro cluster di demo (solo CPU sull'host controller), la ricerca di richiamo aggiunge 1–2 millisecondi per token con dimensioni tipiche della base di conoscenza. Per una risposta di 300 token sono frazioni di secondo in più sul tempo di decodifica. Per i carichi su un nodo di inferenza con GPU, il richiamo avviene in parallelo al calcolo del modello e il sovraccarico è di fatto invisibile.

La ricerca scala sotto-linearmente rispetto alla dimensione della base di conoscenza — lo strato di matrix memory esegue una singola operazione contro l'insieme dei pattern memorizzati, non una ricerca su tutti i vettori. Basi di conoscenza più grandi costano di più per ricerca, ma il rapporto resta gentile.

Due modalità

Richiamo al confine del prompt oggi; richiamo per-token in anteprima.

Due modalità operative nella 5.0:

Richiamo al confine del prompt. Il daemon di inferenza consulta la matrix memory una volta all'inizio della risposta, integrando il contesto richiamato nello stato del modello prima che inizi la decodifica. Sovraccarico minimo; adatto alla maggior parte dei carichi conversazionali. Rilasciato come GA in fascia Pro+.
Richiamo per-token (anteprima). Il daemon riconsulta la memoria a ogni token decodificato. Utile per risposte molto lunghe in cui il contesto rilevante cambia in corso di risposta (es. il riassunto di un documento multi-sezione, una procedura passo-passo che dipende da risultati intermedi). Sovraccarico più alto; rilasciato in anteprima durante la linea 5.0, GA prevista più avanti in 5.0.x.

Come attivarla

Opt-in per richiesta, oppure per tenant.

Due strade:

Opt-in admin per tenant. Console di amministrazione → Tenant → seleziona un tenant → Memoria intelligente → scegli namespace + modalità. Una volta abilitata, le richieste di quel tenant usano automaticamente la funzionalità.
Flag per richiesta. Passa smart_memory: true nel corpo della richiesta di chat-completion per attivare la funzionalità su quella specifica chiamata. Utile quando vuoi la funzionalità solo per certi carichi (generazione long-form, report specifici del cliente) e non per query brevi e generiche.

Di default è disattivata ovunque. Abilitarla non cambia il modello, il prompt o la forma della risposta — solo la vista del decoder sui tuoi dati.

Ambito onesto

Cosa non è.

Non sostituisce il retrieval esplicito. Quando vuoi che le fonti siano citate nella risposta con link verificabili ai documenti, usa il pattern standard di ricerca nella base di conoscenza. L'inferenza con memoria intelligente è un meccanismo di richiamo, non di citazione.
Non attiva di default. I carichi standard restano sul percorso di inferenza standard. La funzionalità resta in anteprima per tutta la linea 5.0; vogliamo il feedback dei clienti prima che diventi il nuovo default.
Non è una funzionalità cross-tenant. La memoria che il decoder consulta è quella legata al tenant attivo. Il decoder non vede mai i dati di un altro tenant, per costruzione.
Solo locale. Il passo di richiamo gira sul tuo hardware, nella tua installazione. Nessun componente cloud, nessuna ricerca esterna, nessun dato che lascia la tua rete.

Il modelloconsulta la tua memoria.