Retrieval avanzato (anteprima)

Richiamo più rapido.
Memoria più piccola.

In 5.0 vengono rilasciate due funzionalità in anteprima come estensioni opt-in del sottosistema di memoria. Coprono il caso in cui il percorso standard delle basi di conoscenza funziona già bene e vuoi spingerti oltre sulla latenza in scala, sull'ingombro di archiviazione, oppure sull'instradare la domanda giusta al modello giusto con meno tempo LLM.

Memoria compressa

Il percorso Modern Hopfield.

Lo strato di matrix-memory che sostiene le basi di conoscenza di Eldric è un meccanismo di richiamo associativo a passo singolo. È un design collaudato — ogni retrieval è un singolo prodotto matrice-vettore contro l'insieme di pattern memorizzati. L'anteprima aggiunge una variante compressa dello stesso meccanismo: memorizza i pattern in forma più piccola, recupera più velocemente, perde un po' di accuratezza sulle query più difficili.

Cosa ottieni

File .emm più piccoli su disco — significativo per tenant con milioni di pattern memorizzati.
Richiamo più veloce in alta concorrenza — sotto il millisecondo sul tier caldo; fino a diverse volte più veloce quando molte query parallele colpiscono la stessa base di conoscenza.
Retrieval a due livelli disponibile — mantieni la matrice a piena precisione per l'accuratezza d'archivio ed esegui la variante compressa come tier caldo davanti a essa.

Il compromesso

Una piccola perdita di accuratezza sulle query più difficili — tipicamente 1–3 % sui benchmark usati dalla comunità di ricerca per queste tecniche. Per la maggior parte dei workload dei clienti (cercare in una base di conoscenza curata, recuperare alcuni candidati buoni da dare in lettura all'LLM) la perdita è invisibile. Per workload che ruotano sul match esatto di pattern rari, esegui una verifica contro la matrice a piena precisione.

Come abilitarla

Console di amministrazione → Basi di conoscenza → scegli una base → Retrieval avanzato → abilita memoria compressa. La conversione gira in background; il file originale a piena precisione viene preservato finché non confermi che la versione compressa funziona per te. Tier Standard e superiori. Opt-in per singola base di conoscenza, mai attivo per impostazione predefinita.

Router distillato

Un classificatore più piccolo davanti all'LLM.

Il router attualmente usa un piccolo LLM per classificare intento, tema e backend di destinazione su ogni richiesta. Il router distillato (anteprima) lo sostituisce con un classificatore neurale a passaggio singolo addestrato dalle decisioni passate dell'LLM stesso sul tuo cluster. Risultato: minore latenza sulla decisione di instradamento, meno tempo GPU consumato sulla scelta invece che sulla risposta, e un modello di routing che puoi addestrare sui tuoi pattern di traffico.

Cosa ottieni

Minore latenza del router — tipicamente alcuni millisecondi contro le decine-centinaia di millisecondi dell'LLM.
Libera l'LLM per il lavoro vero invece che per la classificazione di routing.
Addestrato sul tuo traffico — il passo di distillazione usa le decisioni di routing effettive del tuo cluster come dati di training, quindi il classificatore corrisponde ai tuoi pattern, non a una baseline generica.

Il compromesso

Un classificatore piccolo non ragiona sui casi limite ambigui come fa un piccolo LLM. Il router ricade sul percorso LLM per query in cui il classificatore riporta bassa confidenza; il cliente paga la latenza solo sulla frazione genuinamente ambigua.

Stato

Anteprima. Disponibile come opt-in per i tier Professional ed Enterprise. L'attivazione è guidata dall'amministratore; il passo di distillazione usa i tuoi dati di routing accumulati e gira come un job di training una tantum prima che il classificatore sostituisca il percorso LLM-routing.

Ambito onesto

Cosa NON sono.

Non attive di default. Il percorso standard delle basi di conoscenza resta quello predefinito per ogni tenant.
Non sostituiscono la matrice a piena precisione. La versione compressa sta accanto al percorso completo; i clienti fanno opt-in per ciascuna base di conoscenza.
Non hanno qualità da 5.0-GA. Entrambe vengono rilasciate come anteprima; il marker di qualità resta "anteprima" per la linea 5.0. Lo status production-grade arriva con prossime patch 5.0.x dopo una sperimentazione più ampia con i clienti.
Training solo locale. Sia il passo di compressione sia la distillazione del router girano sul tuo hardware. Eldric non inoltra i tuoi job di training a nessun servizio esterno.

Richiamo più rapido.Memoria più piccola.

Il percorso Modern Hopfield.

Cosa ottieni

Il compromesso

Come abilitarla

Un classificatore più piccolo davanti all'LLM.

Cosa ottieni

Il compromesso

Stato

Cosa NON sono.

Avanti.

Richiamo più rapido.
Memoria più piccola.