Retrieval avanzato (anteprima)

Richiamo più rapido.
Memoria più piccola.

In 5.0 vengono rilasciate due funzionalità in anteprima come estensioni opt-in del sottosistema di memoria. Coprono il caso in cui il percorso standard delle basi di conoscenza funziona già bene e vuoi spingerti oltre sulla latenza in scala, sull'ingombro di archiviazione, oppure sull'instradare la domanda giusta al modello giusto con meno tempo LLM.


Memoria compressa

Il percorso Modern Hopfield.

Lo strato di matrix-memory che sostiene le basi di conoscenza di Eldric è un meccanismo di richiamo associativo a passo singolo. È un design collaudato — ogni retrieval è un singolo prodotto matrice-vettore contro l'insieme di pattern memorizzati. L'anteprima aggiunge una variante compressa dello stesso meccanismo: memorizza i pattern in forma più piccola, recupera più velocemente, perde un po' di accuratezza sulle query più difficili.

Piena precisione memorizza ogni pattern a piena risoluzione pattern memorizzati più grande · più lento ad alto c comprimi Compressa rappresentazione low-rank + quantizzata pattern memorizzati più piccola · più veloce ad alto c

Cosa ottieni

Il compromesso

Una piccola perdita di accuratezza sulle query più difficili — tipicamente 1–3 % sui benchmark usati dalla comunità di ricerca per queste tecniche. Per la maggior parte dei workload dei clienti (cercare in una base di conoscenza curata, recuperare alcuni candidati buoni da dare in lettura all'LLM) la perdita è invisibile. Per workload che ruotano sul match esatto di pattern rari, esegui una verifica contro la matrice a piena precisione.

Come abilitarla

Console di amministrazione → Basi di conoscenza → scegli una base → Retrieval avanzato → abilita memoria compressa. La conversione gira in background; il file originale a piena precisione viene preservato finché non confermi che la versione compressa funziona per te. Tier Standard e superiori. Opt-in per singola base di conoscenza, mai attivo per impostazione predefinita.


Router distillato

Un classificatore più piccolo davanti all'LLM.

Il router attualmente usa un piccolo LLM per classificare intento, tema e backend di destinazione su ogni richiesta. Il router distillato (anteprima) lo sostituisce con un classificatore neurale a passaggio singolo addestrato dalle decisioni passate dell'LLM stesso sul tuo cluster. Risultato: minore latenza sulla decisione di instradamento, meno tempo GPU consumato sulla scelta invece che sulla risposta, e un modello di routing che puoi addestrare sui tuoi pattern di traffico.

Cosa ottieni

Il compromesso

Un classificatore piccolo non ragiona sui casi limite ambigui come fa un piccolo LLM. Il router ricade sul percorso LLM per query in cui il classificatore riporta bassa confidenza; il cliente paga la latenza solo sulla frazione genuinamente ambigua.

Stato

Anteprima. Disponibile come opt-in per i tier Professional ed Enterprise. L'attivazione è guidata dall'amministratore; il passo di distillazione usa i tuoi dati di routing accumulati e gira come un job di training una tantum prima che il classificatore sostituisca il percorso LLM-routing.


Ambito onesto

Cosa NON sono.


Avanti.

Per il modello di memoria complessivo della piattaforma, leggi come funziona. Per la postura di data-residency, leggi i tuoi dati. Per l'ambito di 5.0 GA: note di rilascio. Domande specifiche: office@eldric.ai.