In 5.0 vengono rilasciate due funzionalità in anteprima come estensioni opt-in del sottosistema di memoria. Coprono il caso in cui il percorso standard delle basi di conoscenza funziona già bene e vuoi spingerti oltre sulla latenza in scala, sull'ingombro di archiviazione, oppure sull'instradare la domanda giusta al modello giusto con meno tempo LLM.
Lo strato di matrix-memory che sostiene le basi di conoscenza di Eldric è un meccanismo di richiamo associativo a passo singolo. È un design collaudato — ogni retrieval è un singolo prodotto matrice-vettore contro l'insieme di pattern memorizzati. L'anteprima aggiunge una variante compressa dello stesso meccanismo: memorizza i pattern in forma più piccola, recupera più velocemente, perde un po' di accuratezza sulle query più difficili.
Una piccola perdita di accuratezza sulle query più difficili — tipicamente 1–3 % sui benchmark usati dalla comunità di ricerca per queste tecniche. Per la maggior parte dei workload dei clienti (cercare in una base di conoscenza curata, recuperare alcuni candidati buoni da dare in lettura all'LLM) la perdita è invisibile. Per workload che ruotano sul match esatto di pattern rari, esegui una verifica contro la matrice a piena precisione.
Console di amministrazione → Basi di conoscenza → scegli una base → Retrieval avanzato → abilita memoria compressa. La conversione gira in background; il file originale a piena precisione viene preservato finché non confermi che la versione compressa funziona per te. Tier Standard e superiori. Opt-in per singola base di conoscenza, mai attivo per impostazione predefinita.
Il router attualmente usa un piccolo LLM per classificare intento, tema e backend di destinazione su ogni richiesta. Il router distillato (anteprima) lo sostituisce con un classificatore neurale a passaggio singolo addestrato dalle decisioni passate dell'LLM stesso sul tuo cluster. Risultato: minore latenza sulla decisione di instradamento, meno tempo GPU consumato sulla scelta invece che sulla risposta, e un modello di routing che puoi addestrare sui tuoi pattern di traffico.
Un classificatore piccolo non ragiona sui casi limite ambigui come fa un piccolo LLM. Il router ricade sul percorso LLM per query in cui il classificatore riporta bassa confidenza; il cliente paga la latenza solo sulla frazione genuinamente ambigua.
Anteprima. Disponibile come opt-in per i tier Professional ed Enterprise. L'attivazione è guidata dall'amministratore; il passo di distillazione usa i tuoi dati di routing accumulati e gira come un job di training una tantum prima che il classificatore sostituisca il percorso LLM-routing.
Per il modello di memoria complessivo della piattaforma, leggi come funziona. Per la postura di data-residency, leggi i tuoi dati. Per l'ambito di 5.0 GA: note di rilascio. Domande specifiche: office@eldric.ai.