Funzionalità — Eldric, il sistema operativo IA on-premise

Piattaforma core

Il kernel distribuito.

Runtime in stile microkernel

Un kernel C++ ospita moduli indipendenti (edge, controller, router, data, agent, media, comm, science, training, inference, native inference, xLSTM, IoT, swarm, NOVA) — ciascuno sulla sua porta.

Topology push

Il controller invia la topologia corrente del cluster a ogni heartbeat. I worker scoprono automaticamente gli URL di swarm, data, peer, router, agent e media worker.

Tenant guard

Hook header-only del kernel che restituisce 403 sui tentativi cross-tenant su data, storage, vector, memory, agent, comm, swarm e percorsi di tenant.

Inferenza

Oltre trenta backend LLM.

Strato di backend unificato

Undici tipi di backend: Ollama, vLLM, TGI, llama.cpp, MLX, NVIDIA Triton, TensorFlow Serving, TorchServe, ONNX, OpenAI-compatible, pass-through Eldric Cluster.

Aggregazione cloud

Un endpoint federa OpenAI, Anthropic, xAI/Grok, Together, Groq, DeepSeek, Mistral, Cohere, Fireworks, Perplexity. Routing per priorità con fallback.

Inferenza nativa

Inferenced carica modelli GGUF e xLSTM direttamente tramite llama.cpp integrato — senza Ollama, senza vLLM. Tensor split multi-GPU, speculative decoding, batching continuo.

Routing

Otto strategie, AI-controllato quando vuoi.

Classificazione delle intenzioni

Il router classifica ogni richiesta in 13 intenzioni (Chat, RAG, AgentInvoke, Swarm, MemoryStore/Recall, Data, Science, Media, Comm, Training, IoT, Admin) e la inoltra alla classe di worker giusta.

Rilevamento del tema

Medicina, legale, codice, finanza, scienza, creativo, generale. Ogni tema può portare il suo modello di default e override per regola.

Ensemble

Distribuisci una richiesta a più modelli, poi sintetizza le risposte tramite un modello sintetizzatore designato. Utile per decisioni ad alto rischio.

Dati

Storage, vettori, matrix memory.

Storage multi-tenant

Storage di file per tenant con quote. Protocollo di upload a chunk con chunk da 4 MB e TTL di 24 h sugli upload incompleti.

Vettori / RAG

Backend SQLite, FAISS, ChromaDB o in-memory. Ricerca ibrida BM25 + vettoriale. Chunking automatico in ingestione. Ri-embedding su modifica del documento.

Matrix memory

Memoria associativa ispirata all'architettura mLSTM. Richiamo compresso accanto allo store vettoriale esatto. Formato binario .emm v3 con WAL + checkpoint.

RAG con citazioni

Risposte ancorate, attive di default.

Usare il RAG

Il RAG è attivo di default nella 5.0. Carica PDF, DOCX, codice, CSV, audio, video, stream di sensori. Fai domande ancorate. Leggi i chip di citazione che rimandano ai passaggi sorgente.

Il controller fa routing; il daemon di inferenza nativa fa embedding con un modello GGUF (~80 MB, gira su CPU); il data worker memorizza i chunk accanto ai vettori. Tre processi, tre responsabilità, una sola linea.

Chunking sensibile al contenuto

Dodici strategie di default — semantica per i PDF scientifici, per confine di funzione per il codice, per riga per i CSV, per turno per l'audio, per finestra per gli stream di sensori. Il flusso di upload intelligente suggerisce i parametri; l'operatore conferma.

RAG on demand

Cascata a quattro livelli — pesi appresi ENRN → memoria associativa EMM → RAG → fonti esterne live. Il ciclo di ritenzione trasforma le risposte accettate nel prossimo corpus di addestramento nel tempo.

Classificazione custom

Il classificatore del router arriva con 128 classi integrate. Aggiungi le tue classi di intenzione — addestrate per overlay da esempi etichettati o fallback LLM con la tua tassonomia. Pro+.

Embedding on-prem

Il modello di embedding gira localmente su Inferenced (o su qualunque endpoint /v1/embeddings compatibile OpenAI configurato tramite ELDRIC_EMBED_BACKEND_URL). I documenti non lasciano mai il cluster.

Workflow agentici

Quindici tipi di agente, RAG agentico, workflow.

General, Researcher, Coder, Validator, Planner, Analyst, Explorer, Runner, Searcher, Database, Learner, Network, Spider, Email, Ansible.

RAG agentico (ReAct)

Itera Pensiero → Azione → Osservazione fino a un limite configurabile. Gli strumenti includono ricerca vettoriale, fetch web, lettura file, e qualunque tool registrato nello swarm.

Pattern di orchestrazione

Sequenziale, parallelo, MapReduce, grafo di dipendenze. L'orchestratore sceglie il pattern giusto in base alla forma del workflow.

Generazione dati di training

Percorre una base di conoscenza ed emette JSONL pronto per LoRA — code_qa, chat, alpaca, dpo. Usato per il bootstrap del training del router e degli adattatori di dominio.

Comunicazione & media

Sette protocolli di messaggistica, pipeline voce completa.

Sette protocolli

Email (IMAP/SMTP), SMS (Twilio), WhatsApp (Business API), Signal (E2E), Microsoft Teams, XMPP, VoIP (SIP/RTP). Un unico formato di messaggio unificato.

STT & TTS

Whisper.cpp, OpenAI Whisper, Faster-Whisper per la trascrizione. Piper, ElevenLabs, OpenAI per la sintesi. Le chiamate AI in stile telefonico complete sono in sviluppo; oggi la piattaforma gestisce in modo affidabile dettatura, trascrizione di riunioni e input per l'accessibilità.

RAG multimediale

Contenuti audio e video indicizzati e ricercabili. Usati dal comm worker per il richiamo di voicemail e dalla chat per riferimenti multimediali inline.

Scienza

Registro delle fonti a sedici categorie.

Sedici categorie: papers open access, spazio, fisica delle particelle, genomica, neuroscienze, medicina, chimica, terra, clima, astronomia, archeologia, legale, brevetti, finanziatori, industria, custom.

Registro delle fonti

Una voce per ogni fonte dati. L'admin attiva le fonti; gli utenti vedono solo quelle abilitate. La categoria custom è il punto di ingresso per i plugin — nessuna modifica al codice richiesta.

11 strumenti LLM

Cinque strumenti utente, sei strumenti admin. Filtrati per ruolo. Elenca fonti, richiedi attivazione, dispatch di una query, gestione credenziali, approva / respingi richieste in sospeso.

Pipeline specialistiche

Bioinformatica (BLAST, variant calling), farmaceutica (docking, ADMET, AlphaFold), CRISPR (guide RNA, off-target), LIMS (GLP, 21 CFR Part 11).

Training

Sei backend, otto metodi, federato.

Backend

Unsloth (CUDA, 2× LoRA), Axolotl (YAML), TRL (RLHF/DPO), DeepSpeed (multi-GPU), MLX (Apple Silicon), llama.cpp (GGUF). Il training xLSTM gira tramite il daemon xLSTM (qui sotto).

Metodi

LoRA, QLoRA, SFT, DPO, RLHF, PPO, full fine-tune, distillazione. Più tecniche di ragionamento latente: COCONUT, Quiet-STaR, pause tokens, hidden CoT, DeepSeek DSA.

Federated learning

Training federato multi-round sui nodi worker. Il controller distribuisce cluster://training/federated/{job}/round-N; i worker addestrano localmente; i gradienti si aggregano senza condividere i dati.

Daemon di workload xLSTM

ML strutturato, quattro classi di workload.

Esecuzione di policy

Le policy di controllo ad anello chiuso (LRAM) guidano il controllo real-time su WebSocket, Modbus, OPC-UA e MQTT-Sparkplug-B. Fallback di sicurezza guidato da watchdog quando la policy manca il deadline.

Forecast + encoding

Previsione di serie temporali (TiRex) su finestre di telemetria. Encoding vision-language (ViL) per task di percezione. Entrambi license-gated per workload, risposte di errore strutturate quando manca la capacità.

Retrieval associativo

Backend di retrieval associativo nativo in C++ — latenza al microsecondo su sola CPU. Usato dal router per classificazione veloce e dal data worker per richiamo fuzzy.

Dettagli su xLSTM & trasporti IoT.

IoT & industriale

Consumer + industriale in un solo worker.

IoT consumer

Netatmo (meteo, sicurezza), HomeKit, Matter. Pairing dei dispositivi e lettura/scrittura degli attributi tramite l'API dell'IoT worker.

Protocolli industriali

OPC-UA per PLC, SCADA, DCS. Modbus TCP/RTU per equipaggiamento legacy. MQTT Sparkplug B. Gestione allarmi, storico di serie temporali, analitiche OEE.

Manutenzione predittiva

I valori dei tag live confluiscono nella matrix memory. Un inference worker esegue la rilevazione di anomalie ed emette punteggi di manutenzione.

Client & portabilità

Dove gira Eldric, chi gli parla.

Eldric per iPad

Forma di app universale — NavigationSplitView, composer fluttuante, Apple Pencil + Scribble, ingest in drag-drop, multi-finestra Stage Manager e Split View. Su TestFlight oggi, App Store in arrivo.

Mac, iOS, web, CLI

La GUI Mac nativa gestisce l'auto-update via Sparkle. iOS è nello stesso pacchetto universale di iPad. La chat è integrata nel gateway edge su /chat — nessun client esterno richiesto.

Runtime edge

Eldric su nodo singolo per Raspberry Pi 4, Intel NUC, NVIDIA Jetson. Chat locale, matrix memory locale, store-and-forward quando il cluster centrale è irraggiungibile. RPM minimo ARM64.

Export / import bundle .nexus

Impacchetta matrix memory, documenti vettoriali, basi di conoscenza, classificatori e overlay di identità di una installazione Eldric in un singolo file firmato. Sposta tra installazioni con una fusione pulita.

Packaging cross-distro

RPM firmati per Fedora 42+, Fedora 40, RHEL 9+, Rocky 9, Alma 9, CentOS Stream 9+, ARM64. PKG macOS con auto-update. DEB nativi Ubuntu 24.04 + Debian 12 a breve dopo la GA.

Badge dei fornitori di modelli

Ogni modello nel selettore di chat porta un badge colorato del fornitore — Ollama, Inferenced, OpenAI, Anthropic, xAI, HuggingFace, Groq. Verde per locale al cluster, colori del marchio per le API esterne.

Operazioni di cluster

Cosa serve agli ops.

Upgrade rolling

Drena le richieste in volo, fa snapshot dello stato, installa, verifica SHA-256, riavvia, valida, prosegue. Il master distribuisce ai peer con cluster secret.

PKI & ACME

CA interna più Let's Encrypt via certbot. Genera, distribuisci, ruota. Push a livello di cluster dal master.

Theming per tenant

Ogni tenant ha il suo tema — colori, font, layout della sidebar — più logo opzionale. GET pubblico, PUT admin, sanitizzazione HTML lato server.

Backup & DR

Snapshot di stato del controller, vector storage, matrix memory, configurazioni tenant, licenza, plugin edge. Restore idempotente.

OpenTelemetry

Exporter OTLP-HTTP opt-in per span, contatori, istogrammi. Normalizzazione di percorso a bassa cardinalità.

Webhook

Webhook in uscita con firma HMAC-SHA256 sulla richiesta. Le consegne fallite si disattivano in automatico oltre la soglia.

Marketplace plugin

Sfoglia, installa (verifica SHA-256 + validazione manifest), disinstalla, aggiorna. Servito dal modulo edge.

Distillazione

Distillazione di conoscenza Modello → EMM. I chunk sorgente diventano coppie Q+A tramite un LLM, entrambi i lati embedded, la coppia scritta nella matrix memory come associazione.

Dream engine

Estrae sessioni completate, ne ricava i temi via LLM, li integra nella matrix memory. Cadenze: manuale, oraria, notturna, continua, on-idle.

Più upload a chunk, discovery mDNS, tenant guard, migrazione 4.x → 5.0 e store di artefatti. Le note di rilascio percorrono l'elenco formale; il riferimento API documenta ogni endpoint dietro queste funzionalità.

Cosa rilasciadavvero Eldric 5.0.