Clustering & alta disponibilità

Infrastruttura AI resiliente
per deployment seri.

I cluster Eldric sopravvivono ai guasti dei nodi, alle partizioni di rete e alla perdita di interi datacenter — in modo automatico. Dal portatile di un singolo sviluppatore a una federazione di 50+ nodi che spazia su più continenti: stesso software, stessa grammatica di configurazione, stesso pacchetto di installazione.

Scarica per il tuo team Vedi la tabella delle scale

Topologia del cluster Failover automatico Federazione multi-sito Discovery intelligente Scale di deployment Quando serve Roadmap onesta

§1 — Come Eldric fa cluster

Un solo pacchetto. Cinque posture.

Disponibile oggi

Lo stesso RPM eldric-aios gira su un Raspberry Pi sotto il monitor di uno sviluppatore e su un cluster bare-metal di 50 nodi dietro la rete di un ospedale. Il ruolo che ogni nodo gioca è configurazione, non codice. Inizi con uno. Cresci a tre il giorno in cui l'uptime inizia a contare. Federi tra siti il giorno in cui apri un secondo ufficio.

Nessun re-platforming. Ogni postura di cluster qui sotto è lo stesso binario con un config.yaml diverso — il percorso di upgrade da "prova su singolo portatile" a "enterprise multi-regione" è una questione di nodi che aggiungi, non di software a cui devi migrare.

Fig. 01 Eldric scala dal portatile di un singolo sviluppatore a un cluster enterprise di 50+ nodi. Lo stesso software viene rilasciato in tutte e cinque le posture — il numero dei nodi è una scelta di configurazione, non un tier di prodotto. I nodi eleggibili a leader sono marcati in terracotta; i worker in blu navy.

§2 — Failover automatico

Quando un nodo cade, il cluster lo raccoglie.

Production-grade · due gate

Consenso Raft multi-controller di livello produzione. Ogni nodo in un cluster Eldric mantiene un heartbeat verso i suoi peer. Quando un leader scompare — il sistema muore, la rete cade, un amministratore stacca il cavo sbagliato — i nodi rimanenti se ne accorgono in pochi secondi ed eleggono un nuovo leader. Il cluster si forma, replica, fa failover e si ripristina dopo un crash sotto test live. Il traffico di inferenza viene reinstradato automaticamente. Le sessioni di chat aperte continuano dalla richiesta successiva.

Ambito onesto. La storia del consenso è reale e validata end-to-end in condizioni production-like. La storia completa di bootstrap HA per la produzione ha ancora due pezzi in arrivo con prossime patch 5.0.x: la replica dell'identità tra controller (così un controller recuperato riprende lo stato di identità del cluster) e un endpoint client leader-aware (così i client raggiungono sempre il leader corrente senza riconfigurazione manuale). Entrambi sono progettati e dispatchati; entrambi chiudono in modo pulito.

Fig. 02 Sequenza di failover: un quorum sano da tre nodi rileva la perdita del leader in all'incirca cinque secondi ed elegge un sostituto prima che la maggior parte delle richieste in volo vada in timeout. L'elezione in stile Raft garantisce esattamente un solo leader alla volta, anche durante le partizioni di rete.

Un cluster che ha bisogno di un umano nel loop per ripristinarsi non è un cluster — è un single point of failure con qualche hop in più.

§3 — Federazione multi-sito

Un solo cervello. Molti corpi.

Più avanti in 5.0.x

Un'impresa raramente vive in un solo edificio. La federazione permette a ciascun sito di eseguire un proprio cluster Eldric autonomo — mantenendo locale il traffico ad alto consumo di banda — mentre uno strato di federazione tiene sincronizzati directory, basi di conoscenza e policy di accesso. Una filiale resta utile anche quando il link WAN cade. La sede centrale tiene una replica calda di ogni filiale per il disaster recovery regionale.

Perché federazione, non un solo grande cluster? Il consenso sotto il millisecondo non sopravvive a un round-trip transatlantico. La federazione accetta quella fisica e ci lavora insieme — cluster locali per i percorsi caldi, sync federato per consistenza eventuale.

Fig. 03 Un deployment Eldric federato: una sede centrale primaria a Vienna, tre filiali regionali e una replica calda di disaster recovery. Ogni sito mantiene il proprio cluster autonomo; lo strato di federazione tiene sincronizzati directory, corpora RAG e policy.

Autonomia di filiale

Ogni sito resta utile quando cade il WAN.

Un cluster federato non si trasforma in thin client. La filiale mantiene i suoi modelli locali, il suo corpus RAG locale e i suoi utenti locali — e riconcilia lo stato con il resto della federazione quando il link torna.

Sovranità regionale

I dati restano dove la legge dice che devono stare.

Le policy per tenant ti permettono di marcare le basi di conoscenza come solo-UE, solo-USA o singolo-sito. Lo strato di federazione si rifiuta di replicare qualsiasi cosa taggata fuori dalle sue regioni consentite — una regola applicata dal cluster, non dall'operatore.

Disaster recovery

Perdi un edificio, mantieni il lavoro.

La replica DR calda riceve un flusso continuo di aggiornamenti di federazione. Se il datacenter primario è offline — incendio, alluvione, taglio di fibra — la replica è già aggiornata a meno di pochi minuti. Il cutover è una decisione dell'operatore, non un progetto di ripristino.

§4 — Discovery intelligente

I nodi si trovano senza un foglio di calcolo.

Livelli 1+2 oggi

La parte più difficile di gestire un sistema distribuito di solito non è il consenso — è tenere traccia di quale macchina sta a quale indirizzo. Eldric impila quattro livelli di discovery in modo che l'operatore non mantenga una lista. Su una LAN d'ufficio tranquilla, i nodi si trovano in pochi secondi. Su una WAN ramificata, una piccola manciata di "admin hint" innesca la catena.

Oggi. mDNS più il protocollo gossip interno al cluster coprono qualsiasi deployment a sito singolo. I due livelli rimanenti — DNS-SD e admin hint WAN — arrivano con la federazione multi-sito più avanti in 5.0.x.

Fig. 04 Quattro livelli di discovery, tentati in ordine. Su una LAN singola, il livello uno è di solito sufficiente; il livello due porta tutto una volta che il cluster è caldo. I livelli tre e quattro arrivano con la federazione multi-sito.

§5 — Scale di deployment

Cosa si adatta a ciascuna postura.

Una mappa a colpo d'occhio dal numero di nodi a ciò che ti restituisce. Ogni riga è lo stesso pacchetto Eldric — le differenze stanno in quanti nodi gli dai e quale ruolo assegni a ciascuno.

Nodi	Topologia	Failover	Caso d'uso tipico
1	host singolo	nessuno (solo riavvio)	Portatile dello sviluppatore, prova in un singolo team, proof-of-concept su Raspberry Pi. Stesso pacchetto — solo uno.
2–3	cluster a quorum	automatico	Piccolo ufficio, deployment sempre attivo. Tre nodi è il punto dolce — sopravvive alla perdita di un singolo nodo qualsiasi con un voto di maggioranza pulito.
4–10	leader + worker	automatico	Reparto o azienda di medie dimensioni. Una manciata di nodi eleggibili a leader; il resto sono worker dedicati che eseguono modelli, indici RAG o agent specialisti.
10–50	mesh multi-ruolo	automatico + zonale	Enterprise su un singolo sito. Worker distribuiti su più rack o zone di disponibilità così la perdita a livello di rack è sopravvivibile. Il leader sta in una zona diversa.
50+	mesh federato	automatico + cross-sito	Multi-sito, multi-regione. Cluster per sito federati sopra il WAN; repliche DR calde in un'altra regione; regole di data-residency per tenant applicate allo strato di federazione.

§6 — Quando ti serve

Cinque motivi per fare cluster di Eldric.

Un'installazione a nodo singolo è genuinamente production-grade per molti team. Il clustering si ripaga in cinque situazioni specifiche.

Uptime

AI critica per l'uptime. Copilot interni da cui dipende l'intera azienda. Chat customer-facing integrata in un prodotto. Workflow dove "l'AI è giù" significa che gli umani non possono lavorare. Tre nodi ti danno tolleranza alla perdita di un singolo nodo; dieci ti danno tolleranza alla perdita di un rack.

Residenza

Data residency regolamentata. Normative UE che vietano il passaggio di confine a dati medici o finanziari. Carichi di sicurezza nazionale che non possono toccare un cloud pubblico. La federazione ti permette di tenere ogni byte dentro la giurisdizione cui appartiene, con la policy applicata dal cluster invece che dalla procedura.

Geografia

Distribuzione geografica. Filiali in fusi orari diversi, un'area vendite in un altro paese, uno stabilimento produttivo all'edge della rete. I cluster locali tengono bassa la latenza; la federazione tiene tutti che lavorano dallo stesso playbook.

Recovery

Disaster recovery. Se il datacenter primario brucia, quando riprende il lavoro? Con una replica DR calda, la risposta è "il minuto dopo, una volta che un operatore conferma il cutover". Senza, la risposta comporta il ripristino dai backup.

Sovranità

Deployment sovrano. Reti air-gapped. Cloud governativi. On-premise per mandato. I cluster Eldric non dipendono da nessun servizio esterno per eleggere un leader, trovare un peer o validare una licenza — l'intero ciclo si chiude dentro il tuo perimetro.

§7 — Roadmap onesta

Oggi, in volo, in arrivo.

Un ledger a tre colonne di dove ciascun pezzo della storia di resilienza è davvero. Tutto ciò che non è nella colonna più a sinistra non è ancora in esecuzione in produzione — non fingeremo il contrario.

Oggi ●

5.0 — in spedizione

Installazione a nodo singolo su qualunque hardware
Worker in cluster (inferenza, RAG, agent)
Router e gateway edge
Consenso Raft multi-controller + elezione automatica del leader
Failover automatico con rilevamento sotto i 10 secondi
Cluster crash-recovery sotto test live
Mesh di gossip per discovery interna al cluster
mDNS / Bonjour per discovery sulla rete locale
Upgrade in rolling su tutto il cluster
Isolamento dati per tenant
Ledger di audit a catena di hash
Backup, restore e verifica dello stato del cluster

In volo ●

Prossime patch 5.0.x — progettati & dispatchati

Replica dell'identità tra controller (bootstrap HA completo per produzione)
Endpoint client leader-aware (i client raggiungono sempre il leader corrente)
Consapevolezza zonale (hint di posizionamento rack / AZ)
Replica continua degli indici vettoriali
Replica continua della matrix memory
Gossip cifrato con mTLS tra i nodi
Backend di inferenza xLSTM nativo (anteprima)

In arrivo ●

Più avanti in 5.0.x — sulla roadmap

Federazione multi-sito sopra il WAN
Repliche calde di disaster recovery
Policy di residenza dati regionale per tenant
Discovery DNS-SD per cluster cross-subnet
GUI amministrativa per gli admin hint WAN
Shaping geografico del carico (routing latency-aware)
Continuità di sessione cross-sito per la chat

Le scadenze della roadmap cambiano. Tutto ciò che è nelle due colonne a destra è genuinamente pianificato e a budget — ma non promettiamo un trimestre di calendario per software che non abbiamo finito. La cosa che promettiamo è che questa tabella ti dirà la verità.

Infrastruttura AI resilienteper deployment seri.