Clustering & alta disponibilità

Infrastruttura AI resiliente
per deployment seri.

I cluster Eldric sopravvivono ai guasti dei nodi, alle partizioni di rete e alla perdita di interi datacenter — in modo automatico. Dal portatile di un singolo sviluppatore a una federazione di 50+ nodi che spazia su più continenti: stesso software, stessa grammatica di configurazione, stesso pacchetto di installazione.

§1 — Come Eldric fa cluster

Un solo pacchetto. Cinque posture.

Disponibile oggi

Lo stesso RPM eldric-aios gira su un Raspberry Pi sotto il monitor di uno sviluppatore e su un cluster bare-metal di 50 nodi dietro la rete di un ospedale. Il ruolo che ogni nodo gioca è configurazione, non codice. Inizi con uno. Cresci a tre il giorno in cui l'uptime inizia a contare. Federi tra siti il giorno in cui apri un secondo ufficio.

Nessun re-platforming. Ogni postura di cluster qui sotto è lo stesso binario con un config.yaml diverso — il percorso di upgrade da "prova su singolo portatile" a "enterprise multi-regione" è una questione di nodi che aggiungi, non di software a cui devi migrare.
Evoluzione della topologia Eldric da uno a cinquanta nodi singolo 1 nodo eldric Portatile dev · Pi 4 · laboratorio di filiale quorum 3 nodi leader Cluster d'ufficio · sempre attivo scalato 10 nodi Reparto · multi-modello enterprise 50+ nodi Multi-sito · multi-regione cresce sul posto — nessun re-platforming
Fig. 01 Eldric scala dal portatile di un singolo sviluppatore a un cluster enterprise di 50+ nodi. Lo stesso software viene rilasciato in tutte e cinque le posture — il numero dei nodi è una scelta di configurazione, non un tier di prodotto. I nodi eleggibili a leader sono marcati in terracotta; i worker in blu navy.

§2 — Failover automatico

Quando un nodo cade, il cluster lo raccoglie.

Production-grade · due gate

Consenso Raft multi-controller di livello produzione. Ogni nodo in un cluster Eldric mantiene un heartbeat verso i suoi peer. Quando un leader scompare — il sistema muore, la rete cade, un amministratore stacca il cavo sbagliato — i nodi rimanenti se ne accorgono in pochi secondi ed eleggono un nuovo leader. Il cluster si forma, replica, fa failover e si ripristina dopo un crash sotto test live. Il traffico di inferenza viene reinstradato automaticamente. Le sessioni di chat aperte continuano dalla richiesta successiva.

Ambito onesto. La storia del consenso è reale e validata end-to-end in condizioni production-like. La storia completa di bootstrap HA per la produzione ha ancora due pezzi in arrivo con prossime patch 5.0.x: la replica dell'identità tra controller (così un controller recuperato riprende lo stato di identità del cluster) e un endpoint client leader-aware (così i client raggiungono sempre il leader corrente senza riconfigurazione manuale). Entrambi sono progettati e dispatchati; entrambi chiudono in modo pulito.
Sequenza di failover — sano, guasto del leader, rilevamento, nuovo leader t = 0 Sano Heartbeat ogni 1s t ≈ 1s Il leader cade Heartbeat mancato t ≈ 5s Rilevamento voto voto Elezione in corso t ≈ 6s Nuovo leader leader Traffico ripreso
Fig. 02 Sequenza di failover: un quorum sano da tre nodi rileva la perdita del leader in all'incirca cinque secondi ed elegge un sostituto prima che la maggior parte delle richieste in volo vada in timeout. L'elezione in stile Raft garantisce esattamente un solo leader alla volta, anche durante le partizioni di rete.

Un cluster che ha bisogno di un umano nel loop per ripristinarsi non è un cluster — è un single point of failure con qualche hop in più.


§3 — Federazione multi-sito

Un solo cervello. Molti corpi.

Più avanti in 5.0.x

Un'impresa raramente vive in un solo edificio. La federazione permette a ciascun sito di eseguire un proprio cluster Eldric autonomo — mantenendo locale il traffico ad alto consumo di banda — mentre uno strato di federazione tiene sincronizzati directory, basi di conoscenza e policy di accesso. Una filiale resta utile anche quando il link WAN cade. La sede centrale tiene una replica calda di ogni filiale per il disaster recovery regionale.

Perché federazione, non un solo grande cluster? Il consenso sotto il millisecondo non sopravvive a un round-trip transatlantico. La federazione accetta quella fisica e ci lavora insieme — cluster locali per i percorsi caldi, sync federato per consistenza eventuale.
Federazione multi-sito: sede centrale, tre filiali, backup di disaster recovery link di federazione link di federazione sede centrale Vienna Cluster da 10 nodi · primario filiale Londra 3 nodi · autonoma filiale Singapore 3 nodi · autonoma Francoforte · filiale Replica DR · calda sync di federazione
Fig. 03 Un deployment Eldric federato: una sede centrale primaria a Vienna, tre filiali regionali e una replica calda di disaster recovery. Ogni sito mantiene il proprio cluster autonomo; lo strato di federazione tiene sincronizzati directory, corpora RAG e policy.

Autonomia di filiale

Ogni sito resta utile quando cade il WAN.

Un cluster federato non si trasforma in thin client. La filiale mantiene i suoi modelli locali, il suo corpus RAG locale e i suoi utenti locali — e riconcilia lo stato con il resto della federazione quando il link torna.

Sovranità regionale

I dati restano dove la legge dice che devono stare.

Le policy per tenant ti permettono di marcare le basi di conoscenza come solo-UE, solo-USA o singolo-sito. Lo strato di federazione si rifiuta di replicare qualsiasi cosa taggata fuori dalle sue regioni consentite — una regola applicata dal cluster, non dall'operatore.

Disaster recovery

Perdi un edificio, mantieni il lavoro.

La replica DR calda riceve un flusso continuo di aggiornamenti di federazione. Se il datacenter primario è offline — incendio, alluvione, taglio di fibra — la replica è già aggiornata a meno di pochi minuti. Il cutover è una decisione dell'operatore, non un progetto di ripristino.


§4 — Discovery intelligente

I nodi si trovano senza un foglio di calcolo.

Livelli 1+2 oggi

La parte più difficile di gestire un sistema distribuito di solito non è il consenso — è tenere traccia di quale macchina sta a quale indirizzo. Eldric impila quattro livelli di discovery in modo che l'operatore non mantenga una lista. Su una LAN d'ufficio tranquilla, i nodi si trovano in pochi secondi. Su una WAN ramificata, una piccola manciata di "admin hint" innesca la catena.

Oggi. mDNS più il protocollo gossip interno al cluster coprono qualsiasi deployment a sito singolo. I due livelli rimanenti — DNS-SD e admin hint WAN — arrivano con la federazione multi-sito più avanti in 5.0.x.
Stack di discovery a quattro livelli — mDNS, gossip, DNS-SD, admin hint Livello 1 · mDNS / Bonjour Stessa sottorete, zero configurazione — il caso della LAN d'ufficio. disponibile oggi Livello 2 · gossip interno al cluster Ogni nuovo nodo impara il resto del cluster dal primo peer che incontra. disponibile oggi Livello 3 · DNS-SD Quando il cluster attraversa più sottoreti, un singolo record DNS pubblicizza ogni sito alla federazione. 5.0.x Livello 4 · admin hint (WAN) Per reti air-gapped o ristrette, un piccolo set di indirizzi peer statici fa da bootstrap al resto. 5.0.x
Fig. 04 Quattro livelli di discovery, tentati in ordine. Su una LAN singola, il livello uno è di solito sufficiente; il livello due porta tutto una volta che il cluster è caldo. I livelli tre e quattro arrivano con la federazione multi-sito.

§5 — Scale di deployment

Cosa si adatta a ciascuna postura.

Una mappa a colpo d'occhio dal numero di nodi a ciò che ti restituisce. Ogni riga è lo stesso pacchetto Eldric — le differenze stanno in quanti nodi gli dai e quale ruolo assegni a ciascuno.

Nodi Topologia Failover Caso d'uso tipico
1 host singolo nessuno (solo riavvio) Portatile dello sviluppatore, prova in un singolo team, proof-of-concept su Raspberry Pi. Stesso pacchetto — solo uno.
2–3 cluster a quorum automatico Piccolo ufficio, deployment sempre attivo. Tre nodi è il punto dolce — sopravvive alla perdita di un singolo nodo qualsiasi con un voto di maggioranza pulito.
4–10 leader + worker automatico Reparto o azienda di medie dimensioni. Una manciata di nodi eleggibili a leader; il resto sono worker dedicati che eseguono modelli, indici RAG o agent specialisti.
10–50 mesh multi-ruolo automatico + zonale Enterprise su un singolo sito. Worker distribuiti su più rack o zone di disponibilità così la perdita a livello di rack è sopravvivibile. Il leader sta in una zona diversa.
50+ mesh federato automatico + cross-sito Multi-sito, multi-regione. Cluster per sito federati sopra il WAN; repliche DR calde in un'altra regione; regole di data-residency per tenant applicate allo strato di federazione.

§6 — Quando ti serve

Cinque motivi per fare cluster di Eldric.

Un'installazione a nodo singolo è genuinamente production-grade per molti team. Il clustering si ripaga in cinque situazioni specifiche.

Uptime
AI critica per l'uptime. Copilot interni da cui dipende l'intera azienda. Chat customer-facing integrata in un prodotto. Workflow dove "l'AI è giù" significa che gli umani non possono lavorare. Tre nodi ti danno tolleranza alla perdita di un singolo nodo; dieci ti danno tolleranza alla perdita di un rack.
Residenza
Data residency regolamentata. Normative UE che vietano il passaggio di confine a dati medici o finanziari. Carichi di sicurezza nazionale che non possono toccare un cloud pubblico. La federazione ti permette di tenere ogni byte dentro la giurisdizione cui appartiene, con la policy applicata dal cluster invece che dalla procedura.
Geografia
Distribuzione geografica. Filiali in fusi orari diversi, un'area vendite in un altro paese, uno stabilimento produttivo all'edge della rete. I cluster locali tengono bassa la latenza; la federazione tiene tutti che lavorano dallo stesso playbook.
Recovery
Disaster recovery. Se il datacenter primario brucia, quando riprende il lavoro? Con una replica DR calda, la risposta è "il minuto dopo, una volta che un operatore conferma il cutover". Senza, la risposta comporta il ripristino dai backup.
Sovranità
Deployment sovrano. Reti air-gapped. Cloud governativi. On-premise per mandato. I cluster Eldric non dipendono da nessun servizio esterno per eleggere un leader, trovare un peer o validare una licenza — l'intero ciclo si chiude dentro il tuo perimetro.

§7 — Roadmap onesta

Oggi, in volo, in arrivo.

Un ledger a tre colonne di dove ciascun pezzo della storia di resilienza è davvero. Tutto ciò che non è nella colonna più a sinistra non è ancora in esecuzione in produzione — non fingeremo il contrario.

Oggi

5.0 — in spedizione

  • Installazione a nodo singolo su qualunque hardware
  • Worker in cluster (inferenza, RAG, agent)
  • Router e gateway edge
  • Consenso Raft multi-controller + elezione automatica del leader
  • Failover automatico con rilevamento sotto i 10 secondi
  • Cluster crash-recovery sotto test live
  • Mesh di gossip per discovery interna al cluster
  • mDNS / Bonjour per discovery sulla rete locale
  • Upgrade in rolling su tutto il cluster
  • Isolamento dati per tenant
  • Ledger di audit a catena di hash
  • Backup, restore e verifica dello stato del cluster

In volo

Prossime patch 5.0.x — progettati & dispatchati

  • Replica dell'identità tra controller (bootstrap HA completo per produzione)
  • Endpoint client leader-aware (i client raggiungono sempre il leader corrente)
  • Consapevolezza zonale (hint di posizionamento rack / AZ)
  • Replica continua degli indici vettoriali
  • Replica continua della matrix memory
  • Gossip cifrato con mTLS tra i nodi
  • Backend di inferenza xLSTM nativo (anteprima)

In arrivo

Più avanti in 5.0.x — sulla roadmap

  • Federazione multi-sito sopra il WAN
  • Repliche calde di disaster recovery
  • Policy di residenza dati regionale per tenant
  • Discovery DNS-SD per cluster cross-subnet
  • GUI amministrativa per gli admin hint WAN
  • Shaping geografico del carico (routing latency-aware)
  • Continuità di sessione cross-sito per la chat

Le scadenze della roadmap cambiano. Tutto ciò che è nelle due colonne a destra è genuinamente pianificato e a budget — ma non promettiamo un trimestre di calendario per software che non abbiamo finito. La cosa che promettiamo è che questa tabella ti dirà la verità.


Inizia subito

Prova un cluster su ciò che hai già.

Un cluster a tre nodi gira comodamente su tre box Linux commodity. Un deployment federato multi-sito gira su qualunque cosa l'IT abbia già in casa. Il download è lo stesso; cambia la configurazione.