Clustering & Hochverfügbarkeit

Belastbare KI-Infrastruktur
für den ernsthaften Einsatz.

Eldric-Cluster überstehen Knotenausfälle, Netzwerk-Partitionen und den Verlust ganzer Rechenzentren — automatisch. Vom Notebook einer einzelnen Entwicklerin bis zur Föderation aus über 50 Knoten über mehrere Kontinente: dieselbe Software, dieselbe Konfigurations-Grammatik, dasselbe Installations-Paket.

§1 — Wie Eldric clustert

Ein Paket. Fünf Ausbaustufen.

Verfügbar

Dasselbe eldric-aios-RPM läuft auf einem Raspberry Pi unter dem Monitor einer Entwicklerin ebenso wie auf einem Cluster aus 50 Bare-Metal-Knoten hinter dem Netz eines Krankenhauses. Welche Rolle jeder Knoten übernimmt, ist Konfiguration, nicht Code. Beginnen Sie mit einem. Wachsen Sie auf drei, sobald Verfügbarkeit zählt. Föderieren Sie über Standorte, sobald Sie ein zweites Büro eröffnen.

Kein Plattform-Wechsel. Jede Cluster-Stufe unten ist dasselbe Binary mit einer anderen config.yaml — der Weg vom „Test auf einem Notebook“ zur „Multi-Region-Installation im Konzern“ ist eine Frage der Knoten, die Sie hinzufügen, nicht der Software, auf die Sie umsteigen.
Entwicklung der Eldric-Topologie von einem auf fünfzig Knoten einzeln 1 Knoten eldric Dev-Notebook · Pi 4 · Test-Labor Quorum 3 Knoten Leader Büro-Cluster · dauerhaft an skaliert 10 Knoten Abteilung · mehrere Modelle Konzern 50+ Knoten Mehrere Standorte · mehrere Regionen wächst an Ort und Stelle — kein Plattform-Wechsel
Abb. 01 Eldric skaliert vom Notebook einer einzelnen Entwicklerin bis zum Konzern-Cluster aus über 50 Knoten. Dieselbe Software liefert alle fünf Stufen — die Knotenzahl ist eine Konfigurations-Entscheidung, keine Produkt-Stufe. Leader-fähige Knoten sind in Terrakotta markiert, Worker in Marineblau.

§2 — Automatisches Failover

Fällt ein Knoten, fängt der Cluster ihn auf.

In Arbeit für kommende 5.0.x-Patches

Jeder Knoten in einem Eldric-Cluster hält einen Heartbeat zu seinen Peers. Verschwindet ein Leader — der Host stirbt, das Netz bricht weg, eine Administratorin zieht das falsche Kabel — bemerken die übrigen Knoten das innerhalb von Sekunden und wählen über ein etabliertes Raft-Consensus-Protokoll einen neuen Leader. Der Inferenz-Verkehr wird automatisch neu geroutet. Offene Chat-Sitzungen laufen mit der nächsten Anfrage weiter.

Ehrlicher Stand. Automatisches Failover ist für einen kommenden 5.0.x-Patch entworfen und beauftragt. Heute liefert 5.0 geclusterte Worker, die Gossip-Discovery-Schicht und einen schnellen, manuellen Controller-Wechsel. Die Raft-Schicht ist der Abschluss; der Rest läuft bereits produktiv.
Failover-Ablauf — gesund, Leader-Ausfall, Erkennung, neuer Leader t = 0 Gesund Heartbeat im Sekundentakt t ≈ 1s Leader fällt aus Heartbeat ausgeblieben t ≈ 5s Erkennung Stimme Stimme Wahl läuft t ≈ 6s Neuer Leader Leader Verkehr läuft weiter
Abb. 02 Failover-Ablauf: ein gesundes Drei-Knoten-Quorum erkennt den Verlust des Leaders in rund fünf Sekunden und wählt einen Nachfolger, bevor die meisten laufenden Anfragen überhaupt ein Timeout erreichen würden. Die Raft-artige Wahl garantiert zu jedem Zeitpunkt genau einen Leader — auch während einer Netzwerk-Partition.

Ein Cluster, der erst nach menschlichem Eingriff wieder hochkommt, ist kein Cluster — er ist ein Single Point of Failure mit zusätzlichen Zwischenschritten.


§3 — Standort-übergreifende Föderation

Ein Hirn. Viele Körper.

Später in 5.0.x

Ein Unternehmen sitzt selten in einem einzigen Gebäude. Föderation lässt jeden Standort seinen eigenen autonomen Eldric-Cluster betreiben — der bandbreiten-intensive Verkehr bleibt lokal — während eine Föderations-Schicht Verzeichnisse, Wissensbasen und Zugriffsrichtlinien synchron hält. Eine Niederlassung bleibt nutzbar, wenn die WAN-Verbindung wegbricht. Die Zentrale hält eine warme Replik jeder Niederlassung für die regionale Notfall-Wiederherstellung.

Warum Föderation statt eines großen Clusters? Konsens im Sub-Millisekunden-Bereich übersteht keine transatlantische Laufzeit. Föderation akzeptiert diese Physik und arbeitet mit ihr — lokale Cluster für die heißen Pfade, föderierte Synchronisierung für Eventual Consistency.
Standort-übergreifende Föderation: Zentrale, drei Niederlassungen, Notfall-Replik Föderations-Verbindung Föderations-Verbindung Zentrale Wien 10-Knoten-Cluster · primär Niederlassung London 3 Knoten · autonom Niederlassung Singapur 3 Knoten · autonom Frankfurt · Niederlassung Notfall-Replik · warm Föderations-Sync
Abb. 03 Eine föderierte Eldric-Installation: eine primäre Zentrale in Wien, drei regionale Niederlassungen und eine warme Notfall-Replik. Jeder Standort hält seinen eigenen autonomen Cluster; die Föderations-Schicht hält Verzeichnisse, RAG-Korpora und Richtlinien synchron.

Autonome Niederlassungen

Jeder Standort bleibt nutzbar, wenn das WAN wegbricht.

Ein föderierter Cluster wird nicht zum Thin Client. Die Niederlassung behält ihre lokalen Modelle, ihr lokales RAG-Korpus und ihre lokalen Nutzer — und gleicht den Zustand mit dem Rest der Föderation ab, sobald die Verbindung zurück ist.

Regionale Souveränität

Daten bleiben dort, wo das Gesetz es verlangt.

Eine Richtlinie pro Mandant erlaubt es, Wissensbasen als nur-EU, nur-USA oder standortgebunden zu markieren. Die Föderations-Schicht verweigert die Replikation von allem, was außerhalb der erlaubten Regionen markiert ist — eine Regel, die der Cluster durchsetzt, nicht der Operator.

Notfall-Wiederherstellung

Verlieren Sie ein Gebäude, behalten Sie die Arbeit.

Die warme Notfall-Replik erhält einen kontinuierlichen Strom von Föderations-Aktualisierungen. Ist das primäre Rechenzentrum offline — Brand, Hochwasser, durchtrennte Glasfaser — ist die Replik bereits auf wenige Minuten aktuell. Der Umschwenk ist eine Operator-Entscheidung, kein Wiederherstellungs-Projekt.


§4 — Intelligente Discovery

Knoten finden sich ohne Tabellenliste.

Schichten 1+2 heute

Das Schwierigste am Betrieb eines verteilten Systems ist meist nicht der Konsens — sondern der Überblick darüber, welche Maschine unter welcher Adresse erreichbar ist. Eldric stapelt vier Discovery-Schichten, damit Operatoren keine Liste pflegen müssen. In einem ruhigen Büro-LAN finden sich die Knoten in Sekunden. In einem weit verzweigten WAN setzt eine Handvoll Admin-Hinweise die Kette in Gang.

Heute. mDNS und das clusterinterne Gossip-Protokoll decken jede Einzel-Standort-Installation ab. Die verbleibenden zwei Schichten — DNS-SD und Admin-WAN-Hinweise — kommen mit der standortübergreifenden Föderation in einem späteren 5.0.x-Patch.
Vierschichtiger Discovery-Stapel — mDNS, Gossip, DNS-SD, Admin-Hinweise Schicht 1 · mDNS / Bonjour Gleiches Subnetz, ohne Konfiguration — der Fall des Büro-LAN. verfügbar Schicht 2 · clusterinternes Gossip Jeder neue Knoten lernt den Rest des Clusters vom ersten Peer, dem er begegnet. verfügbar Schicht 3 · DNS-SD Spannt der Cluster mehrere Subnetze, bewirbt ein einzelner DNS-Eintrag jeden Standort gegenüber der Föderation. 5.0.x+ Schicht 4 · Admin-Hinweise (WAN) Für abgeschottete oder eingeschränkte Netze bootstrappt eine kleine Menge statischer Peer-Adressen den Rest. 5.0.x+
Abb. 04 Vier Discovery-Schichten, der Reihe nach versucht. In einem einzelnen LAN genügt meist Schicht eins; Schicht zwei trägt alles, sobald der Cluster warm ist. Die Schichten drei und vier kommen mit der standortübergreifenden Föderation.

§5 — Skalierungs-Stufen

Was zu welcher Stufe passt.

Eine Übersicht auf einen Blick: von der Knotenzahl zu dem, was sie Ihnen bringt. Jede Zeile ist dasselbe Eldric-Paket — der Unterschied liegt darin, wie viele Knoten Sie ihm geben und welche Rolle Sie jedem zuweisen.

Knoten Topologie Failover Typischer Anwendungsfall
1 Einzel-Host keines (nur Neustart) Entwickler-Notebook, Test eines einzelnen Teams, Proof of Concept auf dem Raspberry Pi. Dasselbe Paket — nur eines davon.
2–3 Quorum-Cluster automatisch (kommender 5.0.x-Patch) Kleines Büro, dauerhaft laufende Installation. Drei Knoten sind der ideale Punkt — übersteht den Verlust eines einzelnen Knotens mit klarer Mehrheit.
4–10 Leader + Worker automatisch (kommender 5.0.x-Patch) Abteilung oder mittelständisches Unternehmen. Eine Handvoll Leader-fähiger Knoten; der Rest sind dedizierte Worker, die Modelle, RAG-Indizes oder Fach-Agenten betreiben.
10–50 Multi-Rollen-Mesh automatisch + zonal Konzern an einem einzelnen Standort. Worker über Racks oder Availability Zones verteilt, sodass der Verlust eines ganzen Racks überstanden wird. Der Leader bleibt in einer anderen Zone.
50+ föderiertes Mesh automatisch + standortübergreifend Mehrere Standorte, mehrere Regionen. Cluster pro Standort föderieren über das WAN; warme Notfall-Repliken in einer anderen Region; Daten-Residenz-Regeln pro Mandant, durchgesetzt auf der Föderations-Schicht.

§6 — Wann Sie das brauchen

Fünf Gründe, Eldric zu clustern.

Eine Einzelknoten-Installation ist für viele Teams ehrlich gesagt schon produktionsreif. Clustering rechnet sich in fünf konkreten Situationen.

Verfügbarkeit
Verfügbarkeitskritische KI. Interne Copiloten, von denen das ganze Unternehmen abhängt. Kunden-Chat fest in ein Produkt eingebaut. Abläufe, bei denen „die KI ist aus“ bedeutet, dass Menschen nicht arbeiten können. Mit drei Knoten ist der Cluster fehlertolerant gegenüber dem Ausfall eines einzelnen Knotens; mit zehn gegenüber dem Ausfall eines ganzen Racks.
Residenz
Regulatorische Daten-Residenz. EU-Vorgaben, die es verbieten, dass Gesundheits- oder Finanzdaten eine Grenze überschreiten. Workloads im Bereich der nationalen Sicherheit, die keine Public Cloud berühren dürfen. Föderation lässt Sie jedes Byte innerhalb der Rechtsordnung halten, in die es gehört — durchgesetzt vom Cluster statt durch eine Verfahrensanweisung.
Geografie
Geografische Verteilung. Niederlassungen in verschiedenen Zeitzonen, ein Vertriebs-Standort in einem anderen Land, eine Produktionsstätte am Rand des Netzes. Lokale Cluster halten die Latenz niedrig; Föderation hält alle nach demselben Plan am Laufen.
Wiederherstellung
Notfall-Wiederherstellung. Wenn das primäre Rechenzentrum abbrennt, wann nimmt die Arbeit wieder Fahrt auf? Mit einer warmen Notfall-Replik lautet die Antwort: „in der nächsten Minute, sobald ein Operator den Umschwenk bestätigt“. Ohne sie geht es um das Zurückspielen von Backups.
Souveränität
Souveräne Installation. Abgeschottete Netze. Behörden-Clouds. On-Premises per Vorgabe. Eldric-Cluster hängen von keinem externen Dienst ab, um einen Leader zu wählen, einen Peer zu finden oder eine Lizenz zu prüfen — die gesamte Schleife schließt sich innerhalb Ihrer Grenzen.

§7 — Ehrliche Roadmap

Heute, in Arbeit, auf dem Weg.

Ein dreispaltiges Verzeichnis, wo jedes Teil der Belastbarkeits-Geschichte tatsächlich steht. Alles, was nicht in der linken Spalte steht, läuft noch nicht produktiv — und das geben wir auch so an.

Heute

5.0 — ausgeliefert

  • Einzelknoten-Installation auf beliebiger Hardware
  • Geclusterte Worker (Inferenz, RAG, Agenten)
  • Router und Edge-Gateways
  • Gossip-Mesh für die clusterinterne Discovery
  • mDNS / Bonjour für die lokale Netzwerk-Discovery
  • Rollende RPM-Upgrades über den Cluster
  • Datentrennung pro Mandant
  • Hash-verkettetes Audit-Protokoll
  • Backup, Wiederherstellung und Prüfung des Cluster-Zustands
  • Manueller Controller-Wechsel (durch Operator ausgelöst)

In Arbeit

nächster Patch — entworfen & beauftragt

  • Cluster-Consensus + automatische Leader-Wahl
  • Automatisches Failover, Erkennung unter 10 Sekunden
  • Zonen-Bewusstsein (Rack- / AZ-Platzierungs-Hinweise)
  • Kontinuierliche Replikation der Vektor-Indizes
  • Kontinuierliche Replikation der Matrix-Memory
  • Verschlüsseltes Gossip mit gegenseitigem TLS zwischen Knoten
  • Natives xLSTM-Inferenz-Backend (Preview)

Auf dem Weg

später in 5.0.x — auf der Roadmap

  • Standort-übergreifende Föderation über das WAN
  • Warme Notfall-Repliken
  • Regionale Daten-Residenz-Richtlinie pro Mandant
  • DNS-SD-Discovery für subnetz-übergreifende Cluster
  • Admin-GUI für WAN-Peer-Hinweise
  • Geografische Last-Steuerung (latenzbewusstes Routing)
  • Standortübergreifende Sitzungs-Kontinuität für den Chat

Roadmap-Zeitpläne ändern sich. Alles in den beiden rechten Spalten ist ernsthaft geplant und budgetiert — aber wir versprechen kein Kalender-Quartal für Software, die wir nicht fertiggestellt haben. Was wir versprechen: Diese Tabelle sagt Ihnen die Wahrheit.


Loslegen

Probieren Sie einen Cluster auf dem, was Sie schon haben.

Ein Drei-Knoten-Cluster läuft bequem auf drei handelsüblichen Linux-Rechnern. Eine föderierte Installation über mehrere Standorte läuft auf dem, was die IT-Abteilung ohnehin besitzt. Der Download ist derselbe; die Konfiguration ändert sich.