Clustering & Hochverfügbarkeit

Belastbare KI-Infrastruktur
für den ernsthaften Einsatz.

Eldric-Cluster überstehen Knotenausfälle, Netzwerk-Partitionen und den Verlust ganzer Rechenzentren — automatisch. Vom Notebook einer einzelnen Entwicklerin bis zur Föderation aus über 50 Knoten über mehrere Kontinente: dieselbe Software, dieselbe Konfigurations-Grammatik, dasselbe Installations-Paket.

Für Ihr Team herunterladen Zur Skalierungs-Tabelle

Cluster-Topologie Automatisches Failover Standort-übergreifende Föderation Intelligente Discovery Skalierungs-Stufen Wann Sie es brauchen Ehrliche Roadmap

§1 — Wie Eldric clustert

Ein Paket. Fünf Ausbaustufen.

Verfügbar

Dasselbe eldric-aios-RPM läuft auf einem Raspberry Pi unter dem Monitor einer Entwicklerin ebenso wie auf einem Cluster aus 50 Bare-Metal-Knoten hinter dem Netz eines Krankenhauses. Welche Rolle jeder Knoten übernimmt, ist Konfiguration, nicht Code. Beginnen Sie mit einem. Wachsen Sie auf drei, sobald Verfügbarkeit zählt. Föderieren Sie über Standorte, sobald Sie ein zweites Büro eröffnen.

Kein Plattform-Wechsel. Jede Cluster-Stufe unten ist dasselbe Binary mit einer anderen config.yaml — der Weg vom „Test auf einem Notebook“ zur „Multi-Region-Installation im Konzern“ ist eine Frage der Knoten, die Sie hinzufügen, nicht der Software, auf die Sie umsteigen.

Abb. 01 Eldric skaliert vom Notebook einer einzelnen Entwicklerin bis zum Konzern-Cluster aus über 50 Knoten. Dieselbe Software liefert alle fünf Stufen — die Knotenzahl ist eine Konfigurations-Entscheidung, keine Produkt-Stufe. Leader-fähige Knoten sind in Terrakotta markiert, Worker in Marineblau.

§2 — Automatisches Failover

Fällt ein Knoten, fängt der Cluster ihn auf.

In Arbeit für kommende 5.0.x-Patches

Jeder Knoten in einem Eldric-Cluster hält einen Heartbeat zu seinen Peers. Verschwindet ein Leader — der Host stirbt, das Netz bricht weg, eine Administratorin zieht das falsche Kabel — bemerken die übrigen Knoten das innerhalb von Sekunden und wählen über ein etabliertes Raft-Consensus-Protokoll einen neuen Leader. Der Inferenz-Verkehr wird automatisch neu geroutet. Offene Chat-Sitzungen laufen mit der nächsten Anfrage weiter.

Ehrlicher Stand. Automatisches Failover ist für einen kommenden 5.0.x-Patch entworfen und beauftragt. Heute liefert 5.0 geclusterte Worker, die Gossip-Discovery-Schicht und einen schnellen, manuellen Controller-Wechsel. Die Raft-Schicht ist der Abschluss; der Rest läuft bereits produktiv.

Abb. 02 Failover-Ablauf: ein gesundes Drei-Knoten-Quorum erkennt den Verlust des Leaders in rund fünf Sekunden und wählt einen Nachfolger, bevor die meisten laufenden Anfragen überhaupt ein Timeout erreichen würden. Die Raft-artige Wahl garantiert zu jedem Zeitpunkt genau einen Leader — auch während einer Netzwerk-Partition.

Ein Cluster, der erst nach menschlichem Eingriff wieder hochkommt, ist kein Cluster — er ist ein Single Point of Failure mit zusätzlichen Zwischenschritten.

§3 — Standort-übergreifende Föderation

Ein Hirn. Viele Körper.

Später in 5.0.x

Ein Unternehmen sitzt selten in einem einzigen Gebäude. Föderation lässt jeden Standort seinen eigenen autonomen Eldric-Cluster betreiben — der bandbreiten-intensive Verkehr bleibt lokal — während eine Föderations-Schicht Verzeichnisse, Wissensbasen und Zugriffsrichtlinien synchron hält. Eine Niederlassung bleibt nutzbar, wenn die WAN-Verbindung wegbricht. Die Zentrale hält eine warme Replik jeder Niederlassung für die regionale Notfall-Wiederherstellung.

Warum Föderation statt eines großen Clusters? Konsens im Sub-Millisekunden-Bereich übersteht keine transatlantische Laufzeit. Föderation akzeptiert diese Physik und arbeitet mit ihr — lokale Cluster für die heißen Pfade, föderierte Synchronisierung für Eventual Consistency.

Abb. 03 Eine föderierte Eldric-Installation: eine primäre Zentrale in Wien, drei regionale Niederlassungen und eine warme Notfall-Replik. Jeder Standort hält seinen eigenen autonomen Cluster; die Föderations-Schicht hält Verzeichnisse, RAG-Korpora und Richtlinien synchron.

Autonome Niederlassungen

Jeder Standort bleibt nutzbar, wenn das WAN wegbricht.

Ein föderierter Cluster wird nicht zum Thin Client. Die Niederlassung behält ihre lokalen Modelle, ihr lokales RAG-Korpus und ihre lokalen Nutzer — und gleicht den Zustand mit dem Rest der Föderation ab, sobald die Verbindung zurück ist.

Regionale Souveränität

Daten bleiben dort, wo das Gesetz es verlangt.

Eine Richtlinie pro Mandant erlaubt es, Wissensbasen als nur-EU, nur-USA oder standortgebunden zu markieren. Die Föderations-Schicht verweigert die Replikation von allem, was außerhalb der erlaubten Regionen markiert ist — eine Regel, die der Cluster durchsetzt, nicht der Operator.

Notfall-Wiederherstellung

Verlieren Sie ein Gebäude, behalten Sie die Arbeit.

Die warme Notfall-Replik erhält einen kontinuierlichen Strom von Föderations-Aktualisierungen. Ist das primäre Rechenzentrum offline — Brand, Hochwasser, durchtrennte Glasfaser — ist die Replik bereits auf wenige Minuten aktuell. Der Umschwenk ist eine Operator-Entscheidung, kein Wiederherstellungs-Projekt.

§4 — Intelligente Discovery

Knoten finden sich ohne Tabellenliste.

Schichten 1+2 heute

Das Schwierigste am Betrieb eines verteilten Systems ist meist nicht der Konsens — sondern der Überblick darüber, welche Maschine unter welcher Adresse erreichbar ist. Eldric stapelt vier Discovery-Schichten, damit Operatoren keine Liste pflegen müssen. In einem ruhigen Büro-LAN finden sich die Knoten in Sekunden. In einem weit verzweigten WAN setzt eine Handvoll Admin-Hinweise die Kette in Gang.

Heute. mDNS und das clusterinterne Gossip-Protokoll decken jede Einzel-Standort-Installation ab. Die verbleibenden zwei Schichten — DNS-SD und Admin-WAN-Hinweise — kommen mit der standortübergreifenden Föderation in einem späteren 5.0.x-Patch.

Abb. 04 Vier Discovery-Schichten, der Reihe nach versucht. In einem einzelnen LAN genügt meist Schicht eins; Schicht zwei trägt alles, sobald der Cluster warm ist. Die Schichten drei und vier kommen mit der standortübergreifenden Föderation.

§5 — Skalierungs-Stufen

Was zu welcher Stufe passt.

Eine Übersicht auf einen Blick: von der Knotenzahl zu dem, was sie Ihnen bringt. Jede Zeile ist dasselbe Eldric-Paket — der Unterschied liegt darin, wie viele Knoten Sie ihm geben und welche Rolle Sie jedem zuweisen.

Knoten	Topologie	Failover	Typischer Anwendungsfall
1	Einzel-Host	keines (nur Neustart)	Entwickler-Notebook, Test eines einzelnen Teams, Proof of Concept auf dem Raspberry Pi. Dasselbe Paket — nur eines davon.
2–3	Quorum-Cluster	automatisch (kommender 5.0.x-Patch)	Kleines Büro, dauerhaft laufende Installation. Drei Knoten sind der ideale Punkt — übersteht den Verlust eines einzelnen Knotens mit klarer Mehrheit.
4–10	Leader + Worker	automatisch (kommender 5.0.x-Patch)	Abteilung oder mittelständisches Unternehmen. Eine Handvoll Leader-fähiger Knoten; der Rest sind dedizierte Worker, die Modelle, RAG-Indizes oder Fach-Agenten betreiben.
10–50	Multi-Rollen-Mesh	automatisch + zonal	Konzern an einem einzelnen Standort. Worker über Racks oder Availability Zones verteilt, sodass der Verlust eines ganzen Racks überstanden wird. Der Leader bleibt in einer anderen Zone.
50+	föderiertes Mesh	automatisch + standortübergreifend	Mehrere Standorte, mehrere Regionen. Cluster pro Standort föderieren über das WAN; warme Notfall-Repliken in einer anderen Region; Daten-Residenz-Regeln pro Mandant, durchgesetzt auf der Föderations-Schicht.

§6 — Wann Sie das brauchen

Fünf Gründe, Eldric zu clustern.

Eine Einzelknoten-Installation ist für viele Teams ehrlich gesagt schon produktionsreif. Clustering rechnet sich in fünf konkreten Situationen.

Verfügbarkeit

Verfügbarkeitskritische KI. Interne Copiloten, von denen das ganze Unternehmen abhängt. Kunden-Chat fest in ein Produkt eingebaut. Abläufe, bei denen „die KI ist aus“ bedeutet, dass Menschen nicht arbeiten können. Mit drei Knoten ist der Cluster fehlertolerant gegenüber dem Ausfall eines einzelnen Knotens; mit zehn gegenüber dem Ausfall eines ganzen Racks.

Residenz

Regulatorische Daten-Residenz. EU-Vorgaben, die es verbieten, dass Gesundheits- oder Finanzdaten eine Grenze überschreiten. Workloads im Bereich der nationalen Sicherheit, die keine Public Cloud berühren dürfen. Föderation lässt Sie jedes Byte innerhalb der Rechtsordnung halten, in die es gehört — durchgesetzt vom Cluster statt durch eine Verfahrensanweisung.

Geografie

Geografische Verteilung. Niederlassungen in verschiedenen Zeitzonen, ein Vertriebs-Standort in einem anderen Land, eine Produktionsstätte am Rand des Netzes. Lokale Cluster halten die Latenz niedrig; Föderation hält alle nach demselben Plan am Laufen.

Wiederherstellung

Notfall-Wiederherstellung. Wenn das primäre Rechenzentrum abbrennt, wann nimmt die Arbeit wieder Fahrt auf? Mit einer warmen Notfall-Replik lautet die Antwort: „in der nächsten Minute, sobald ein Operator den Umschwenk bestätigt“. Ohne sie geht es um das Zurückspielen von Backups.

Souveränität

Souveräne Installation. Abgeschottete Netze. Behörden-Clouds. On-Premises per Vorgabe. Eldric-Cluster hängen von keinem externen Dienst ab, um einen Leader zu wählen, einen Peer zu finden oder eine Lizenz zu prüfen — die gesamte Schleife schließt sich innerhalb Ihrer Grenzen.

§7 — Ehrliche Roadmap

Heute, in Arbeit, auf dem Weg.

Ein dreispaltiges Verzeichnis, wo jedes Teil der Belastbarkeits-Geschichte tatsächlich steht. Alles, was nicht in der linken Spalte steht, läuft noch nicht produktiv — und das geben wir auch so an.

Heute ●

5.0 — ausgeliefert

Einzelknoten-Installation auf beliebiger Hardware
Geclusterte Worker (Inferenz, RAG, Agenten)
Router und Edge-Gateways
Gossip-Mesh für die clusterinterne Discovery
mDNS / Bonjour für die lokale Netzwerk-Discovery
Rollende RPM-Upgrades über den Cluster
Datentrennung pro Mandant
Hash-verkettetes Audit-Protokoll
Backup, Wiederherstellung und Prüfung des Cluster-Zustands
Manueller Controller-Wechsel (durch Operator ausgelöst)

In Arbeit ●

nächster Patch — entworfen & beauftragt

Cluster-Consensus + automatische Leader-Wahl
Automatisches Failover, Erkennung unter 10 Sekunden
Zonen-Bewusstsein (Rack- / AZ-Platzierungs-Hinweise)
Kontinuierliche Replikation der Vektor-Indizes
Kontinuierliche Replikation der Matrix-Memory
Verschlüsseltes Gossip mit gegenseitigem TLS zwischen Knoten
Natives xLSTM-Inferenz-Backend (Preview)

Auf dem Weg ●

später in 5.0.x — auf der Roadmap

Standort-übergreifende Föderation über das WAN
Warme Notfall-Repliken
Regionale Daten-Residenz-Richtlinie pro Mandant
DNS-SD-Discovery für subnetz-übergreifende Cluster
Admin-GUI für WAN-Peer-Hinweise
Geografische Last-Steuerung (latenzbewusstes Routing)
Standortübergreifende Sitzungs-Kontinuität für den Chat

Roadmap-Zeitpläne ändern sich. Alles in den beiden rechten Spalten ist ernsthaft geplant und budgetiert — aber wir versprechen kein Kalender-Quartal für Software, die wir nicht fertiggestellt haben. Was wir versprechen: Diese Tabelle sagt Ihnen die Wahrheit.

Belastbare KI-Infrastrukturfür den ernsthaften Einsatz.