Eldric liefert Retrieval-Augmented Generation (RAG) standardmäßig aktiv. Sie laden Dokumente in eine Wissensbasis; die Plattform indiziert sie; wenn Sie dem Modell eine Frage stellen, die mit diesem Inhalt überlappt, wird die Antwort im echten Material verankert statt in den Trainingsdaten des Modells — mit Zitaten zurück zu den Quell-Passagen. Diese Seite führt durch die Oberfläche — was RAG ist, wie man hochlädt, wie man fragt, wie man Zitate liest und was zu tun ist, wenn etwas schiefgeht.
Retrieval-Augmented Generation bedeutet: Bevor das Modell antwortet, durchsucht die Plattform die ihr übergebenen Dokumente nach Passagen, die für Ihre Frage relevant sind, übergibt diese Passagen dem Modell als Kontext und bittet um die Antwort in diesem Kontext. Zwei Vorteile gegenüber dem reinen Chat: Die Antwort zitiert echtes Material statt das Trainingsmaterial des Modells umzuformulieren, und Sie können der Plattform Ihre eigene Terminologie, Ihre eigenen Protokolle, Ihre eigenen Institutions-Dokumente beibringen — einfach durch Hochladen. RAG ist, was Eldric nützlich macht für ein Krankenhaus, das Antworten verankert in den eigenen klinischen Leitlinien braucht; für eine Bank, die Antworten verankert in den eigenen Compliance-Handbüchern braucht; für ein Werk, das Antworten verankert in den eigenen Anlagen-Handbüchern braucht.
Sie müssen keinen Schalter umlegen. Sobald Eldric 5.0 läuft — Einzelknoten oder Cluster — ist der RAG-Pfad verdrahtet. Die Plattform liefert ein kleines lokales Embedding-Modell mit (ein quantisiertes GGUF, ~80 MB), das vor Ort läuft, damit die Embeddings den Cluster nicht verlassen. Der Vektor-Speicher liegt auf dem Daten-Worker; das Embedding-Modell liegt auf dem nativen Inferenz-Daemon (Inferenced). Beide werden vom Controller verwaltet; Sie konfigurieren sie nicht selbst, außer in einer benutzerdefinierten Topologie.
Öffnen Sie die Admin-Konsole unter https://<Ihr-Host>/admin und wählen Sie Wissensbasen → Neue Wissensbasis. Geben Sie der Wissensbasis einen Namen (eine Abteilung, ein Projekt, eine Studie), dann klicken Sie auf Hochladen und ziehen die Dateien hinein. Unterstützt: PDF, DOCX, reiner Text, Markdown, HTML. Die Dateien fangen sofort an, hochzuladen; sobald eine Datei angekommen ist, extrahiert die Plattform den Text, teilt ihn in Chunks, bettet jeden Chunk in einen 768-dimensionalen Vektor ein und legt Chunk plus Vektor im Daten-Worker ab. Die Status-Seite der Wissensbasis zeigt den Fortschritt pro Datei; sobald eine Datei grün ist, können Sie dagegen Fragen stellen.
Für größere Mengen verwendet die Oberfläche Chunked-Upload (§107), damit der Browser bei Netzwerk-Aussetzern pausieren, fortsetzen und ohne Neu-Upload von vorne wiederherstellen kann.
Dasselbe Backend, skriptbar:
curl -X POST -H "X-API-Key: $ELDRIC_API_KEY" \
-F "file=@./klinische-leitlinien.pdf" \
-F "tenant_id=spital-kardiologie" \
-F "namespace_id=leitlinien-2026" \
https://<Ihr-Host>/api/v1/vector/ingest
Der Endpunkt liefert eine Job-ID zurück; /api/v1/vector/sources/<tenant_id>/<namespace_id> listet, was bereits indiziert ist.
In der Chat-Oberfläche wählen Sie über die Quellen-Auswahl in der Eingabezeile eine Wissensbasis (oder lassen es auf „alle verfügbaren“, um über alle Wissensbasen zu suchen, auf die Sie Zugriff haben). Stellen Sie Ihre Frage so, wie Sie es normalerweise tun würden. Die Plattform bettet Ihre Frage mit demselben Modell ein, das die Dokumente eingebettet hat, führt eine k-Nearest-Neighbour-Suche im Vektor-Speicher aus, übergibt die Top-Treffer dem Modell neben Ihrer Frage und bittet um die Antwort.
Sie erkennen, dass RAG gefeuert hat, weil die Antwort des Assistenten unten eine Reihe von Zitat-Chips trägt — kleine nummerierte Verweise, die auf die echten Quell-Passagen abbilden. Ein Klick auf ein Zitat klappt es auf und zeigt den Dokument-Chunk, auf den die Antwort sich gestützt hat.
Jeder Zitat-Chip trägt: den Quell-Dokumentnamen, die Seite oder den Abschnitt, sofern verfügbar, und eine kurze Vorschau der passenden Passage. Ein Klick klappt die vollständige Passage in der Artefakt-Spalte neben dem Chat auf. Das zählt mehr, als es klingt: Das Zitat ist der Unterschied zwischen „das Modell behauptet das“ und „Sie können belegen, dass die Plattform das aus Ihrer Leitlinie gezogen hat“. Für regulierte Workflows ist dieser Beleg der ganze Punkt.
Wenn die Antwort ein Dokument hätte zitieren sollen, es aber nicht tat, sind zwei Ursachen wahrscheinlich: Das Dokument ist noch nicht fertig indiziert (Status-Seite prüfen), oder die Frage passt nicht eng genug zur Wortwahl des Dokuments (umformulieren — die semantische Suche der Plattform ist gut, aber nicht hellsichtig).
Die Admin-Konsole → Wissensbasen-Seite erlaubt Umbenennen, Löschen und Inspektion jeder Wissensbasis. Das Löschen einer Wissensbasis entfernt ihre Vektor-Einträge und ihre Quell-Dokumente vom Daten-Worker; die Operation ist nicht wiederherstellbar — bestätigen Sie vor dem Klick.
Innerhalb eines Mandanten organisieren Sie Wissensbasen nach Zweck — eine pro Projekt, eine pro Studie, eine pro Zielgruppe. Mandanten-übergreifend isoliert die Plattform Wissensbasen am Gateway: Eine Wissensbasis gehört zu einem Mandanten, und Mitglieder anderer Mandanten können sie nicht auflisten, durchsuchen oder lesen.
Wenn Sie eine Wissensbasis für zwei Mandanten verfügbar machen wollen, ist die richtige Antwort in 5.0 der .nexus-Bundle-Export — Wissensbasis packen, das Bundle dem anderen Mandanten geben, dort als eigene Wissensbasis auspacken. Die 5.1-Linie ergänzt erstklassiges mandantenübergreifendes Teilen als Teil von Föderations-Layer B.
Eine Datei hängt länger als ein paar Minuten auf „Indiziere…“. Die Status-Seite zeigt den Fehler pro Datei. Häufige Ursachen: gescannte PDFs ohne OCR-Textschicht (der Text-Extraktor findet nichts); passwortgeschützte Dateien; defekte Downloads. Datei reparieren oder entfernen und neu hochladen.
Uploads klappen, aber das Einbetten wird nie fertig; Anfragen fallen auf den reinen Chat zurück, ohne Zitate. Das Embedding-Modell (Inferenced GGUF) ist nicht erreichbar. Admin-Konsole → Inferenced öffnen und prüfen, ob das Embedding-Modell geladen ist; falls nicht, auf Laden klicken. Falls Inferenced gar nicht läuft, mit sudo systemctl restart eldric-aios-inferenced am Host neu starten.
Die Plattform hat gesucht, nichts oberhalb ihres Ähnlichkeits-Schwellwerts gefunden und ohne Zitate geantwortet. Zwei Wege: die Frage mit Begriffen umformulieren, die Sie in dem Quell-Dokument erwarten würden, oder den Ähnlichkeits-Schwellwert in den Wissensbasis-Einstellungen senken (Voreinstellung 0.3 — niedriger heißt „lockerere Treffer zurückgeben“, auf Kosten dass auch irrelevante Treffer durchschlüpfen).
Die Unter-der-Haube-Ansicht, wie RAG verdrahtet ist: RAG-Architektur. Für die Chunking-Strategien je Inhaltstyp: Chunking-Strategien. Für die kompressionsbasierte Memory-Preview, die die Wissensbasis-Suche bei Parallelität beschleunigt: Erweiterte Retrieval. Für die inferenzseitige Preview, die das Memory beim Eintreffen des Prompts konsultiert: Intelligente Memory-Inferenz.
Operations-Seite, Tag 2: Admin-Anleitung deckt Mandanten-Onboarding, Wissensbasis-Ingest-Walkthroughs und die Monitoring-Alarm-Rezepte ab.