Chunking-Strategien

Andere Inhalte,
andere Chunks.

Eine wissenschaftliche Arbeit hat eine andere Form als ein Sensor-Strom. Eine CSV hat eine andere Form als eine Python-Quelldatei. Ein 90-Minuten-Video hat eine andere Form als ein einseitiges Memo. Eldric liefert inhaltsbewusstes Chunking — die Plattform erkennt, was hochgeladen wurde, wählt standardmäßig eine passende Strategie und lässt Sie vor dem Commit anpassen. Bessere Chunks beim Ingest heißt bessere RAG-Treffer beim Abfragen.

Intelligenter Upload

Eldric schlägt vor; Sie bestätigen.

Wenn Sie eine Datei in die Chat-Oberfläche oder eine Wissensbasis-Verwaltungsseite ziehen, committet der Upload-Fluss nicht sofort. Die Plattform inspiziert die Datei zuerst — Inhaltstyp, Sprache, Länge, Struktur — und öffnet dann einen Vorschlags-Dialog mit vorgefüllten Parametern. Sie sehen, was passieren wird; Sie können alles überschreiben; und erst wenn Sie auf In RAG übernehmen klicken, läuft das Indexieren tatsächlich los.

Was der Vorschlags-Dialog pro Datei zeigt:

Erkannt. Inhaltstyp („wissenschaftliche Arbeit · PDF · 18 Seiten · EN“), Themen-Tags aus einer schnellen ersten-2-KB-Lese, Autoren / DOI falls vorhanden, geschätzte Chunk-Zahl und Index-Größe.
Chunking. Vorgeschlagene Strategie plus Chunk-Größe plus Überlappung gemäß der Tabelle unten. Vorausgewählt — Sie können ändern.
Anreicherung. Kästchen für die Metadaten, die die Plattform automatisch extrahiert (Autoren, DOI, Entitäten, Querverweise, Themen-Tags, Q&A-Paare fürs Training). Vorbelegung nach Inhaltstyp.
Schlüsselwörter. Automatisch aus dem Dokument extrahiert; bearbeitbar, entfernbar.
Ziel. In welche Wissensbasis abgelegt wird. „Neu anlegen“ ist in der Auswahl.
Freigabe. ACL — privat / Projekt / Workgroup / öffentlich — pro Wissensbasis.

Klicken Sie auf Chunks vorschauen, um die ersten 5–10 Chunks zu sehen, die die Strategie erzeugen würde. Strategie anpassen und neu vorschauen zum Vergleichen. In RAG übernehmen klicken, wenn zufrieden.

Die Voreinstellungen

Vorgeschlagene Strategie pro Inhaltstyp.

Voreinstellungen unten. Jeder Wert ist im Upload-Dialog überschreibbar und pro Wissensbasis persistierbar.

Inhaltstyp	Strategie	Chunk-Größe	Überlappung	Auto-Anreicherung
Wissenschaftliches PDF	semantisch (pro Abschnitt)	512 Tokens	50	Autoren, DOI, Refs, Entitäten
Markdown / Doku	semantisch (an Überschriften)	384 Tokens	40	Überschriften, Codeblöcke, Querverweise
Code (Python, C++, JS, …)	an Funktions-Grenzen	1024 Tokens	100	Symbole, Imports, Docstrings
CSV / TSV	pro Zeile oder pro Cluster	zeilen-natürlich	0	Spalten-Statistik, Werte-Verteilung
Audio	pro Äußerung nach STT	n/a	n/a	Transkript, Sprecher-Diarisierung, Zeitstempel
Video	pro Szene nach Szenen-Erkennung	n/a	n/a	Szenen-Erkennung, Frame-Stichproben, Transkript
Bild	pro Bild	n/a	n/a	Vision-Embedding, Beschreibung, OCR-Text
Sensor-Zeitreihe	pro Fenster	5 Minuten	30 Sekunden	Anomalie-Tags, Trend-Richtung, Wertebereich
Genomik-FASTA	pro Sequenz	n/a	n/a	Gen-Annotation, GC-Gehalt, ORF
Chemie-SMILES	pro Molekül	n/a	n/a	Eigenschaften, ADMET, ähnliche Verbindungen
Reiner Text	fest	512 Tokens	50	Sprache, Schlüsselwort-Extraktion
Binär / unbekannt	nur Metadaten	n/a	n/a	Dateiname, Größe, Magic-Bytes, LLM-Beschreibung

Strategien erklärt

Was jede Strategie tut.

Semantisch

Teilt an natürlichen Grenzen — Absätze, Abschnitte, Überschriften — und führt dann kurze benachbarte Stücke zusammen, bis jeder Chunk nahe an der Ziel-Token-Zahl liegt. Am besten für Dokumente, in denen die Bedeutung in Abschnitts-Grenzen sitzt: wissenschaftliche Arbeiten, Verträge, Policy-Handbücher.

Fest

Schneidet bei der Ziel-Token-Zahl unabhängig von der Struktur, mit Überlappung, damit keine Bedeutung an Grenzen verloren geht. Am besten, wenn der Eingang keine nutzbare Struktur hat — lange Klartext-Logs, Transkripte ohne Sprecher-Wechsel, OCR-Bilder mit verlorenem Layout.

An Funktions-Grenzen

Für Quellcode. Teilt an Funktions- / Klassen- / Methoden-Grenzen, wobei die Funktions-Signatur in jeden Chunk mitgeht, damit die Suche „wo ist die validate_input-Funktion“ auf die echte Implementierung trifft.

Pro Zeile / pro Cluster

Für tabellarische Daten. Pro Zeile behandelt jede Zeile als Chunk; pro Cluster gruppiert Zeilen nach Ähnlichkeit (nützlich für Sensor-Daten, wo 1000 Zeilen ein „Betriebs-Regime“ sein können). Spalten-Statistik läuft als Metadaten mit, damit Anfragen gegen Spalten funktionieren.

Pro Äußerung / pro Szene

Für Audio und Video. Der Medien-Worker transkribiert / segmentiert zuerst, dann wird jede Äußerung (für Audio) oder Szene (für Video) zu einem Chunk mit Transkript und Zeitstempeln angeheftet. Erlaubt Anfragen wie „wer hat um die 12-Minuten-Marke X gesagt“ mit einer Antwort, die auf die richtige Szene zeigt.

Pro Fenster

Für Sensor-Zeitreihen. Schiebt ein Fenster über den Strom, fasst jedes Fenster zu einem Chunk mit Anomalie-Tags plus Trend-Richtung plus Wertebereich zusammen. Gut für IoT und SCADA, wo die Struktur „5 Minuten einer Schicht“, „5 Minuten einer anderen Schicht“ ist und Anfragen gegen Betriebs-Modi gehen sollen.

Nur Metadaten

Fallback für Inhaltstypen, aus denen die Plattform keinen Text extrahieren kann — Binärdateien, verschlüsselte Archive, rohe Firmware-Abbilder. Speichert Dateinamen, Größe, Magic-Byte-Signatur und eine LLM-erzeugte Beschreibung der Rolle der Datei, damit die Datei suchbar ist, auch wenn ihr Inhalt es nicht ist.

Konfiguration pro Wissensbasis

Eine Strategie für die ganze Wissensbasis wählen.

Der Vorschlag-und-bestätigen-Fluss ist pro Datei. Für eine Wissensbasis, in der jedes Dokument dieselbe Form hat — zum Beispiel eine Wissensbasis mit klinischen Leitlinien als PDFs — die Strategie einmal auf Wissensbasis-Ebene setzen:

curl -X POST -H "X-API-Key: $ELDRIC_API_KEY" \
     -H "Content-Type: application/json" \
     -d '{"chunk_size":512,"chunk_overlap":50,"strategy":"semantic"}' \
     https://<Ihr-Host>/api/v1/vector/namespaces/<tenant>/<ns>/config

Ab dann überspringen Uploads in diese Wissensbasis den Vorschlags-Dialog (oder zeigen ihn mit den vorbelegten Wissensbasis-Werten). Bestehende Dokumente neu einbetten nach einer Strategie-Änderung ist eine Ein-Knopf-Operation in der Admin-Konsole.

Warum das zählt

Bessere Chunks, bessere Retrieval.

Generische 512-Tokens-Überlappung-50 über allem funktioniert, aber sie funktioniert am wenigsten für Inhalt, bei dem die bedeutungstragende Einheit etwas anderes ist — ein Satz in einem Vertrag, eine Funktion im Code, eine Äußerung in einem Interview, eine Zeile in einer CSV. Inhaltsbewusstes Chunking ist die einzelne Änderung, die RAG von „findet manchmal das Richtige“ auf „findet zuverlässig das Richtige“ bringt, weil die im Vektor-Index gespeicherten Einheiten mit den Einheiten übereinstimmen, um die es in der Anfrage geht.

Kombiniert mit der EMM-Compressed-Retrieval-Preview und der Intelligente-Memory-Inferenz-Preview ist die Chunking-Ebene das Fundament der Retention-Schleife von Eldric: hochwertige Chunks beim Ingest → bessere RAG-Treffer → bessere Akzeptanz durch den Nutzer → nützlichere Trainings-Korpora → klügere Plattform mit der Zeit.

Andere Inhalte,andere Chunks.