Chunking-Strategien

Andere Inhalte,
andere Chunks.

Eine wissenschaftliche Arbeit hat eine andere Form als ein Sensor-Strom. Eine CSV hat eine andere Form als eine Python-Quelldatei. Ein 90-Minuten-Video hat eine andere Form als ein einseitiges Memo. Eldric liefert inhaltsbewusstes Chunking — die Plattform erkennt, was hochgeladen wurde, wählt standardmäßig eine passende Strategie und lässt Sie vor dem Commit anpassen. Bessere Chunks beim Ingest heißt bessere RAG-Treffer beim Abfragen.


Intelligenter Upload

Eldric schlägt vor; Sie bestätigen.

Wenn Sie eine Datei in die Chat-Oberfläche oder eine Wissensbasis-Verwaltungsseite ziehen, committet der Upload-Fluss nicht sofort. Die Plattform inspiziert die Datei zuerst — Inhaltstyp, Sprache, Länge, Struktur — und öffnet dann einen Vorschlags-Dialog mit vorgefüllten Parametern. Sie sehen, was passieren wird; Sie können alles überschreiben; und erst wenn Sie auf In RAG übernehmen klicken, läuft das Indexieren tatsächlich los.

Was der Vorschlags-Dialog pro Datei zeigt:

Klicken Sie auf Chunks vorschauen, um die ersten 5–10 Chunks zu sehen, die die Strategie erzeugen würde. Strategie anpassen und neu vorschauen zum Vergleichen. In RAG übernehmen klicken, wenn zufrieden.


Die Voreinstellungen

Vorgeschlagene Strategie pro Inhaltstyp.

Voreinstellungen unten. Jeder Wert ist im Upload-Dialog überschreibbar und pro Wissensbasis persistierbar.

InhaltstypStrategieChunk-GrößeÜberlappungAuto-Anreicherung
Wissenschaftliches PDFsemantisch (pro Abschnitt)512 Tokens50Autoren, DOI, Refs, Entitäten
Markdown / Dokusemantisch (an Überschriften)384 Tokens40Überschriften, Codeblöcke, Querverweise
Code (Python, C++, JS, …)an Funktions-Grenzen1024 Tokens100Symbole, Imports, Docstrings
CSV / TSVpro Zeile oder pro Clusterzeilen-natürlich0Spalten-Statistik, Werte-Verteilung
Audiopro Äußerung nach STTn/an/aTranskript, Sprecher-Diarisierung, Zeitstempel
Videopro Szene nach Szenen-Erkennungn/an/aSzenen-Erkennung, Frame-Stichproben, Transkript
Bildpro Bildn/an/aVision-Embedding, Beschreibung, OCR-Text
Sensor-Zeitreihepro Fenster5 Minuten30 SekundenAnomalie-Tags, Trend-Richtung, Wertebereich
Genomik-FASTApro Sequenzn/an/aGen-Annotation, GC-Gehalt, ORF
Chemie-SMILESpro Moleküln/an/aEigenschaften, ADMET, ähnliche Verbindungen
Reiner Textfest512 Tokens50Sprache, Schlüsselwort-Extraktion
Binär / unbekanntnur Metadatenn/an/aDateiname, Größe, Magic-Bytes, LLM-Beschreibung

Strategien erklärt

Was jede Strategie tut.

Semantisch

Teilt an natürlichen Grenzen — Absätze, Abschnitte, Überschriften — und führt dann kurze benachbarte Stücke zusammen, bis jeder Chunk nahe an der Ziel-Token-Zahl liegt. Am besten für Dokumente, in denen die Bedeutung in Abschnitts-Grenzen sitzt: wissenschaftliche Arbeiten, Verträge, Policy-Handbücher.

Fest

Schneidet bei der Ziel-Token-Zahl unabhängig von der Struktur, mit Überlappung, damit keine Bedeutung an Grenzen verloren geht. Am besten, wenn der Eingang keine nutzbare Struktur hat — lange Klartext-Logs, Transkripte ohne Sprecher-Wechsel, OCR-Bilder mit verlorenem Layout.

An Funktions-Grenzen

Für Quellcode. Teilt an Funktions- / Klassen- / Methoden-Grenzen, wobei die Funktions-Signatur in jeden Chunk mitgeht, damit die Suche „wo ist die validate_input-Funktion“ auf die echte Implementierung trifft.

Pro Zeile / pro Cluster

Für tabellarische Daten. Pro Zeile behandelt jede Zeile als Chunk; pro Cluster gruppiert Zeilen nach Ähnlichkeit (nützlich für Sensor-Daten, wo 1000 Zeilen ein „Betriebs-Regime“ sein können). Spalten-Statistik läuft als Metadaten mit, damit Anfragen gegen Spalten funktionieren.

Pro Äußerung / pro Szene

Für Audio und Video. Der Medien-Worker transkribiert / segmentiert zuerst, dann wird jede Äußerung (für Audio) oder Szene (für Video) zu einem Chunk mit Transkript und Zeitstempeln angeheftet. Erlaubt Anfragen wie „wer hat um die 12-Minuten-Marke X gesagt“ mit einer Antwort, die auf die richtige Szene zeigt.

Pro Fenster

Für Sensor-Zeitreihen. Schiebt ein Fenster über den Strom, fasst jedes Fenster zu einem Chunk mit Anomalie-Tags plus Trend-Richtung plus Wertebereich zusammen. Gut für IoT und SCADA, wo die Struktur „5 Minuten einer Schicht“, „5 Minuten einer anderen Schicht“ ist und Anfragen gegen Betriebs-Modi gehen sollen.

Nur Metadaten

Fallback für Inhaltstypen, aus denen die Plattform keinen Text extrahieren kann — Binärdateien, verschlüsselte Archive, rohe Firmware-Abbilder. Speichert Dateinamen, Größe, Magic-Byte-Signatur und eine LLM-erzeugte Beschreibung der Rolle der Datei, damit die Datei suchbar ist, auch wenn ihr Inhalt es nicht ist.


Konfiguration pro Wissensbasis

Eine Strategie für die ganze Wissensbasis wählen.

Der Vorschlag-und-bestätigen-Fluss ist pro Datei. Für eine Wissensbasis, in der jedes Dokument dieselbe Form hat — zum Beispiel eine Wissensbasis mit klinischen Leitlinien als PDFs — die Strategie einmal auf Wissensbasis-Ebene setzen:

curl -X POST -H "X-API-Key: $ELDRIC_API_KEY" \
     -H "Content-Type: application/json" \
     -d '{"chunk_size":512,"chunk_overlap":50,"strategy":"semantic"}' \
     https://<Ihr-Host>/api/v1/vector/namespaces/<tenant>/<ns>/config

Ab dann überspringen Uploads in diese Wissensbasis den Vorschlags-Dialog (oder zeigen ihn mit den vorbelegten Wissensbasis-Werten). Bestehende Dokumente neu einbetten nach einer Strategie-Änderung ist eine Ein-Knopf-Operation in der Admin-Konsole.


Warum das zählt

Bessere Chunks, bessere Retrieval.

Generische 512-Tokens-Überlappung-50 über allem funktioniert, aber sie funktioniert am wenigsten für Inhalt, bei dem die bedeutungstragende Einheit etwas anderes ist — ein Satz in einem Vertrag, eine Funktion im Code, eine Äußerung in einem Interview, eine Zeile in einer CSV. Inhaltsbewusstes Chunking ist die einzelne Änderung, die RAG von „findet manchmal das Richtige“ auf „findet zuverlässig das Richtige“ bringt, weil die im Vektor-Index gespeicherten Einheiten mit den Einheiten übereinstimmen, um die es in der Anfrage geht.

Kombiniert mit der EMM-Compressed-Retrieval-Preview und der Intelligente-Memory-Inferenz-Preview ist die Chunking-Ebene das Fundament der Retention-Schleife von Eldric: hochwertige Chunks beim Ingest → bessere RAG-Treffer → bessere Akzeptanz durch den Nutzer → nützlichere Trainings-Korpora → klügere Plattform mit der Zeit.


Weiter

Tiefer einsteigen.

Für die Anleitung für Endnutzer: RAG verwenden. Für die Architektur-Sicht: RAG-Architektur. Für das Kaskaden-Verhalten (ENRN → EMM → RAG → Live-Quelle): RAG bei Bedarf. Für eigene Klassifikation — Eldric Ihre eigenen Intent-Klassen beibringen — siehe Eigene Klassifikation.