In der Modellauswahl des Chats trägt jeder Eintrag ein kleines farbiges Kennzeichen, das den Anbieter hinter diesem Modell identifiziert — Ollama auf Ihrem Cluster, Ollama Cloud, Eldric Inferenced, OpenAI, Anthropic, xAI, HuggingFace und andere. Dasselbe Kennzeichen erscheint unter jeder Assistenten-Antwort. Der Punkt ist einfach: zwei Modelle mit demselben Namen können von verschiedenen Anbietern kommen und sich unterschiedlich verhalten. Das Kennzeichen sagt Ihnen, welches gerade bedient.
Das Kennzeichen ist ein farbiges abgerundetes Quadrat mit einem Kurzcode oder Marken-Symbol darin. Verschiedene Farben für verschiedene Anbieter — so erkennen Sie den Pfad mit einem Blick, ohne den Kleintext darunter zu lesen. Zwei Einträge namens gpt-oss-120b von verschiedenen Anbietern tragen verschiedene Kennzeichen, und der Assistenten-Chip unter ihren Antworten passt dazu.
Andere Anbieter — Together, Mistral, Fireworks, Cohere, Perplexity, Azure OpenAI, NVIDIA NIM und alle benutzerdefinierten Endpunkte — bekommen ihre eigenen Farb-Varianten, sobald die Plattform sie kennt. Wenn Sie einen Anbieter konfigurieren, den die Plattform noch nicht kennt, sehen Sie das ?-Kennzeichen mit der tatsächlichen ID beim Hover.
Das Kennzeichen steht in der Auswahl neben dem Modellnamen, damit Sie informiert wählen, bevor Sie beginnen. Die „Aktives Modell“-Pille unten in der Eingabezeile trägt dasselbe Kennzeichen, während Sie tippen. Unter jeder Assistenten-Antwort zeigt ein kleiner Chip den Anbieter, der diese eine Nachricht tatsächlich bedient hat — als Beleg, wer geantwortet hat. Lenkt der Cluster mitten im Gespräch um (ein Worker fällt aus, ein Backend rate-limitet, Sie wechseln das Modell), sehen Sie das Kennzeichen wechseln. Das System tauscht zwischen Turns nie still den Anbieter.
Wenn zwei Einträge in der Auswahl denselben Modellnamen tragen (üblich bei Open-Weight-Modellen, die mehrere Anbieter hosten), erkennen Sie sie am Kennzeichen. O gpt-oss-120b ist die Ollama-Runtime Ihres lokalen Clusters; O gpt-oss-120b ist Ollama Cloud. Dieselben Gewichte, aber die Inferenz läuft an verschiedenen Orten, auf verschiedener Hardware, mit verschiedenen Latenz-Eigenschaften — und die Antworten können sich durch Sampling oder Versions-Drift zwischen Hosts subtil unterscheiden.
Das Kennzeichen ist der einfachste Weg, die Frage „woher kommt diese Antwort?“ zu beantworten, ohne den Chat zu verlassen.