# So wählen Sie das richtige LLM aus

Bei der Verwendung von Blockbrain ist es entscheidend zu verstehen, wie Rechenressourcen gemessen und zugewiesen werden, um das Beste aus der Plattform herauszuholen. Im Mittelpunkt dieses Systems steht eine transparente, nutzungsbasierte Kennzahl: **Compute-Blöcke (CBs)**.&#x20;

Jede Aktion in Blockbrain – das Senden einer Nachricht, das Hochladen einer Datei oder das Ausführen eines Agents – verbraucht Compute-Blöcke (CBs). CBs spiegeln die tatsächlichen Rechenkosten jeder Operation wider und bestehen hauptsächlich aus Tokens, die von Large Language Models (LLMs) verwendet werden.&#x20;

Die CB-Nutzung spiegelt direkt die Preisgestaltung der Eingabe- und Ausgabetokens jedes LLM wider. Wenn beispielsweise Opus 4.6 bei den Preisen für Eingabe- und Ausgabetokens 66,67 % teurer ist als Sonnet 4.6, ist auch sein CB-Verbrauch ungefähr 66,67 % höher.&#x20;

***

### Standardempfehlung für den unternehmensweiten Einsatz&#x20;

#### Hauptwahl: Gemini 2.5 Flash&#x20;

Blockbrain-Metriken:&#x20;

* Antwortqualität: 3,2/5&#x20;
* Geschwindigkeit: 4,8/5&#x20;
* Kosteneffizienz: 4,6/5&#x20;
* Kontext: 1 Mio. Tokens | Anbieter: Vertex AI (EU)&#x20;

**Preisgestaltung**: 0,50 $ Eingabe / 3,00 $ Ausgabe pro Million Tokens&#x20;

Warum dieses Modell? Hervorragende Balance aus Qualität, Geschwindigkeit und Kosten mit einem massiven Kontextfenster von 1 Mio. Tokens – ideal für vielfältige geschäftliche Anwendungsfälle.&#x20;

#### Alternative #1: GPT 5.4 Mini&#x20;

Blockbrain-Metriken:&#x20;

* &#x20;Qualität: 4,3 | Geschwindigkeit: 4,5 | Kosteneffizienz: 4,2&#x20;
* Kontext: 400k Tokens | Anbieter: OpenAI (EU)&#x20;

**Preisgestaltung**: 0,40 $ Eingabe / 1,60 $ Ausgabe pro Million Tokens&#x20;

Warum in Betracht ziehen? Wettbewerbsfähige Qualität zu niedrigen Kosten – hervorragend für den Einsatz mit hohem Volumen.&#x20;

#### Alternative #2: Claude Haiku 4.5&#x20;

Blockbrain-Metriken:&#x20;

* Qualität: 3,6 | Geschwindigkeit: 3,6 | Kosteneffizienz: 4,0&#x20;
* Kontext: 200k Tokens | Anbieter: Vertex AI (EU)&#x20;

**Preisgestaltung**: 1 $ Eingabe / 5 $ Ausgabe pro Million Tokens&#x20;

Warum in Betracht ziehen? Höchste Qualität unter den Budget-Modellen. Hervorragend für Teams, die bessere Schlussfolgerungen benötigen und gleichzeitig kosteneffizient bleiben wollen.&#x20;

***

### Szenariobasierte Empfehlungen&#x20;

#### Höchste Qualität (Premium-Aufgaben)&#x20;

**Gewinner: Claude Opus 4.6 Max (SEHR TEUER)**

* Blockbrain-Bewertung: Qualität 5,0 (höchste im Portfolio)&#x20;

> Hinweis zur Konsistenz: Die Blockbrain-Vergleichstabelle führt Claude Opus 4.6 mit 4,5. Die Bewertung 5,0 hier spiegelt die Spitzenleistung der Max-Konfiguration wider.&#x20;

* Preisgestaltung: 5 $ Eingabe / 25 $ Ausgabe pro Million Tokens&#x20;

> Kostenwarnung: Bei 25 $ pro Million Ausgabetokens kostet dies 8-mal mehr als Gemini 2.5 Flash. Für 10.000 Antworten/Monat (je 1.000 Tokens) sind allein für die Ausgaben Kosten von über 250 $ zu erwarten.&#x20;

**Wann verwenden**: Für geschäftskritische Aufgaben, Ergebnisse für die Geschäftsleitung, komplexe strategische Analysen oder wenn absolute Spitzenqualität nicht verhandelbar ist.&#x20;

**Budget-Qualitätsoption: Gemini 2.5 Pro**&#x20;

* Qualität: 3,6 | Geschwindigkeit: 4,3 | Kosteneffizienz: 3,7&#x20;
* **Preisgestaltung**: 2 $ Eingabe / 12 $ Ausgabe pro Million Tokens&#x20;
* Beste Premium-Option ohne extreme Kosten &#x20;

#### Maximale Geschwindigkeit&#x20;

**Gewinner: Claude Sonnet 4.6 Fast**&#x20;

* Blockbrain-Bewertung: Geschwindigkeit: 5,0 | Antwortqualität: 3,8
* **Preisgestaltung**: 3 $ Eingabe / 15 $ Ausgabe pro Million Tokens&#x20;
* Kontext: 1 Mio. Tokens | Anbieter: Vertex AI (EU)&#x20;

**Warum es gewinnt**: Erreicht maximale Geschwindigkeit (5,0) bei hervorragender Qualität (4,5). Ideal für Echtzeitanwendungen, kundennahe Chatbots und zeitkritische Workflows.&#x20;

**Zweitplatzierter: Gemini 2.5 Flash**&#x20;

* Geschwindigkeit: 4,8 | Antwortqualität: 3,8&#x20;
* Preisgestaltung: 0,50 $ Eingabe / 3 $ Ausgabe (5x günstigere Ausgaben)&#x20;
* **Besseres Preis-Leistungs-Verhältnis** für die meisten geschwindigkeitskritischen Anwendungen&#x20;

#### Exzellenz in der Softwareentwicklung&#x20;

**Gewinner: Gemini 3.5 Flash**

Blockbrain-Metriken:&#x20;

* Qualität: 4,6 | Geschwindigkeit: 4,6 | Kosteneffizienz: 3,7&#x20;
* Kontext: 1 Mio. Tokens | Anbieter: Vertex AI (EU) &#x20;
* **Preisgestaltung**: 1,5 $ Eingabe / 9 $ Ausgabe pro Million Tokens&#x20;

**Warum es gewinnt**: Höchste Qualität für die Codeentwicklung (4,6) bei hervorragender Geschwindigkeit. Speziell für Coding- und agentische Aufgaben entwickelt.&#x20;

**Alternative: GPT 5.3 Codex**&#x20;

Blockbrain-Metriken:&#x20;

* Qualität: 4,4 | Geschwindigkeit: 4,2 | Kosteneffizienz: 3,5&#x20;
* Kontext: 400k Tokens | Anbieter: OpenAI (EU) &#x20;
* **Preisgestaltung**: 1,75 $ Eingabe / 14 $ Ausgabe pro Million Tokens&#x20;

**Warum es gewinnt**: Hohe Qualität für die Codeentwicklung (4,4) bei hervorragender Geschwindigkeit. Speziell für Softwareentwicklung, Codegenerierung und technische Aufgaben entwickelt.&#x20;

**Premium-Option: Claude Opus 4.6**&#x20;

* Antwortqualität: 4,5 | Preisgestaltung: 5 $ / 25 $&#x20;
* Am besten für: komplexe Architekturentscheidungen, kritische Code-Reviews&#x20;

#### Kreative und Schreibaufgaben&#x20;

**Gewinner: Claude Sonnet 4.6** &#x20;

* Blockbrain-Bewertung: Qualität 4,4 | Geschwindigkeit 3,8 | Kosteneffizienz 3,3&#x20;
* **Preisgestaltung**: 3 $ Eingabe / 15 $ Ausgabe pro Million Tokens&#x20;
* Kontext: 1 Mio. Tokens | Anbieter: Vertex AI (EU)&#x20;

**Warum es gewinnt**: Claude-Modelle glänzen bei nuancierter Sprache, Tonalitätssteuerung und kreativen Inhalten. Sonnet 4.6 liefert Schreibqualität auf Flaggschiff-Niveau (4,7) zu Preisen der mittleren Kategorie – außergewöhnlicher Wert für kreative Arbeit.&#x20;

**Budget-Alternative: Claude Haiku 4.5**&#x20;

* Qualität: 3,6 | Preisgestaltung: 1 $ Eingabe / 5 $ Ausgabe&#x20;
* Hervorragend für: kreative Briefings, Social Media, E-Mail-Entwürfe&#x20;

**Premium-Option: Claude Opus 4.6**&#x20;

* Qualität: 4,5–5,0 | Preisgestaltung: 5 $ / 25 $&#x20;
* Am besten für: Inhalte mit hoher Bedeutung, Marken-Manifestos, kritische Kommunikation&#x20;

#### Aufgaben mit komplexem Denken &#x20;

**Gewinner: o3 (OpenAI Reasoning Model)**&#x20;

Blockbrain-Metriken:&#x20;

* Qualität: 3,5 | Geschwindigkeit: 2,3 | Kosteneffizienz: 3,7&#x20;
* Kontext: 200k Tokens | Anbieter: Azure AI (EU) &#x20;
* **Preisgestaltung**: 2 $ Eingabe / 8 $ Ausgabe pro Million Tokens&#x20;
* Leistung: 20 % Verbesserung gegenüber o1 bei Coding, Mathematik und Naturwissenschaften mit multimodalem Reasoning und autonomer Werkzeugnutzung.&#x20;
* Am besten für: komplexe Problemlösung, wissenschaftliche Analyse, fortgeschrittenes Coding, mathematische Beweise.&#x20;

**Budget-Alternative: o4 Mini**&#x20;

* Qualität: 3,4 | Geschwindigkeit: 3,7 | Kosteneffizienz: 4,1&#x20;
* **Preisgestaltung**: 1,10 $ Eingabe / 4,40 $ Ausgabe&#x20;
* 80–90 % der Denkfähigkeit von o3 zu 45 % geringeren Kosten&#x20;

**Premium-Option: GPT 5.5 Pro** &#x20;

* Qualität: 4,9 | Preisgestaltung: 5 $ / 30 $&#x20;
* Am fortschrittlichsten verfügbares Reasoning, aber sehr teuer&#x20;

***

### Entscheidungsmatrix&#x20;

| Priorität                   | Hauptempfehlung                   | Budget-Alternative            | Premium-Option                     |
| --------------------------- | --------------------------------- | ----------------------------- | ---------------------------------- |
| Ausgewogener Alltagseinsatz | Gemini 2.5 Flash (0,50 $/3 $)     | GPT 5.4 Mini (0,40 $/1,60 $)  | Gemini 2.5 Pro (2 $/12 $)          |
| Maximale Kosteneinsparungen | GPT 4o Mini (0,15 $/0,60 $)       | GPT 5.4 Mini (0,40 $/1,60 $)  | Gemini 2.5 Flash (0,50 $/3 $)      |
| Höchste Qualität            | Claude Opus 4.6 Max (5 $/25 $)    | Gemini 2.5 Pro (2 $/12 $)     | GPT 5.5 Pro (5 $/30 $)             |
| Schnellste Antwort          | Claude Sonnet 4.6 Fast (3 $/15 $) | Gemini 2.5 Flash (0,50 $/3 $) | GPT 5.4 Low Thinking (2,50 $/15 $) |
| Kreative Arbeit             | Claude Sonnet 4.6 (3 $/15 $)      | Claude Haiku 4.5 (1 $/5 $)    | Claude Opus 4.6 (5 $/25 $)         |
| Code-Entwicklung            | Gemini 3.5 Flash (1,5 $/9 $)      | GPT 5.3 Codex (1,75 $/14 $)   | Claude Opus 4.6 (5 $/25 $)         |
| Komplexes Reasoning         | o3 (2 $/8 $)                      | o4 Mini (1,10 $/4,40 $)       | GPT 5.5 Pro (5 $/30 $)             |

***

### Strategische Empfehlungen&#x20;

#### Für die meisten Unternehmen: Multi-Modell-Strategie&#x20;

Wir empfehlen einen gestaffelten Ansatz:&#x20;

* **Stufe 1** (80 % der Anfragen): Schnelle, kosteneffiziente Modelle&#x20;
  * Gemini 2.5 Flash oder GPT 5.4 Mini&#x20;
  * Verwenden für: E-Mails, Zusammenfassungen, Q\&A, grundlegende Analysen &#x20;
* **Stufe 2** (15 % der Anfragen): Ausgewogene Premium-Modelle&#x20;
  * Claude Sonnet 4.6 oder Gemini 2.5 Pro&#x20;
  * Verwenden für: Berichte, komplexe Inhalte, strategische Analysen&#x20;
* Stufe 3 (5 % der Anfragen): Flaggschiff-Modelle&#x20;
  * Claude Opus 4.6 (nur wenn notwendig)&#x20;
  * Verwenden für: kritische Entscheidungen, Inhalte mit hoher Bedeutung, Materialien für die Geschäftsleitung&#x20;

Geschätzte Einsparungen: 60–75 % gegenüber dem Einsatz von Flaggschiff-Modellen für alles&#x20;

***

### Abschließende Empfehlungen nach Unternehmensgröße &#x20;

#### Startups und kleine Teams (<50 Personen) &#x20;

**Standard**: GPT 5.4 Mini — 0,40 $ Eingabe / 1,60 $ Ausgabe&#x20;

* Hervorragende Qualität für den Preis (4,3)&#x20;
* Breite Fähigkeiten über viele Anwendungsfälle hinweg&#x20;
* Geringe absolute Kosten für den Einstieg&#x20;

**Alternative**: Gemini 2.5 Flash — 0,50 $ Eingabe / 3 $ Ausgabe&#x20;

* Etwas höhere Kosten, aber Kontextfenster mit 1 Mio. Tokens&#x20;
* Besser für dokumentenintensive Workflows &#x20;

#### Mittelständische Unternehmen (50–500 Personen)&#x20;

**Standard**: Gemini 2.5 Flash — 0,50 $ Eingabe / 3 $ Ausgabe&#x20;

* Beste ausgewogene Leistung (3,2 Qualität, 4,8 Geschwindigkeit)&#x20;
* Kontextfenster mit 1 Mio. Tokens für Vielseitigkeit&#x20;
* Skaliert gut mit dem Volumen&#x20;

**Spezial-Add-ons:**&#x20;

* Engineering: GPT 5.3 Codex (1,75 $/14 $) oder Mistral Codestral (0,30 $/0,90 $)&#x20;
* Hochwertige Inhalte: Claude Sonnet 4.6 (3 $/15 $)&#x20;

#### Großunternehmen (500+ Personen)&#x20;

**Standard**: Multi-Modell-Strategie&#x20;

| Abteilung              | Empfohlenes Modell                                             | Preisgestaltung (Eingabe/Ausgabe) |
| ---------------------- | -------------------------------------------------------------- | --------------------------------- |
| Engineering            | GPT 5.3 Codex + Mistral Codestral (Volumen) / Gemini 3.5 Flash | $1.75/$14 + $0.30/$0.90 / $1.5/$9 |
| Kreativ / Marketing    | Claude Sonnet 4.6                                              | $3/$15                            |
| Analyse                | Gemini 2.5 Pro                                                 | $2/$12                            |
| Allgemeine Belegschaft | Gemini 2.5 Flash                                               | $0.50/$3                          |
| Führung / Kritisch     | Claude Opus 4.6 (eingeschränkter Zugang)                       | $5/$25                            |

**Kostenmanagement:**&#x20;

* Modell-Routing basierend auf der Komplexität der Anfrage implementieren&#x20;
* Monatliche Budgets pro Team festlegen&#x20;
* Nutzungsmuster vierteljährlich überwachen&#x20;

***

### Wichtige Überlegungen&#x20;

#### Kosten für Ausgabetokens sind am wichtigsten&#x20;

Für typische konversationelle KI:&#x20;

* **Eingabe**: System-Prompt + Benutzeranfrage = 500 Tokens&#x20;
* **Ausgabe**: KI-Antwort = 200–500 Tokens&#x20;

Beispielkosten für 1.000 Anfragen (500 Eingabetokens, 300 Ausgabetokens):&#x20;

| Modell            | Eingabekosten | Ausgabekosten | Gesamt |
| ----------------- | ------------- | ------------- | ------ |
| GPT 4o Mini       | $0.075        | $0.18         | $0.26  |
| GPT 5.4 Mini      | $0.20         | $0.48         | $0.68  |
| Gemini 2.5 Flash  | $0.25         | $0.90         | $1.15  |
| Claude Haiku 4.5  | $0.50         | $1.50         | $2.00  |
| Claude Sonnet 4.6 | $1.50         | $4.50         | $6.00  |
| Claude Opus 4.6   | $2.50         | $7.50         | $10.00 |

> Ausgabeintensive Anwendungsfälle (Berichte, Dokumentation, Codegenerierung) sollten Modelle mit niedrigen Ausgabekosten priorisieren. &#x20;

#### Wert des Kontextfensters&#x20;

| Modell                 | Kontextfenster   |
| ---------------------- | ---------------- |
| Gemini 2.5 Flash / Pro | 1 Mio. Tokens    |
| Claude Sonnet 4.6      | 1 Mio. Tokens    |
| Die meisten anderen    | 128k–400k Tokens |
| Mistral Codestral      | 32k Tokens       |

**Wenn es wichtig ist**: Dokumentenanalyse, lange Gespräche, umfassende Recherche, Code-Review über mehrere Dateien hinweg.&#x20;

> Profi-Tipp: Ein Kontextfenster mit 1 Mio. Tokens kann 750.000 Wörter oder 3.000 Seiten Text aufnehmen.&#x20;

#### Anbieter-Aspekte&#x20;

**Alle Blockbrain-Modelle werden in der EU gehostet und gewährleisten:**&#x20;

* **DSGVO-Konformität** – Datenverarbeitung innerhalb der EU-Grenzen&#x20;
* **Datenresidenz** – Erfüllt europäische regulatorische Anforderungen&#x20;
* **Geringere Latenz** – Für europäische Kunden&#x20;

***

### Best Practices zur Kostenoptimierung&#x20;

#### 1. Prompt-Engineering&#x20;

**Ausgabetokens um 30–50 % reduzieren**&#x20;

Fügen Sie dies entweder in die Anfangsanweisungen des Bots ein oder geben Sie es direkt vor:&#x20;

* Fordern Sie knappe Antworten an: „Antworten Sie in 2–3 Sätzen“ oder verwenden Sie in der Sendbox \
  Optionen → Länge: Kurz / Sehr Kurz&#x20;
* Verwenden Sie strukturierte Ausgaben: „Antworten Sie in Stichpunkten“&#x20;
* Redundanz vermeiden: „Wiederholen Sie die Frage nicht“&#x20;

> **Auswirkung**: Kann die Kosten bei ausgabeintensiven Modellen um mehr als 40 % senken.&#x20;

#### 2. Intelligentes Modell-Routing&#x20;

| Anfragetyp                             | Empfohlenes Modell           |
| -------------------------------------- | ---------------------------- |
| Einfach (FAQ, Definitionen)            | GPT 5.4 Mini                 |
| Standard (Analyse, Entwurfserstellung) | Gemini 2.5 Flash             |
| Komplex (strategisch, kritisch)        | Claude Sonnet 4.6 / Opus 4.6 |

> **Auswirkung**: 50–70 % Kostenreduktion gegenüber dem Einsatz von Premium-Modellen für alles.&#x20;

#### 3. Caching & Wiederverwendung&#x20;

* Häufige Prompts zwischenspeichern (Prompt-Bibliothek)&#x20;
* Kontext nach Möglichkeit wiederverwenden (z. B. über Insights)&#x20;
* RAG (Retrieval-Augmented Generation) über die Datenbank implementieren, um die Kontextgröße zu reduzieren&#x20;

**Auswirkung**: 20–30 % Reduktion der Kosten für Eingabetokens.&#x20;

***

### Modellvergleichstabelle (Top-Empfehlungen)&#x20;

| Modell                 | Antwortqualität | Geschwindigkeit | Kosteneff. | Eingabe $ | Ausgabe $ |                               |
| ---------------------- | --------------- | --------------- | ---------- | --------- | --------- | ----------------------------- |
| Gemini 3.5 Flash       | 4.6             | 4.6             | 3.7        | $1.5      | $9        |                               |
| Gemini 2.5 Flash       | 3.2             | 4.8             | 4.6        | $0.50     | $3.00     | Allround-Standard             |
| GPT 5.4 Mini           | 4.3             | 4.5             | 4.2        | $0.40     | $1.60     | Budgetbewusst                 |
| GPT 4o Mini            | 2.3             | 5.0             | 5.0        | $0.15     | $0.60     | Maximale Einsparungen         |
| Claude Haiku 4.5       | 3.6             | 3.6             | 4.0        | $1.00     | $5.00     | Qualität zum Budgetpreis      |
| GPT 5.3 Codex          | 4.4             | 4.2             | 3.5        | $1.75     | $14.00    | Code-Entwicklung              |
| Mistral Codestral      | 3.4             | 3.9             | 5.0        | $0.30     | $0.90     | Code (Budget)                 |
| Claude Sonnet 4.6      | 4.4             | 3.0             | 3.3        | $3.00     | $15.00    | Kreativ / Schreiben           |
| Claude Sonnet 4.6 Fast | 3.8             | 5.0             | 3.7        | $3.00     | $15.00    | Geschwindigkeit + Qualität    |
| Gemini 2.5 Pro         | 3.6             | 4.1             | 3.7        | $2.00     | $12.00    | Premium-ausgewogen            |
| Claude Opus 4.6        | 4.5             | 2.8             | 3.0        | $5.00     | $25.00    | Qualität der Spitzenklasse    |
| GPT 5.5 Pro            | 4.9             | 1.2             | 1.8        | $5.00     | $30.00    | Maximale Qualität / Reasoning |
| o3                     | 3.5             | 2.3             | 3.7        | $2.00     | $8.00     | Komplexes Reasoning           |
| o4 Mini                | 3.4             | 3.7             | 4.1        | $1.10     | $4.40     | Reasoning-Wert                |

### Fazit&#x20;

**Das Blockbrain-Modellportfolio bietet hervorragende Optionen für jeden Anwendungsfall und jedes Budget.**&#x20;

**Für die meisten Unternehmen empfehlen wir:**&#x20;

1. Beginnen Sie mit Gemini 2.5 Flash als Standardmodell (z. B. in Ihrem Company GPT)&#x20;
2. Fügen Sie GPT 5.4 Mini für budgetbewusste Teams hinzu&#x20;
3. Führen Sie Spezialmodelle ein (Gemini 3.5 Flash, GPT 5.3 Codex, Claude Sonnet 4.6)&#x20;
4. Reservieren Sie Premium-Modelle (Opus, GPT 5.5 Pro) nur für kritische Arbeit&#x20;

**Dieser Ansatz liefert typischerweise:**&#x20;

* 60–75 % Kosteneinsparungen gegenüber dem Einsatz nur von Premium-Modellen&#x20;
* 90 %+ Nutzerzufriedenheit&#x20;
* Flexibilität, um im Laufe der Zeit zu skalieren und zu optimieren


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.blockbrain.ai/de/fur-nutzer/alles-uber-llms/so-wahlen-sie-das-richtige-llm-aus.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.