Die besten Sprachmodelle für die digitale Produktentwicklung im Vergleich.
LLM Benchmarks April 2025

Die Highlights aus der Welt der Sprachmodelle im April:
- Neue OpenAI Modelle: o3-mini, o4-mini, GPT-4.1
- Qwen3 setzt neue Maßstäbe bei lokalen Modellen
- Google überzeugt immer mehr: Gemini Flash 2.5 Preview und Pro 2.5 v2
- Praxiseinblicke in Coding mit KI
Modell Scores
# | Model | bi | compliance | code | reason | Score | Local | Features |
---|---|---|---|---|---|---|---|---|
1 | openai/o3-mini-2025-01-31 | 45% | 70% | 100% | 74% | 76.7% | SO, Reason | |
2 | openai/o4-mini-2025-04-16 | 45% | 70% | 100% | 74% | 76.7% | SO, Reason | |
3 | google/gemini-2.5-flash-preview:thinking | 45% | 57% | 100% | 68% | 71.2% | Reason | |
4 | google/gemini-2.5-pro-preview-03-25 | 45% | 70% | 93% | 68% | 71.1% | Reason | |
5 | qwen/qwen3-32b | 54% | 40% | 96% | 68% | 71.1% | ✓ | Reason, Open |
6 | anthropic/claude-3.7-sonnet:thinking | 54% | 32% | 100% | 67% | 70.4% | Reason | |
7 | openai/o1-2024-12-17 | 45% | 70% | 84% | 67% | 70.0% | SO, Reason | |
8 | openai/gpt-4.1-2025-04-14 | 45% | 70% | 77% | 67% | 67.2% | SO | |
9 | deepseek/deepseek-r1 | 27% | 64% | 100% | 63% | 66.1% | ✓ | SO, Reason, Open |
10 | google/gemini-2.5-pro-preview-05-06 | 45% | 70% | 80% | 65% | 65.6% | Reason | |
11 | qwen/qwen3-30b-a3b | 45% | 37% | 96% | 61% | 65.0% | ✓ | Reason, Open |
12 | qwen/qwen3-235b-a22b | 36% | 45% | 100% | 59% | 62.8% | ✓ | Reason, Open |
13 | openai/gpt-4.1-mini-2025-04-14 | 36% | 80% | 63% | 60% | 61.1% | SO | |
14 | deepseek/deepseek-r1-distill-llama-70b | 36% | 32% | 96% | 56% | 60.0% | ✓ | Open |
15 | deepseek/deepseek-chat-v3-0324 | 45% | 60% | 70% | 55% | 59.6% | ✓ | Reason, Open |
16 | google/gemini-2.5-flash-preview | 45% | 60% | 70% | 58% | 59.4% | ||
17 | anthropic/claude-3.7-sonnet | 45% | 47% | 65% | 55% | 56.5% | ||
18 | qwen/qwen3-14b | 27% | 15% | 100% | 52% | 56.1% | ✓ | Reason, Open |
19 | openai/gpt-4o-2024-11-20 | 36% | 55% | 62% | 55% | 53.6% | SO | |
20 | openai/gpt-4.5-preview-2025-02-27 | 45% | 47% | 62% | 53% | 51.9% | SO | |
21 | deepseek-v3 | 36% | 47% | 58% | 49% | 50.6% | ✓ | SO, Open |
22 | openai/gpt-4o-2024-08-06 | 18% | 62% | 63% | 52% | 50.5% | SO | |
23 | mistralai/mistral-medium-3 | 36% | 35% | 70% | 45% | 49.9% | SO, Reason | |
24 | microsoft/phi-4 | 36% | 62% | 57% | 48% | 49.7% | ✓ | Open |
25 | meta-llama/llama-4-maverick | 27% | 42% | 70% | 44% | 49.1% | ✓ | SO, Open |
26 | qwen/qwen-max | 45% | 45% | 45% | 50% | 46.3% | ||
27 | google/gemma-3-27b-it | 27% | 27% | 70% | 43% | 45.0% | ✓ | Open |
28 | anthropic/claude-3.5-sonnet | 36% | 32% | 57% | 44% | 43.6% | ||
29 | meta-llama/llama-3.1-70b-instruct | 36% | 50% | 44% | 43% | 42.6% | ✓ | SO, Open |
30 | meta-llama/llama-3.3-70b-instruct | 27% | 50% | 48% | 41% | 40.8% | ✓ | SO, Open |
31 | google/gemini-2.0-flash-001 | 27% | 24% | 57% | 38% | 40.7% | ||
32 | qwen/qwq-32b | 36% | 52% | 41% | 37% | 40.0% | ✓ | SO, Reason, Open |
33 | qwen/qwen-2.5-72b-instruct | 27% | 30% | 47% | 39% | 39.2% | ✓ | SO, Open |
34 | mistralai/mistral-small-3.1-24b-instruct | 36% | 42% | 41% | 39% | 39.2% | ✓ | SO, Open |
35 | openai/gpt-4.1-nano-2025-04-14 | 9% | 32% | 64% | 32% | 37.7% | SO | |
36 | qwen/qwen2.5-32b-instruct | 27% | 20% | 53% | 36% | 36.6% | ✓ | Open |
37 | qwen/qwen-2.5-coder-32b-instruct | 18% | 35% | 54% | 39% | 36.5% | ✓ | SO, Open |
38 | meta-llama/llama-3.1-405b-instruct | 18% | 55% | 40% | 38% | 35.5% | ✓ | SO, Open |
39 | google/gemma-3-12b-it | 9% | 17% | 61% | 30% | 33.4% | ✓ | Open |
40 | qwen/qwen-plus | 18% | 25% | 40% | 31% | 31.7% | ||
41 | google/gemma-3-12b-it-qat-q4_0-gguf | 18% | 47% | 34% | 24% | 30.6% | ✓ | SO, Open |
42 | mistralai/mixtral-8x22b-instruct | 9% | 27% | 47% | 28% | 29.2% | ✓ | SO, Open |
43 | openai/gpt-4o-mini-2024-07-18 | 9% | 32% | 41% | 30% | 28.4% | SO | |
44 | mistral/mistral-small-24b-instruct-2501 | 27% | 22% | 33% | 30% | 27.8% | ✓ | SO, Open |
45 | qwen/qwen-turbo | 0% | 15% | 41% | 20% | 21.9% | ||
46 | deepseek/deepseek-r1-distill-qwen-32b | 9% | 22% | 29% | 17% | 21.2% | ✓ | SO, Open |
47 | meta-llama/llama-4-scout | 9% | 25% | 22% | 16% | 18.0% | ✓ | SO, Open |
48 | mistral/ministral-8b | 18% | 0% | 20% | 13% | 14.8% | ✓ | SO, Open |
49 | meta-llama/llama-3.2-3b-instruct | 0% | 17% | 16% | 11% | 10.6% | ✓ | SO, Open |
50 | mistralai/mistral-large-2411 | 0% | 0% | 0% | 0% | 0.0% | ✓ | SO, Open |
51 | ByteDance-Seed/Seed-Coder-8B-Reasoning | 0% | 0% | 0% | 0% | 0.0% | ✓ | SO, Reason, Open |
Averages | 29% | 41% | 60% | 44% |
Neue OpenAI Modelle: o3-mini, o4-mini, GPT-4.1
Neue Modelle von OpenAI haben sich gut in unserem Ranking für logisches Denken platziert. o3-mini und o4-mini erreichten Spitzenplätze, während die günstigeren Versionen 4.1 (base und mini) die Plätze 8 und 13 belegten.
Große Überraschungen gibt es dabei nicht – abgesehen von den Betriebskosten dieser Modelle.

Qwen3 setzt neue Maßstäbe bei lokalen Modellen
Die Modelle der Qwen-Reihe gelten längst als bewährter „Geheimtipp“ für Teams, die Large Language Models (LLM) lokal betreiben möchten.
Bereits Qwen 2.5 wurde erfolgreich in zahlreichen Projekten eingesetzt – was sich auch in den relativ hohen Ergebnissen in unserem Benchmark für logisches Denken widerspiegelte.
Enterprise-Qualität bei komplexen Aufgaben
Mit den neuen Qwen3-Modellen wurde die Messlatte jetzt noch einmal höher gelegt. Qwen3 steht in verschiedenen Varianten zur Verfügung: als Standardmodelle sowie als Mixture-of-Experts-Modelle.
Zwar benötigen diese Modelle für die Verarbeitung komplexer Probleme etwas mehr Zeit, ihre Genauigkeit liegt jedoch auf dem Niveau der besten Cloud-Modelle.
Damit eignen sie sich besonders gut für anspruchsvolle Enterprise-Aufgaben, bei denen höchste Genauigkeit entscheidend ist und die problemlos über Nacht laufen können.
- Qwen3 32B
32,8 Mrd. Parameter, nativer Kontext von 32k Token, erweiterter Kontext bis zu 131k Token (zum Download auf Huggingface)
- Qwen3-30B-A3B
30,5 Mrd. Parameter, allerdings werden pro Token nur 3,3 Mrd. aktiviert (was zu einer schnelleren Inferenz führt) (zum Download auf Huggingface)

Der Release von Qwen3 hebt den Standard für lokale Sprachmodelle weiter an und setzt Cloud-Anbieter zunehmend unter Druck. Doch die Entwicklung bleibt hier nicht stehen.
Google wird immer besser: Gemini Flash 2.5 Preview und Pro 2.5 v2
Wir erinnern uns, dass Google früher oft hinterherlief. Die ersten Gemini-Modelle lagen deutlich hinter OpenAI zurück, und das viel gelobte Gemini Ultra kam nie auf den Markt.
Seitdem hat Google jedoch das Blatt Schritt für Schritt gewendet. Zwar erreicht man noch nicht ganz die Spitzenpositionen von OpenAI, liefert aber kontinuierlich Modelle innerhalb der Top-10 – und schlägt OpenAI bei Preis und Stabilität.

Gemini-2.5-Flash Preview im Thinking Mode ist derzeit das beste Google-Modell in unserem Benchmark. Gemini 2.5 Pro Preview belegt die Plätze 4 und 10. Gemini 2.5 Flash im Non-Thinking Mode erreicht Platz 16.
Benchmarks sind jedoch nur eine Annäherung an reale Szenarien. Deshalb zwei ergänzende Datenpunkte aus der Praxis:
Erstens verlassen sich erfahrene Entwickler:innen (mit Zugriff auf Mistral, Anthropic, ChatGPT Pro und Gemini) zunehmend auf Gemini 2.5 Pro als bevorzugtes Tool für KI-gestütztes Coding. Besonders gelobt wird die Qualität der Antworten und die zuverlässige Arbeit mit großem Kontext. So ist es üblich, wesentliche Codeabschnitte (bis zu 50.000 Token) direkt in den Prompt zu kopieren und dann interaktiv mit dem Chat weiterzuarbeiten, bis der Gesamtkontext 200.000–500.000 Token erreicht.
Ein weiteres Beispiel betrifft das Verständnis komplexer Dokumente. In den letzten Monaten hören wir von Kolleg:innen aus der KI-Forschung vermehrt:
„Wenn es um die zuverlässige Verarbeitung von Unternehmensdokumenten geht, nutze Google Gemini LLM.“
Wir haben dies geprüft. In einer unserer Evaluierungen luden wir beispielsweise ein Compliance-PDF in eine Graph-Datenbank, um es weiter zu analysieren. Herausfordernd dabei: Solche Dokumente umfassen oft mehrere hundert Seiten und müssen daher seitenweise geladen werden. Außerdem sind sie stark verschachtelt, wodurch besondere Sorgfalt erforderlich ist, um Inhalte korrekt über Seitenumbrüche hinweg zuzuordnen.

Modelle von Anthropic, Mistral und sogar OpenAI scheitern daran, Inhalte zuverlässig über Seitenumbrüche hinweg zu „verknüpfen“. Sie verlieren selbst bei relativ kleinen Kontexten schnell den Überblick und geben den Originaltext oft verfälscht wieder.
Google Gemini 2.5 Pro dagegen bewältigt exakt dieselbe Aufgabe (bei identischen Eingaben) zuverlässig. Das macht dieses Modell zu einer starken Alternative gegenüber den OpenAI-Modellen, insbesondere bei KI-gestützten Arbeitsabläufen mit umfangreichen Dokumenten.
Praxiseinblicke in coding mit AI
Embrace AI Initiative
Im Rahmen des Entwicklungsprogramms bei TIMETOACT GROUP Österreich führen wir die Embrace AI Initiative durch – ein Experiment, bei dem erfahrene Softwareentwickler:innen im Umgang mit modernen KI-Coding-Tools geschult werden. Dieses Programm ist auch in unseren AI-Research-Prozess integriert und stärkt ihn durch wertvolle Impulse aus der breiteren Expert:innen-Community.
Wie bereits erwähnt, lautet die erste Erkenntnis aus diesem Prozess, dass Anwender:innen im Alltag zunehmend von OpenAI- und Sonnet-3.7-Modellen auf Google Gemini 2.5 Pro wechseln. Dieser Trend betrifft sogar Entwickler:innen, die lange auf Sonnet 3.5 gesetzt hatten.
Der Grund für diesen Wechsel liegt in der effektiven Kombination aus Kontextgröße (die Menge an Kontext, die das Modell zuverlässig verarbeiten kann), Geschwindigkeit, Qualität und Kosteneffizienz, die Gemini-Modelle bieten.

Dieser Wechsel ist kein Massenphänomen – er betrifft ausschließlich erfahrene Entwickler:innen, die nicht an einen bestimmten KI-Anbieter gebunden sind und die Freiheit haben, für ihre Aufgaben das jeweils beste Tool zu wählen.
Die zweite Erkenntnis betrifft die Tool-Landschaft: Chats im Vergleich zu komplexen Multi-Agent-Entwicklungsumgebungen (IDEs). Um dies zu verdeutlichen, zeigen wir Ihnen ein Beispiel einer konkreten Aufgabe aus unserem Embrace-AI-Programm:
Beispiel einer Übung aus dem Embrace-AI-Programm
"Bitte implementiere ein Web-UI-Tool, mit dem du Anfragen an ein Modell von OpenAI, Gemini oder ein anderes LLM deiner Wahl senden kannst. Dabei sollst du die Möglichkeit haben, den Inhalt ausgewählter Dateien an den Prompt anzuhängen.
Anforderungen:
Das Tool erhält beim Start ein Verzeichnis als Argument übergeben (z. B. node server.js ../../projects/demo-project).
Beim Laden zeigt es alle Dateien rekursiv im linken Bereich an.
Wenn der Benutzer eine Datei anklickt, wird sie in den rechten Bereich hinzugefügt.
Wenn der Benutzer eine Datei im rechten Bereich anklickt, wird sie daraus entfernt.
Gibt der Benutzer einen Prompt ein und klickt auf „Submit“, wird der Inhalt der ausgewählten Dateien an den Prompt angehängt und an das LLM gesendet.
Die Antwort des LLMs wird per Streaming zurückgesendet.
Nicht erforderlich:
Mehrstufige Chats oder Folgefragen.
Jegliche Persistenz – beim Neuladen der Seite dürfen alle Informationen verloren gehen."
Den Softwareentwickler:innen stand es frei, beliebige Kombinationen von Tools einzusetzen – angefangen von einfachen Chats bis hin zu fortschrittlichen IDEs und Coding-Agenten. Wir ließen ihnen hierbei freie Hand, baten jedoch darum, die dafür benötigte Zeit zu messen.
Die schnellste Lösung entstand mithilfe von Anthropic Claude, ergänzt um Tools für den Zugriff auf PowerShell und Dateiverzeichnisse. Die Umsetzung dauerte insgesamt 30 Minuten und erforderte relativ viele Prompts und Tokens.

Andere Lösungen benötigten etwa 1,5 bis 2 Stunden für die Umsetzung des Codes. Hierbei waren menschliche Steuerung und gelegentliches Nachjustieren der verwendeten KI-Agenten nötig.
Das gleiche Programm ohne KI von Grund auf neu zu schreiben, würde wahrscheinlich mehrere Stunden dauern. Somit lieferte die beste KI-gestützte Lösung einen deutlichen Produktivitätsschub. Die mittlere KI-Lösung brauchte etwa gleich lang wie ein erfahrener Entwickler ohne KI-Unterstützung.
Dann haben wir die Aufgabenstellung umgedreht und die Herausforderung noch einmal erhöht:
"Schreibe einen Prompt, der – sobald er in ein beliebiges gutes Chat-LLM kopiert wird – unmittelbar den Code für das Tool aus der vorherigen Übung („Kata“) erzeugt, und zwar ohne Agenten oder komplexe IDEs. Der Prompt muss zuverlässig funktionieren und mit möglichst vielen verschiedenen Modellen kompatibel sein. Ziel dieser Herausforderung ist es, ein besseres intuitives Verständnis dafür zu entwickeln, wie LLMs funktionieren und warum komplexe Tools oder Agenten nicht immer erforderlich sind."
Der Zweck dieser Übung bestand darin, deutlich zu machen, dass moderne KI-Tools oft eher hinderlich als hilfreich sind – und dass Entwickler:innen, die die Grundlagen des Programmierens mit KI wirklich verstehen, deutlich schneller zu besseren Ergebnissen gelangen.
Unsere eigene Lösung für diese Aufgabe dauerte 15 Minuten und bestand aus 2 Schritten:
- Kopiere die Aufgabe („Kata“) in ChatGPT o1 pro, lasse das Modell Fragen zur Präzisierung der Aufgabe stellen und fasse anschließend alles in einem knappen Prompt zusammen. Dieses Vorgehen nennen wir in unseren Materialien „Prompt Distillation“.
- Der resultierende Prompt war 432 Token (1833 Zeichen) lang. Er lieferte bereits beim ersten Versuch eine funktionierende Lösung, nachdem er in GPT-o1 pro, GPT-4.5 und Claude 3.7 eingefügt wurde.

Ein anderer Entwickler nutzte Gemini 2.5 Pro für die „Prompt Distillation“ und kam in 15 Minuten zu einem ähnlichen Ergebnis (allerdings umfasste sein finaler Gemini-generierter Prompt 1191 Token bzw. 4598 Zeichen).
Klingt beeindruckend, oder? Unsere AI-Research-Community hat die Herausforderung ernst genommen und es sogar geschafft, noch weiterzugehen:
Ein Entwickler schrieb händisch einen Prompt mit nur 70 Token (313 Zeichen), der auf Gemini 2.5 Pro und Sonnet 3.7 direkt funktionierte. Dieser Prompt lief auch auf GPT-4o fast ohne Anpassung (nur eine Folgefrage war erforderlich).
Der Prompt sah folgendermaßen aus:
Ein weiterer Entwickler benötigte nur 7 Minuten für einen Prompt (194 Token + 298 Token eigene Anweisungen), der auf Anhieb auf Claude 3.7 ein valides Ergebnis lieferte.
Unser Fazit zu Coding mit AI
- Moderne KI-gestützte Coding-Tools bieten echte Produktivitätssteigerungen, sofern sie richtig eingesetzt werden.
- Praxis und Erfahrung sind oft wichtiger als ausgefallene Tools. Tatsächlich können komplexe KI-Tools die Produktivität manchmal sogar behindern.
- Claude 3.7 Sonnet und Gemini 2.5 Pro werden aktuell von erfahrenen Entwickler:innen bevorzugt, die mit AI Coding arbeiten.
Von Forschung direkt in die Praxis – mit uns als Ihrem KI-Partner
Unsere aktuellen Forschungserkenntnisse fließen direkt in die Entwicklung praxisnaher KI-Lösungen ein. Wir begleiten Sie als strategischer Partner von der ersten Idee bis zur erfolgreichen Umsetzung – damit aus KI echter Mehrwert für Ihr Unternehmen wird.