LLM Benchmarks April 2025

Die besten Sprachmodelle für die digitale Produktentwicklung im Vergleich.

Die Highlights aus der Welt der Sprachmodelle im April:

  • Neue OpenAI Modelle:
o3-mini, o4-mini, GPT-4.1
  • Qwen3 setzt neue Maßstäbe bei lokalen Modellen
  • Google überzeugt immer mehr: Gemini Flash 2.5 Preview und Pro 2.5 v2
  • Praxiseinblicke in Coding mit KI
LLM Benchmarks April 2025

Modell Scores

Model Scores
🔍
# Model bi compliance code reason Score Local Features
1openai/o3-mini-2025-01-3145%70%100%74%76.7%SO, Reason
2openai/o4-mini-2025-04-1645%70%100%74%76.7%SO, Reason
3google/gemini-2.5-flash-preview:thinking45%57%100%68%71.2%Reason
4google/gemini-2.5-pro-preview-03-2545%70%93%68%71.1%Reason
5qwen/qwen3-32b54%40%96%68%71.1%Reason, Open
6anthropic/claude-3.7-sonnet:thinking54%32%100%67%70.4%Reason
7openai/o1-2024-12-1745%70%84%67%70.0%SO, Reason
8openai/gpt-4.1-2025-04-1445%70%77%67%67.2%SO
9deepseek/deepseek-r127%64%100%63%66.1%SO, Reason, Open
10google/gemini-2.5-pro-preview-05-0645%70%80%65%65.6%Reason
11qwen/qwen3-30b-a3b45%37%96%61%65.0%Reason, Open
12qwen/qwen3-235b-a22b36%45%100%59%62.8%Reason, Open
13openai/gpt-4.1-mini-2025-04-1436%80%63%60%61.1%SO
14deepseek/deepseek-r1-distill-llama-70b36%32%96%56%60.0%Open
15deepseek/deepseek-chat-v3-032445%60%70%55%59.6%Reason, Open
16google/gemini-2.5-flash-preview45%60%70%58%59.4%
17anthropic/claude-3.7-sonnet45%47%65%55%56.5%
18qwen/qwen3-14b27%15%100%52%56.1%Reason, Open
19openai/gpt-4o-2024-11-2036%55%62%55%53.6%SO
20openai/gpt-4.5-preview-2025-02-2745%47%62%53%51.9%SO
21deepseek-v336%47%58%49%50.6%SO, Open
22openai/gpt-4o-2024-08-0618%62%63%52%50.5%SO
23mistralai/mistral-medium-336%35%70%45%49.9%SO, Reason
24microsoft/phi-436%62%57%48%49.7%Open
25meta-llama/llama-4-maverick27%42%70%44%49.1%SO, Open
26qwen/qwen-max45%45%45%50%46.3%
27google/gemma-3-27b-it27%27%70%43%45.0%Open
28anthropic/claude-3.5-sonnet36%32%57%44%43.6%
29meta-llama/llama-3.1-70b-instruct36%50%44%43%42.6%SO, Open
30meta-llama/llama-3.3-70b-instruct27%50%48%41%40.8%SO, Open
31google/gemini-2.0-flash-00127%24%57%38%40.7%
32qwen/qwq-32b36%52%41%37%40.0%SO, Reason, Open
33qwen/qwen-2.5-72b-instruct27%30%47%39%39.2%SO, Open
34mistralai/mistral-small-3.1-24b-instruct36%42%41%39%39.2%SO, Open
35openai/gpt-4.1-nano-2025-04-149%32%64%32%37.7%SO
36qwen/qwen2.5-32b-instruct27%20%53%36%36.6%Open
37qwen/qwen-2.5-coder-32b-instruct18%35%54%39%36.5%SO, Open
38meta-llama/llama-3.1-405b-instruct18%55%40%38%35.5%SO, Open
39google/gemma-3-12b-it9%17%61%30%33.4%Open
40qwen/qwen-plus18%25%40%31%31.7%
41google/gemma-3-12b-it-qat-q4_0-gguf18%47%34%24%30.6%SO, Open
42mistralai/mixtral-8x22b-instruct9%27%47%28%29.2%SO, Open
43openai/gpt-4o-mini-2024-07-189%32%41%30%28.4%SO
44mistral/mistral-small-24b-instruct-250127%22%33%30%27.8%SO, Open
45qwen/qwen-turbo0%15%41%20%21.9%
46deepseek/deepseek-r1-distill-qwen-32b9%22%29%17%21.2%SO, Open
47meta-llama/llama-4-scout9%25%22%16%18.0%SO, Open
48mistral/ministral-8b18%0%20%13%14.8%SO, Open
49meta-llama/llama-3.2-3b-instruct0%17%16%11%10.6%SO, Open
50mistralai/mistral-large-24110%0%0%0%0.0%SO, Open
51ByteDance-Seed/Seed-Coder-8B-Reasoning0%0%0%0%0.0%SO, Reason, Open
Averages29%41%60%44%

Neue OpenAI Modelle: 
o3-mini, o4-mini, GPT-4.1

Neue Modelle von OpenAI haben sich gut in unserem Ranking für logisches Denken platziert. o3-mini und o4-mini erreichten Spitzenplätze, während die günstigeren Versionen 4.1 (base und mini) die Plätze 8 und 13 belegten.

Große Überraschungen gibt es dabei nicht – abgesehen von den Betriebskosten dieser Modelle.

Qwen3 setzt neue Maßstäbe bei lokalen Modellen

Die Modelle der Qwen-Reihe gelten längst als bewährter „Geheimtipp“ für Teams, die Large Language Models (LLM) lokal betreiben möchten.
Bereits Qwen 2.5 wurde erfolgreich in zahlreichen Projekten eingesetzt – was sich auch in den relativ hohen Ergebnissen in unserem Benchmark für logisches Denken widerspiegelte.

Enterprise-Qualität bei komplexen Aufgaben

Mit den neuen Qwen3-Modellen wurde die Messlatte jetzt noch einmal höher gelegt. Qwen3 steht in verschiedenen Varianten zur Verfügung: als Standardmodelle sowie als Mixture-of-Experts-Modelle.

Zwar benötigen diese Modelle für die Verarbeitung komplexer Probleme etwas mehr Zeit, ihre Genauigkeit liegt jedoch auf dem Niveau der besten Cloud-Modelle.

Damit eignen sie sich besonders gut für anspruchsvolle Enterprise-Aufgaben, bei denen höchste Genauigkeit entscheidend ist und die problemlos über Nacht laufen können.

Wir empfehlen, besonderes Augenmerk auf folgende zwei Modelle zu legen:
  • Qwen3 32B
    32,8 Mrd. Parameter, nativer Kontext von 32k Token, erweiterter Kontext bis zu 131k Token (zum Download auf Huggingface)
     
  • Qwen3-30B-A3B
    30,5 Mrd. Parameter, allerdings werden pro Token nur 3,3 Mrd. aktiviert (was zu einer schnelleren Inferenz führt) (zum Download auf Huggingface)

Der Release von Qwen3 hebt den Standard für lokale Sprachmodelle weiter an und setzt Cloud-Anbieter zunehmend unter Druck. Doch die Entwicklung bleibt hier nicht stehen.

Google wird immer besser: Gemini Flash 2.5 Preview und Pro 2.5 v2

Wir erinnern uns, dass Google früher oft hinterherlief. Die ersten Gemini-Modelle lagen deutlich hinter OpenAI zurück, und das viel gelobte Gemini Ultra kam nie auf den Markt.

Seitdem hat Google jedoch das Blatt Schritt für Schritt gewendet. Zwar erreicht man noch nicht ganz die Spitzenpositionen von OpenAI, liefert aber kontinuierlich Modelle innerhalb der Top-10 – und schlägt OpenAI bei Preis und Stabilität.

Gemini-2.5-Flash Preview im Thinking Mode ist derzeit das beste Google-Modell in unserem Benchmark. Gemini 2.5 Pro Preview belegt die Plätze 4 und 10. Gemini 2.5 Flash im Non-Thinking Mode erreicht Platz 16.

Benchmarks sind jedoch nur eine Annäherung an reale Szenarien. Deshalb zwei ergänzende Datenpunkte aus der Praxis:

Erstens verlassen sich erfahrene Entwickler:innen (mit Zugriff auf Mistral, Anthropic, ChatGPT Pro und Gemini) zunehmend auf Gemini 2.5 Pro als bevorzugtes Tool für KI-gestütztes Coding. Besonders gelobt wird die Qualität der Antworten und die zuverlässige Arbeit mit großem Kontext. So ist es üblich, wesentliche Codeabschnitte (bis zu 50.000 Token) direkt in den Prompt zu kopieren und dann interaktiv mit dem Chat weiterzuarbeiten, bis der Gesamtkontext 200.000–500.000 Token erreicht.

Ein weiteres Beispiel betrifft das Verständnis komplexer Dokumente. In den letzten Monaten hören wir von Kolleg:innen aus der KI-Forschung vermehrt:
 „Wenn es um die zuverlässige Verarbeitung von Unternehmensdokumenten geht, nutze Google Gemini LLM.“

Wir haben dies geprüft. In einer unserer Evaluierungen luden wir beispielsweise ein Compliance-PDF in eine Graph-Datenbank, um es weiter zu analysieren. Herausfordernd dabei: Solche Dokumente umfassen oft mehrere hundert Seiten und müssen daher seitenweise geladen werden. Außerdem sind sie stark verschachtelt, wodurch besondere Sorgfalt erforderlich ist, um Inhalte korrekt über Seitenumbrüche hinweg zuzuordnen.

Modelle von Anthropic, Mistral und sogar OpenAI scheitern daran, Inhalte zuverlässig über Seitenumbrüche hinweg zu „verknüpfen“. Sie verlieren selbst bei relativ kleinen Kontexten schnell den Überblick und geben den Originaltext oft verfälscht wieder.

Google Gemini 2.5 Pro dagegen bewältigt exakt dieselbe Aufgabe (bei identischen Eingaben) zuverlässig. Das macht dieses Modell zu einer starken Alternative gegenüber den OpenAI-Modellen, insbesondere bei KI-gestützten Arbeitsabläufen mit umfangreichen Dokumenten.

Ein wichtiger Hinweis: Wir beziehen uns hier explizit auf den Einsatz von Gemini-2.5-Pro-Modellen über das AI-Studio oder eine API. Andere darauf aufbauende Google-Gemini-Produkte überzeugen aktuell noch nicht.

Praxiseinblicke in coding mit AI

Embrace AI Initiative

Im Rahmen des Entwicklungsprogramms bei TIMETOACT GROUP Österreich führen wir die Embrace AI Initiative durch – ein Experiment, bei dem erfahrene Softwareentwickler:innen im Umgang mit modernen KI-Coding-Tools geschult werden. Dieses Programm ist auch in unseren AI-Research-Prozess integriert und stärkt ihn durch wertvolle Impulse aus der breiteren Expert:innen-Community.

Wie bereits erwähnt, lautet die erste Erkenntnis aus diesem Prozess, dass Anwender:innen im Alltag zunehmend von OpenAI- und Sonnet-3.7-Modellen auf Google Gemini 2.5 Pro wechseln. Dieser Trend betrifft sogar Entwickler:innen, die lange auf Sonnet 3.5 gesetzt hatten.

Der Grund für diesen Wechsel liegt in der effektiven Kombination aus Kontextgröße (die Menge an Kontext, die das Modell zuverlässig verarbeiten kann), Geschwindigkeit, Qualität und Kosteneffizienz, die Gemini-Modelle bieten.

Dieser Wechsel ist kein Massenphänomen – er betrifft ausschließlich erfahrene Entwickler:innen, die nicht an einen bestimmten KI-Anbieter gebunden sind und die Freiheit haben, für ihre Aufgaben das jeweils beste Tool zu wählen.

Die zweite Erkenntnis betrifft die Tool-Landschaft: Chats im Vergleich zu komplexen Multi-Agent-Entwicklungsumgebungen (IDEs). Um dies zu verdeutlichen, zeigen wir Ihnen ein Beispiel einer konkreten Aufgabe aus unserem Embrace-AI-Programm:

Beispiel einer Übung aus dem Embrace-AI-Programm

"Bitte implementiere ein Web-UI-Tool, mit dem du Anfragen an ein Modell von OpenAI, Gemini oder ein anderes LLM deiner Wahl senden kannst. Dabei sollst du die Möglichkeit haben, den Inhalt ausgewählter Dateien an den Prompt anzuhängen.

Anforderungen:
Das Tool erhält beim Start ein Verzeichnis als Argument übergeben (z. B. node server.js ../../projects/demo-project).
Beim Laden zeigt es alle Dateien rekursiv im linken Bereich an.
Wenn der Benutzer eine Datei anklickt, wird sie in den rechten Bereich hinzugefügt.
Wenn der Benutzer eine Datei im rechten Bereich anklickt, wird sie daraus entfernt.
Gibt der Benutzer einen Prompt ein und klickt auf „Submit“, wird der Inhalt der ausgewählten Dateien an den Prompt angehängt und an das LLM gesendet.
Die Antwort des LLMs wird per Streaming zurückgesendet.


Nicht erforderlich:
Mehrstufige Chats oder Folgefragen.
Jegliche Persistenz – beim Neuladen der Seite dürfen alle Informationen verloren gehen."

Den Softwareentwickler:innen stand es frei, beliebige Kombinationen von Tools einzusetzen – angefangen von einfachen Chats bis hin zu fortschrittlichen IDEs und Coding-Agenten. Wir ließen ihnen hierbei freie Hand, baten jedoch darum, die dafür benötigte Zeit zu messen.

Die schnellste Lösung entstand mithilfe von Anthropic Claude, ergänzt um Tools für den Zugriff auf PowerShell und Dateiverzeichnisse. Die Umsetzung dauerte insgesamt 30 Minuten und erforderte relativ viele Prompts und Tokens.

Andere Lösungen benötigten etwa 1,5 bis 2 Stunden für die Umsetzung des Codes. Hierbei waren menschliche Steuerung und gelegentliches Nachjustieren der verwendeten KI-Agenten nötig.

Das gleiche Programm ohne KI von Grund auf neu zu schreiben, würde wahrscheinlich mehrere Stunden dauern. Somit lieferte die beste KI-gestützte Lösung einen deutlichen Produktivitätsschub. Die mittlere KI-Lösung brauchte etwa gleich lang wie ein erfahrener Entwickler ohne KI-Unterstützung.

Dann haben wir die Aufgabenstellung umgedreht und die Herausforderung noch einmal erhöht:

"Schreibe einen Prompt, der – sobald er in ein beliebiges gutes Chat-LLM kopiert wird – unmittelbar den Code für das Tool aus der vorherigen Übung („Kata“) erzeugt, und zwar ohne Agenten oder komplexe IDEs. Der Prompt muss zuverlässig funktionieren und mit möglichst vielen verschiedenen Modellen kompatibel sein. Ziel dieser Herausforderung ist es, ein besseres intuitives Verständnis dafür zu entwickeln, wie LLMs funktionieren und warum komplexe Tools oder Agenten nicht immer erforderlich sind."

Der Zweck dieser Übung bestand darin, deutlich zu machen, dass moderne KI-Tools oft eher hinderlich als hilfreich sind – und dass Entwickler:innen, die die Grundlagen des Programmierens mit KI wirklich verstehen, deutlich schneller zu besseren Ergebnissen gelangen.

Unsere eigene Lösung für diese Aufgabe dauerte 15 Minuten und bestand aus 2 Schritten:

  1. Kopiere die Aufgabe („Kata“) in ChatGPT o1 pro, lasse das Modell Fragen zur Präzisierung der Aufgabe stellen und fasse anschließend alles in einem knappen Prompt zusammen. Dieses Vorgehen nennen wir in unseren Materialien „Prompt Distillation“.

  2. Der resultierende Prompt war 432 Token (1833 Zeichen) lang. Er lieferte bereits beim ersten Versuch eine funktionierende Lösung, nachdem er in GPT-o1 pro, GPT-4.5 und Claude 3.7 eingefügt wurde.

Ein anderer Entwickler nutzte Gemini 2.5 Pro für die „Prompt Distillation“ und kam in 15 Minuten zu einem ähnlichen Ergebnis (allerdings umfasste sein finaler Gemini-generierter Prompt 1191 Token bzw. 4598 Zeichen).

Klingt beeindruckend, oder? Unsere AI-Research-Community hat die Herausforderung ernst genommen und es sogar geschafft, noch weiterzugehen:

Ein Entwickler schrieb händisch einen Prompt mit nur 70 Token (313 Zeichen), der auf Gemini 2.5 Pro und Sonnet 3.7 direkt funktionierte. Dieser Prompt lief auch auf GPT-4o fast ohne Anpassung (nur eine Folgefrage war erforderlich). 

Der Prompt sah folgendermaßen aus:

"Schreibe eine node.js/Web-App – Nutzer gibt Prompt ein, wählt lokale Textdateien aus, deren Inhalte dem Prompt angehängt werden, und erhält eine Antwort von OpenAI GPT-4o. App zeigt Dateien aus Verzeichnis rekursiv an (Verzeichnisname wird als Kommandozeilenparameter des node.js-Servers übergeben), ausgewählte Dateien, Prompt-Eingabefeld und Submit-Button. Ein Klick auf ausgewählte Dateien entfernt diese wieder."

Ein weiterer Entwickler benötigte nur 7 Minuten für einen Prompt (194 Token + 298 Token eigene Anweisungen), der auf Anhieb auf Claude 3.7 ein valides Ergebnis lieferte.

Unser Fazit zu Coding mit AI

  • Moderne KI-gestützte Coding-Tools bieten echte Produktivitätssteigerungen, sofern sie richtig eingesetzt werden.
     
  • Praxis und Erfahrung sind oft wichtiger als ausgefallene Tools. Tatsächlich können komplexe KI-Tools die Produktivität manchmal sogar behindern.
     
  • Claude 3.7 Sonnet und Gemini 2.5 Pro werden aktuell von erfahrenen Entwickler:innen bevorzugt, die mit AI Coding arbeiten.

Von Forschung direkt in die Praxis – mit uns als Ihrem KI-Partner

Unsere aktuellen Forschungserkenntnisse fließen direkt in die Entwicklung praxisnaher KI-Lösungen ein. Wir begleiten Sie als strategischer Partner von der ersten Idee bis zur erfolgreichen Umsetzung – damit aus KI echter Mehrwert für Ihr Unternehmen wird.

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Bitte Captcha lösen!

captcha image
Insights 17.03.25

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Februar 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.08.24

LLM-Benchmarks August 2024

Anstelle unserer allgemeinen LLM Benchmarks, präsentieren wir Ihnen im August den ersten Benchmark verschiedener KI-Architekturen.

Insights

LLM Benchmarks März 2025

Was gibt’s Neues in der Welt der LLMs? Finden Sie es heraus – und lesen Sie, warum Google DeepMind uns im vergangenen Monat gleich mehrfach überrascht hat.

Workshop

KI Workshops für Unternehmen

Ob Grundlagen der KI, Prompt-Engineering oder Potenzial-Scouting: Unser vielfältiges KI-Workshop Angebot bietet für jeden Wunsch die passenden Inhalte.

Insights

Team-Leaderboard der Enterprise RAG Challenge

Das Team-Leaderboard fasst alle eingereichten Beiträge zusammen – auch jene, die nach Bekanntgabe der Ground Truth eingereicht wurden. Daher betrachten wir diese Rangliste als inoffizielle Übersicht.

Insights

IBM watsonx Leaderboard der Enterprise RAG Challenge

Das Team-Leaderboard fasst alle eingereichten Beiträge zusammen – auch jene, die nach Bekanntgabe der Ground Truth eingereicht wurden. Daher betrachten wir diese Rangliste als inoffizielle Übersicht.

Blog 16.05.24

In 8 Schritten zu AI-Innovationen im Unternehmen

Künstliche Intelligenz ist längst mehr als ein Schlagwort – sie schafft echten Business Value. Mit unserem achtstufigen Ansatz unterstützen wir Unternehmen auf dem Weg zur erfolgreichen AI-Nutzung.

Blog 16.05.24

Fehler in der Entwicklung von AI-Assistenten

Erfolgreiche AI-Assistenten starten mit den richtigen Learnings: Erfahren Sie, warum viele Unternehmen scheitern und wie Sie typische Fehler vermeiden – für eine optimale Umsetzung Ihrer AI-Projekte!

Blog 17.05.24

8 Tipps zur Entwicklung von AI-Assistenten

AI-Assistenten sind ein Hype, und viele Teams arbeiten mit Begeisterung an ihrer Umsetzung. Doch in Europa und den USA scheitern viele an dieser Herausforderung. Damit Ihnen das nicht passiert, haben

Wissen 30.04.24

GPT & Co: Die besten Sprachmodelle für digitale Produkte

Welche LLM-Modelle meistern Ihre Herausforderungen am besten? Werfen Sie einen Blick auf die Ergebnisse und finden Sie Ihr ideales Sprachmodell!

Blog 21.01.25

Die Zukunft der KI: Enterprise RAG Challenge

KI-Innovation, die überzeugt: Die Enterprise RAG Challenge zeigt, was möglich ist.