LLM Benchmarks Sommer 2025

Benchmark-Saison Sommer 2025: Wer dominiert das Feld der Sprachmodelle? Unsere Expert:innen aus dem AI Strategy & Research Hub präsentieren die neuesten Ergebnisse und zeigen, welche Trends Unternehmen jetzt im Blick behalten sollten.

Viele haben gefragt: Wann werden die LLM-Benchmarks wieder regelmäßig online verfügbar sein? Hier sind wir – mit einer Menge neuer Inhalte, die es nachzuholen gilt:

  • Geheimnisse lüften – Schema-Guided Reasoning
  • OpenAI GPT-5-Releases sind ein großer Meilenstein
  • Ein strukturelles Problem beim GPT-5-Release
  • Grok-4 teilt sich den Spitzenplatz
  • Gemini 2.5 Pro
  • Qwen-3 ist nach wie vor sehr beliebt
  • DeepSeek – schrittweise Verbesserungen
  • Enterprise Reasoning Challenge (ERCr3)

Benchmarks

Model Scores Summer 2025

Modell Scores Sommer 2025


#ModelbicompliancecodereasonScoreErrLocalFeatures
#78#1openai/gpt-5-2025-08-0754%70%100%77%79.4%SO, Reason
#84#2x-ai/grok-454%70%100%77%79.4%SO, Reason
#18#3openai/o3-mini-2025-01-3145%70%100%74%76.7%SO, Reason
#49#4openai/o4-mini-2025-04-1645%70%100%74%76.7%SO, Reason
#80#5openai/gpt-5-mini-2025-08-0754%70%93%74%76.7%SO, Reason
#76#6openai/gpt-oss-120b54%67%92%72%75.0%Open
#68#7x-ai/grok-3-mini54%62%97%71%74.0%3
#72#8google/gemini-2.5-pro-preview-06-0545%70%100%71%73.9%Reason
#51#9google/gemini-2.5-flash-preview:thinking45%57%100%68%71.2%1Reason
#37#10google/gemini-2.5-pro-preview-03-2545%70%93%68%71.1%Reason
#52#11qwen/qwen3-32b54%40%96%68%71.1%1Reason, Open
#29#12anthropic/claude-3.7-sonnet:thinking54%32%100%67%70.4%1Reason
#7#13openai/o1-2024-12-1745%70%84%67%70.0%SO, Reason
#62#14deepseek/deepseek-r1-052845%62%93%66%68.9%SO, Reason, Open
#46#15openai/gpt-4.1-2025-04-1445%70%77%67%67.2%SO
#79#16openai/gpt-5-nano-2025-08-0736%67%90%63%66.7%SO, Reason
#4#17deepseek/deepseek-r127%64%100%63%66.1%SO, Reason, Open
#77#18openai/gpt-oss-20b36%70%88%63%66.1%Open
#61#19anthropic/claude-opus-445%47%92%62%65.7%Reason
#53#20qwen/qwen3-30b-a3b45%37%96%61%65.0%Reason, Open
#65#21anthropic/claude-sonnet-445%67%78%61%64.4%
#82#22anthropic/claude-opus-4.145%47%81%59%63.2%Reason
#54#23qwen/qwen3-235b-a22b36%45%100%59%62.8%Reason, Open
#86#24qwen/qwen3-235b-a22b-250745%60%72%62%62.8%SO, Open
#47#25openai/gpt-4.1-mini-2025-04-1436%80%63%60%61.1%SO
#12#26deepseek/deepseek-r1-distill-llama-70b36%32%96%56%60.0%4Open
#36#27deepseek/deepseek-chat-v3-032445%60%70%55%59.6%Reason, Open
#50#28google/gemini-2.5-flash-preview45%60%70%58%59.4%
#85#29x-ai/grok-336%65%69%55%59.3%SO, Reason
#87#30deepseek/deepseek-chat-v3.136%62%68%57%58.2%SO, Open
#64#31deepseek/deepseek-r1-0528-qwen3-8b27%62%82%52%56.7%2Reason, Open
#28#32anthropic/claude-3.7-sonnet45%47%65%55%56.5%
#55#33qwen/qwen3-14b27%15%100%52%56.1%Reason, Open
#1#34openai/gpt-4o-2024-11-2036%55%62%55%53.6%SO
#30#35openai/gpt-4.5-preview-2025-02-2745%47%62%53%51.9%SO
#23#36deepseek-v336%47%58%49%50.6%1SO, Open
#9#37openai/gpt-4o-2024-08-0618%62%63%52%50.5%SO
#58#38mistralai/mistral-medium-336%35%70%45%49.9%SO, Reason
#11#39microsoft/phi-436%62%57%48%49.7%3Open
#39#40meta-llama/llama-4-maverick27%42%70%44%49.1%SO, Open
#83#41mistralai/mistral-medium-3.136%27%69%45%47.5%SO, Reason
#67#42x-ai/grok-354%30%53%45%47.2%
#19#43qwen/qwen-max45%45%45%50%46.3%1
#71#44mistralai/magistral-medium-2506:thinking45%52%49%44%46.1%1SO, Reason
#66#45google/gemini-2.5-flash-lite-preview-06-1727%12%82%43%45.6%12
#33#46google/gemma-3-27b-it27%27%70%43%45.0%2Open
#10#47anthropic/claude-3.5-sonnet36%32%57%44%43.6%
#27#48meta-llama/llama-3.1-70b-instruct36%50%44%43%42.6%SO, Open
#13#49meta-llama/llama-3.3-70b-instruct27%50%48%41%40.8%SO, Open
#22#50google/gemini-2.0-flash-00127%24%57%38%40.7%
#32#51qwen/qwq-32b36%52%41%37%40.0%3SO, Reason, Open
#8#52qwen/qwen-2.5-72b-instruct27%30%47%39%39.2%SO, Open
#35#53mistralai/mistral-small-3.1-24b-instruct36%42%41%39%39.2%SO, Open
#48#54openai/gpt-4.1-nano-2025-04-149%32%64%32%37.7%SO
#31#55qwen/qwen2.5-32b-instruct27%20%53%36%36.6%Open
#17#56qwen/qwen-2.5-coder-32b-instruct18%35%54%39%36.5%SO, Open
#14#57meta-llama/llama-3.1-405b-instruct18%55%40%38%35.5%SO, Open
#41#58google/gemma-3-12b-it9%17%61%30%33.4%Open
#20#59qwen/qwen-plus18%25%40%31%31.7%1
#42#60google/gemma-3-12b-it-qat-q4_0-gguf18%47%34%24%30.6%SO, Open
#73#61moonshotai/kimi-k227%27%32%30%30.6%3SO, Open
#25#62mistralai/mixtral-8x22b-instruct9%27%47%28%29.2%SO, Open
#5#63openai/gpt-4o-mini-2024-07-189%32%41%30%28.4%SO
#15#64mistral/mistral-small-24b-instruct-250127%22%33%30%27.8%SO, Open
#21#65qwen/qwen-turbo0%15%41%20%21.9%2
#16#66deepseek/deepseek-r1-distill-qwen-32b9%22%29%17%21.2%2SO, Open
#70#67mistralai/magistral-small-250627%25%10%20%18.8%21SO, Open
#38#68meta-llama/llama-4-scout9%25%22%16%18.0%SO, Open
#40#69mistral/ministral-8b18%0%20%13%14.8%1SO, Open
#24#70meta-llama/llama-3.2-3b-instruct0%17%16%11%10.6%2SO, Open
#69#71sentientagi/dobby-mini-unhinged-plus-llama-3.1-8b9%10%10%11%10.6%11SO, Open
#26#72mistralai/mistral-large-24110%0%0%0%0.0%36SO, Open
#59#73ByteDance-Seed/Seed-Coder-8B-Reasoning0%0%0%0%0.0%36SO, Reason, Open
Averages33%44%64%47%

Schema-Guided Reasoning (SGR)

Endlich haben wir einen Begriff für den Ansatz des Custom Chain-of-Thought (oder SO CoT), den wir in zahlreichen Projekten intensiv einsetzen.

Dieser Ansatz wurde ursprünglich aus erfolgreichen Anwendungsfällen in unserem KI-Portfolio abgeleitet und durch Forschungs- und Entwicklungsarbeit in der Community weiter verfeinert (einschließlich erfolgreicher Beiträge zu den Enterprise RAG Challenges).

Tatsächlich nutzen alle Evaluierungen unseres Reasoning LLM Benchmark v2 (seit Januar 2025) spezialisierte SGR-Schemata, um das Reasoning zu steuern.

Mehr über SGR erfahren Sie hier – oder sehen Sie sich die öffentlich verfügbare Demo an. Diese Demo zeigt, wie sich mit SGR ein Business Assistant aufbauen lässt, der in der Lage ist:

  • Planung und Reasoning durchzuführen, während ein kostengünstiges Modell ohne Reasoning-Fähigkeiten verwendet wird
  • Tools aufzurufen, um Kund:innen in einem fiktiven Unternehmen zu verwalten, das AGI-Kurse verkauft (in der Demo simulieren wir Tools zum Erstellen von Rechnungen, Versenden von E-Mails und Abrufen von Kundendaten)
  • zusätzliche Regeln und eigene Erinnerungen zu generieren

All das geschieht in 160 Zeilen Python-Code – ganz ohne AI Frameworks oder Tool Calling. Lediglich mit dem OpenAI SDK und Pydantic.

Das Thema der Entwicklung und Orchestrierung von Agenten für Business-Aufgaben interessiert uns besonders – und wir sind bestrebt, den Stand der Technik in diesem Bereich weiter voranzutreiben. Später in diesem Bericht werden wir dazu noch eine weitere spannende Ankündigung machen. Zunächst jedoch sehen wir uns an, welche Modelle sich mit Schema-Guided Reasoning am besten für Business-Aufgaben eignen.

OpenAI GPT-5 Releases sind ein großer Meilenstein

Beginnen wir mit den offensichtlichen großen Erfolgen. OpenAI hat kürzlich eine Reihe neuer Modelle veröffentlicht:

gpt-5 von OpenAI ist derzeit das TOP-1-Modell auf unserem Leaderboard!

gpt-5 ist das derzeit intelligenteste Modell – gleichzeitig jedoch sehr groß, langsam und teuer. Für alltägliche Business-Automatisierungsaufgaben im großen Maßstab ist es daher überdimensioniert. Dafür gibt es kleinere Modelle wie gpt-5-mini – und genau hier wird es spannend.

gpt-5-mini belegt aktuell den 5. Platz im Leaderboard, wenn es unter Schema-Guided Reasoning läuft. Es ist ein preislich attraktives und zugleich leistungsfähiges Modell – sehr ausgewogen.

Neben den API-Modellen hat OpenAI auch zwei Open-Weights-Modelle veröffentlicht, die frei heruntergeladen und auf eigener Hardware betrieben werden können. Zum Beispiel:

Das besonders Interessante: Das Modell gpt-oss-120b ähnelt in unseren Benchmarks dem gpt-5-mini auffallend stark. Es wirkt fast so, als wären die beiden Modelle nahezu identisch.

So oder so – es ist das erste Mal seit Langem, dass ein Modell aus den Top 5 öffentlich und frei zur Nutzung verfügbar ist.

Ebenso belegte das Modell gpt-5-nano den 16. Platz auf unserem Leaderboard. Das Modell gpt-oss-20b erzielte sehr ähnliche Ergebnisse und erreichte den 18. Platz.

ℹ️ Auch wenn die Modelle den Namen gpt-oss tragen, handelt es sich dabei nicht um echte Open Source-Modelle, sondern vielmehr um Open Weights-Modelle. Das bedeutet: Die Modelle können frei heruntergeladen und genutzt werden – jedoch werden die ursprünglichen Trainingsdaten und Pipelines nicht offengelegt.

gpt-oss-Modelle basieren auf einer Mixture-of-Experts (MoE)-Architektur, bei der jeweils nur ein kleiner Teil des Modells für die Generierung jedes neuen Tokens genutzt wird. Dadurch sind diese Modelle besonders schnell.

Das Modell gpt-oss-120B kann auf einer einzelnen H100 GPU betrieben werden (Voraussetzung: moderne GPU mit 80 GB VRAM), während gpt-oss-20B bereits mit einer modernen GPU mit 16 GB VRAM läuft, etwa einer RTX 5090.

Normalerweise bedeutet die Anforderung einer „modernen GPU“, dass solche Modelle nicht nativ auf älteren GPUs wie der 4090 oder A100 unterstützt werden. Doch hier gibt es eine interessante Ausnahme:

Dank der MoE-Architektur lassen sich diese Modelle auch lokal mit überraschend wenig VRAM betreiben – wenn auch langsamer.

Beispielsweise kann 120B mit etwa 10–30 Tokens pro Sekunde sogar auf älteren Karten mit nur 5–8 GB VRAM recht ordentlich laufen. In diesem Fall wird der Attention-Teil des Modells auf der GPU gehalten, während alle Experts im regulären Arbeitsspeicher liegen (dafür sind 64 GB RAM erforderlich). Mehr über die Konfiguration von llama.cpp zum Betrieb dieser Modelle finden Sie auf Reddit (Discussion).

ℹ️ TL;DR: Es gibt einen neuen --cpu-moe-Schalter, der das MoE-Offloading auf die CPU unterstützt (in Ollama derzeit noch nicht verfügbar).

Ein strukturelles Problem beim GPT-5 Release

Es gibt ein grundlegendes Problem mit dem GPT-5 Release. Es verwendet ein völlig neues Response-Format zur Definition von Konversationen, genannt OpenAI Harmony. Dieses Format ist derzeit jedoch noch nicht gut mit Structured Outputs kompatibel. Das bedeutet, dass die OpenAI API gelegentlich ihr Versprechen nicht einhält, immer JSON zurückzugeben, das dem vorgegebenen Schema entspricht.

Wir haben Fehler mit dem OpenAI SDK festgestellt, wenn gpt-5, gpt-5-mini und gpt-5-nano Antworten lieferten, die nicht mit dem bereitgestellten Schema kompatibel waren. Hier ist ein Gist, das das Problem zuverlässig mit allen GPT-5-Modellen reproduziert: SGR triggers Harmony parsing bug with GPT-5 models. Wir haben den Fehler direkt an OpenAI gemeldet und ihn außerdem mit der OpenAI Community geteilt, inklusive Repro, sodass die Details vollständig nachvollziehbar sind.

Interessanterweise verschwindet das Problem sofort, wenn man von den GPT-5-Modellen wieder zu gpt-4o wechselt – und zusätzlich werden die Antworten deutlich schneller. Dafür gibt es zwei mögliche Gründe:

  • gpt-4o verwendet nicht das komplexere Harmony Response Format
  • gpt-4o ist kein Reasoning-Modell. GPT-5-Modelle „denken“ im Hintergrund, bevor sie antworten, während gpt-4o einfach direkt eine Antwort gibt.

Die Probleme mit den neuen GPT-5-Modellen betreffen nicht nur die API, sondern auch die gpt-oss-120B- und gpt-oss-20B-Modelle. Kein öffentlicher LLM-Anbieter, der APIs mit Structured Outputs bereitstellt, unterstützt bislang die Nutzung dieser Modelle in funktionierender Form. Sogar Ollama hat Schwierigkeiten mit diesem neuen Format (siehe Ticket).

ℹ️ Wie haben wir die GPT-5 Modelle in unserem Benchmark zuverlässig zum Laufen gebracht? Ganz einfach: Gar nicht.
Wir haben ein funktionierendes Constrained Decoding lediglich simuliert, indem wir alle Antworten mit ungültigem Schema verworfen haben – solange, bis schließlich eine gültige Antwort erzeugt wurde.

Wir sind uns ziemlich sicher, dass die Integrationsprobleme bald behoben sein werden. Dann hätten wir ein großartiges lokales Modell, das intelligent und schnell ist – und sich innerhalb von SGR zum Reasoning anleiten lässt, was seine Fähigkeiten noch weiter verstärkt.

Grok-4 teilt sich den Spitzenplatz mit OpenAI GPT-5

Die Grok-Modelle erzielten in unseren Benchmarks bisher traditionell eher niedrige Werte. Mit Grok-4 kam jedoch der plötzliche Sprung an die Spitze des Leaderboards – mit Ergebnissen, die denen von GPT-5 entsprechen (bei mittlerem Reasoning-Aufwand).

Das Hauptproblem bei Grok-4 ist, dass es ziemlich teuer und langsam werden kann. Ein Beispiel aus unserem Benchmark: Bei einer Anfrage dauerte es ganze 50 Sekunden, bis überhaupt die erste Antwort zurückkam.

Gemini 2.5 Pro

Gemini 2.5 Pro ist derzeit eines der besten General-Purpose-Modelle für den Einsatz in Business-Automatisierungsaufgaben. Es verfügt über einen großen Context (mit dem es tatsächlich umgehen kann), unterstützt mehrere Modalitäten und ist zudem vergleichsweise günstig.

Das einzige Problem: Google LLMs bieten nach wie vor kein vollwertiges Structured Output (wie es etwa bei Mistral, OpenAI, Fireworks, Cerberas, Grok oder lokalen Deployments verfügbar ist). Stattdessen steht nur ein eingeschränkter Funktionsumfang zur Verfügung, mit dem zu arbeiten oft mühsam ist.

Anthropic-Modelle waren in den letzten Monaten bestenfalls mittelmäßig. Am höchsten schaffte es ein recht teures claude-3.7-sonnet im Thinking Mode – auf Platz 12. Allerdings unterstützt Anthropic ebenfalls kein Structured Output über Constrained Decoding, was die Integration mit ihren LLMs ziemlich unzuverlässig macht.

Qwen-3-Modelle sind nach wie vor sehr beliebt

Die neuen Qwen-3-Modelle gewannen direkt nach ihrem Release Ende April an Popularität und werden bis heute für ihre Qualität gelobt. Tatsächlich belegt qwen-3-32B den 11. Platz auf unserem Leaderboard – direkt vor Claude-3.7-sonnet:thinking.

Tatsächlich hat ein Community-Mitglied ausprobiert, wie klein ein LLM sein kann, das sich noch für den Einsatz von AI Agents in Business-Szenarien eignet – und es gelang, die SGR Demo auf Qwen-3-4B zu portieren, ausgeführt über ein lokales llama.cpp Deployment.

ℹ️ In diesem Beispiel wird eine quantisierte Version von Qwen3-4B-Instruct-2507 verwendet: Qwen3-4B-Instruct-2507-Q8_0.

Dazu sind zwei Anmerkungen wichtig:

  • Erstens entscheiden sich Teams derzeit für Qwen-3-Modelle, wenn sie das kleinstmögliche, aber noch leistungsfähige Modell benötigen.
  • Zweitens gilt natürlich: In realen Business-Szenarien bietet der Einsatz eines größeren Modells mehr Sicherheitsspielraum (z. B. gpt-oss-20B oder qwen-3-32B). Dennoch ist es bemerkenswert, dass ein derart kleines Modell in durchaus komplexen Szenarien sinnvoll eingesetzt werden kann.

Hier ist der Source Code, der zeigt, wie man eine klassische SGR Demo so aktualisiert, dass sie mit Qwen-3-4B funktioniert. Er umfasst drei wesentliche Änderungen:

  • Entfernt das OpenAI SDK und baut rohe Requests an die von llama.cpp bereitgestellte API
  • Erweitert den Prompt, indem die Business Rules detaillierter ausformuliert werden
  • Fügt zu Beginn der SGR Cascade in NextStep ein weiteres Reasoning-Feld hinzu

Diese Änderungen reichen aus, damit sogar Qwen-3-4B in einer Aufgabe sinnvoll arbeitet, die ein multi-step reasoning und agentic behaviour erfordert.

DeepSeek – schrittweise Verbesserungen

Die DeepSeek-Modelle waren bei ihrem Erscheinen ein echter Erfolg. Doch seitdem sind mehrere leistungsstärkere Modelle veröffentlicht worden, die sie in unseren Benchmarks nach unten verdrängt haben.

Zum jetzigen Zeitpunkt ist die ursprüngliche deepseek-r1-Version auf den 17. Platz gefallen und erreicht im SGR-Mode denselben Score wie das gpt-oss-20B-Modell. deepseek-r1-0528 brachte lediglich eine inkrementelle Verbesserung und liegt aktuell auf Platz 14.

Allerdings ist das Interesse daran begrenzt: Kaum jemand möchte ein 671B-Modell betreiben, wenn ein wesentlich besseres 120B-Modell verfügbar ist. Qwen3-32B ist zudem kleiner – und trotzdem leistungsstärker.

Auch das kürzlich veröffentlichte DeepSeek Chat v3.1 konnte in unserem SGR-Benchmark keine nennenswert besseren Ergebnisse erzielen.

Enterprise Reasoning Challenge (ERCr3)

Wie man sehen kann, taucht mittlerweile eine große Vielfalt leistungsfähiger Modelle auf. Sobald die Community herausgefunden hat, wie sich Structured Outputs zuverlässig mit den gpt-oss-Modellen und ihrem Harmony Response Format nutzen lassen, entsteht eine spannende Situation:

  • Es gibt LLMs, die Business-Aufgaben mit SGR sehr gut bewältigen (innerhalb der Top-20)
  • Sie können frei heruntergeladen und genutzt werden
  • Selbst auf vergleichsweise anspruchsloser Hardware

Das ist ein echter Meilenstein – aber was wäre, wenn wir den State of the Art in der Enterprise Automation noch weiter vorantreiben und Muster finden, um mit weniger noch mehr zu erreichen?

Wer unsere bisherigen Arbeiten verfolgt hat, weiß, dass wir dies durch groß angelegte, crowdsourced Experimente gemeinsam mit einer Community von Enthusiast:innen und unabhängigen Teams erreichen (siehe z. B. Enterprise RAG Challenge Runde 2).

Wir planen, im Herbst/Winter die 3. Runde unserer Enterprise Challenges zu starten. Diesmal liegt der Fokus auf Business Automation mit Agents über APIs.

Das Ziel für die Teams wird sein: einen Agent zu entwickeln, der menschliche Anfragen wie
„redo last [email protected] invoice: use 3x discount of [email protected]
entgegennimmt und dann die bereitgestellten (simulierten) APIs nutzt, um die Aufgabe korrekt auszuführen.

Wir stellen den Teilnehmer:innen die simulierten APIs zur Verfügung, die ihre Agents aufrufen können, um die Aufgaben zu erledigen. Aber es liegt an den Agents selbst, herauszufinden, welche APIs sie in welcher Reihenfolge aufrufen müssen.

Oft ist die vollständige Lösung nicht im Voraus bekannt, sondern erschließt sich erst, wenn eine API die fehlende Information liefert. Der Agent muss also durch Reasoning und den Einsatz der richtigen Tools ans Ziel kommen.

ℹ️ In der Implementierung muss die Lösung nicht zwingend ein „klassischer Agent“ sein. Es könnte auch ein Multi-Agent-System, ein Orchestrator oder sogar nur ein einziger Prompt mit MCP-Plugins sein – Hauptsache, das Problem wird gelöst. Wir werden die Performance dieser sehr unterschiedlichen Ansätze im selben Setup vergleichen.

In der Tradition der vorherigen ERC-Wettbewerbe werden wir so viel wie möglich Open Source bereitstellen, darunter:

  • den Source Code der Simulation Runtime
  • den Source Code des Task Generators
  • alle eingereichten Lösungen
  • Analysen und Reports

Wie zuvor wird es auch wieder einen öffentlichen Probelauf vor dem Hauptevent geben, damit alle die Gelegenheit haben, ihre Agents zu testen und zu üben.

Ähnlich wie bei ERCr1 und ERCr2 wird es mehrere Leaderboards geben, darunter auch eines für lokale Modelle. Dieses Mal haben lokale Modelle eine realistische Chance, selbst gegen die besten Modelle mitzuhalten.

👉 Bleiben Sie gespannt auf die kommenden Updates!

Wir verwandeln das Potenzial KI in Business Impact

Von den ersten Insights bis hin zur KI-basierten Unternehmenssoftware – wir helfen Ihnen, KI in echten Business Value zu verwandeln.

* Pflichtfelder

We use the information you send us only to contact you in connection with your inquiry upon your request. You can find all further information in our Privacy Policy.

Bitte Captcha lösen!

captcha image