LLM Benchmarks April 2025

Die besten Sprachmodelle für die digitale Produktentwicklung im Vergleich.

Zu den Benchmarks

Die Highlights aus der Welt der Sprachmodelle im April:

Neue OpenAI Modelle: o3-mini, o4-mini, GPT-4.1
Qwen3 setzt neue Maßstäbe bei lokalen Modellen
Google überzeugt immer mehr: Gemini Flash 2.5 Preview und Pro 2.5 v2
Praxiseinblicke in Coding mit KI

Modell Scores

Model Scores

🔍

Zeige nur lokal ausführbare Modelle

#	Model	bi	compliance	code	reason	Score	Local	Features
1	openai/o3-mini-2025-01-31	45%	70%	100%	74%	76.7%		SO, Reason
2	openai/o4-mini-2025-04-16	45%	70%	100%	74%	76.7%		SO, Reason
3	google/gemini-2.5-flash-preview:thinking	45%	57%	100%	68%	71.2%		Reason
4	google/gemini-2.5-pro-preview-03-25	45%	70%	93%	68%	71.1%		Reason
5	qwen/qwen3-32b	54%	40%	96%	68%	71.1%	✓	Reason, Open
6	anthropic/claude-3.7-sonnet:thinking	54%	32%	100%	67%	70.4%		Reason
7	openai/o1-2024-12-17	45%	70%	84%	67%	70.0%		SO, Reason
8	openai/gpt-4.1-2025-04-14	45%	70%	77%	67%	67.2%		SO
9	deepseek/deepseek-r1	27%	64%	100%	63%	66.1%	✓	SO, Reason, Open
10	google/gemini-2.5-pro-preview-05-06	45%	70%	80%	65%	65.6%		Reason
11	qwen/qwen3-30b-a3b	45%	37%	96%	61%	65.0%	✓	Reason, Open
12	qwen/qwen3-235b-a22b	36%	45%	100%	59%	62.8%	✓	Reason, Open
13	openai/gpt-4.1-mini-2025-04-14	36%	80%	63%	60%	61.1%		SO
14	deepseek/deepseek-r1-distill-llama-70b	36%	32%	96%	56%	60.0%	✓	Open
15	deepseek/deepseek-chat-v3-0324	45%	60%	70%	55%	59.6%	✓	Reason, Open
16	google/gemini-2.5-flash-preview	45%	60%	70%	58%	59.4%
17	anthropic/claude-3.7-sonnet	45%	47%	65%	55%	56.5%
18	qwen/qwen3-14b	27%	15%	100%	52%	56.1%	✓	Reason, Open
19	openai/gpt-4o-2024-11-20	36%	55%	62%	55%	53.6%		SO
20	openai/gpt-4.5-preview-2025-02-27	45%	47%	62%	53%	51.9%		SO
21	deepseek-v3	36%	47%	58%	49%	50.6%	✓	SO, Open
22	openai/gpt-4o-2024-08-06	18%	62%	63%	52%	50.5%		SO
23	mistralai/mistral-medium-3	36%	35%	70%	45%	49.9%		SO, Reason
24	microsoft/phi-4	36%	62%	57%	48%	49.7%	✓	Open
25	meta-llama/llama-4-maverick	27%	42%	70%	44%	49.1%	✓	SO, Open
26	qwen/qwen-max	45%	45%	45%	50%	46.3%
27	google/gemma-3-27b-it	27%	27%	70%	43%	45.0%	✓	Open
28	anthropic/claude-3.5-sonnet	36%	32%	57%	44%	43.6%
29	meta-llama/llama-3.1-70b-instruct	36%	50%	44%	43%	42.6%	✓	SO, Open
30	meta-llama/llama-3.3-70b-instruct	27%	50%	48%	41%	40.8%	✓	SO, Open
31	google/gemini-2.0-flash-001	27%	24%	57%	38%	40.7%
32	qwen/qwq-32b	36%	52%	41%	37%	40.0%	✓	SO, Reason, Open
33	qwen/qwen-2.5-72b-instruct	27%	30%	47%	39%	39.2%	✓	SO, Open
34	mistralai/mistral-small-3.1-24b-instruct	36%	42%	41%	39%	39.2%	✓	SO, Open
35	openai/gpt-4.1-nano-2025-04-14	9%	32%	64%	32%	37.7%		SO
36	qwen/qwen2.5-32b-instruct	27%	20%	53%	36%	36.6%	✓	Open
37	qwen/qwen-2.5-coder-32b-instruct	18%	35%	54%	39%	36.5%	✓	SO, Open
38	meta-llama/llama-3.1-405b-instruct	18%	55%	40%	38%	35.5%	✓	SO, Open
39	google/gemma-3-12b-it	9%	17%	61%	30%	33.4%	✓	Open
40	qwen/qwen-plus	18%	25%	40%	31%	31.7%
41	google/gemma-3-12b-it-qat-q4_0-gguf	18%	47%	34%	24%	30.6%	✓	SO, Open
42	mistralai/mixtral-8x22b-instruct	9%	27%	47%	28%	29.2%	✓	SO, Open
43	openai/gpt-4o-mini-2024-07-18	9%	32%	41%	30%	28.4%		SO
44	mistral/mistral-small-24b-instruct-2501	27%	22%	33%	30%	27.8%	✓	SO, Open
45	qwen/qwen-turbo	0%	15%	41%	20%	21.9%
46	deepseek/deepseek-r1-distill-qwen-32b	9%	22%	29%	17%	21.2%	✓	SO, Open
47	meta-llama/llama-4-scout	9%	25%	22%	16%	18.0%	✓	SO, Open
48	mistral/ministral-8b	18%	0%	20%	13%	14.8%	✓	SO, Open
49	meta-llama/llama-3.2-3b-instruct	0%	17%	16%	11%	10.6%	✓	SO, Open
50	mistralai/mistral-large-2411	0%	0%	0%	0%	0.0%	✓	SO, Open
51	ByteDance-Seed/Seed-Coder-8B-Reasoning	0%	0%	0%	0%	0.0%	✓	SO, Reason, Open
	Averages	29%	41%	60%	44%

Neue OpenAI Modelle:  o3-mini, o4-mini, GPT-4.1

Neue Modelle von OpenAI haben sich gut in unserem Ranking für logisches Denken platziert. o3-mini und o4-mini erreichten Spitzenplätze, während die günstigeren Versionen 4.1 (base und mini) die Plätze 8 und 13 belegten.

Große Überraschungen gibt es dabei nicht – abgesehen von den Betriebskosten dieser Modelle.

Qwen3 setzt neue Maßstäbe bei lokalen Modellen

Die Modelle der Qwen-Reihe gelten längst als bewährter „Geheimtipp“ für Teams, die Large Language Models (LLM) lokal betreiben möchten.
Bereits Qwen 2.5 wurde erfolgreich in zahlreichen Projekten eingesetzt – was sich auch in den relativ hohen Ergebnissen in unserem Benchmark für logisches Denken widerspiegelte.

Enterprise-Qualität bei komplexen Aufgaben

Mit den neuen Qwen3-Modellen wurde die Messlatte jetzt noch einmal höher gelegt. Qwen3 steht in verschiedenen Varianten zur Verfügung: als Standardmodelle sowie als Mixture-of-Experts-Modelle.

Zwar benötigen diese Modelle für die Verarbeitung komplexer Probleme etwas mehr Zeit, ihre Genauigkeit liegt jedoch auf dem Niveau der besten Cloud-Modelle.

Damit eignen sie sich besonders gut für anspruchsvolle Enterprise-Aufgaben, bei denen höchste Genauigkeit entscheidend ist und die problemlos über Nacht laufen können.

Wir empfehlen, besonderes Augenmerk auf folgende zwei Modelle zu legen:

Qwen3 32B
32,8 Mrd. Parameter, nativer Kontext von 32k Token, erweiterter Kontext bis zu 131k Token (zum Download auf Huggingface)
Qwen3-30B-A3B
30,5 Mrd. Parameter, allerdings werden pro Token nur 3,3 Mrd. aktiviert (was zu einer schnelleren Inferenz führt) (zum Download auf Huggingface)

Der Release von Qwen3 hebt den Standard für lokale Sprachmodelle weiter an und setzt Cloud-Anbieter zunehmend unter Druck. Doch die Entwicklung bleibt hier nicht stehen.

Google wird immer besser: Gemini Flash 2.5 Preview und Pro 2.5 v2

Wir erinnern uns, dass Google früher oft hinterherlief. Die ersten Gemini-Modelle lagen deutlich hinter OpenAI zurück, und das viel gelobte Gemini Ultra kam nie auf den Markt.

Seitdem hat Google jedoch das Blatt Schritt für Schritt gewendet. Zwar erreicht man noch nicht ganz die Spitzenpositionen von OpenAI, liefert aber kontinuierlich Modelle innerhalb der Top-10 – und schlägt OpenAI bei Preis und Stabilität.

Gemini-2.5-Flash Preview im Thinking Mode ist derzeit das beste Google-Modell in unserem Benchmark. Gemini 2.5 Pro Preview belegt die Plätze 4 und 10. Gemini 2.5 Flash im Non-Thinking Mode erreicht Platz 16.

Benchmarks sind jedoch nur eine Annäherung an reale Szenarien. Deshalb zwei ergänzende Datenpunkte aus der Praxis:

Erstens verlassen sich erfahrene Entwickler:innen (mit Zugriff auf Mistral, Anthropic, ChatGPT Pro und Gemini) zunehmend auf Gemini 2.5 Pro als bevorzugtes Tool für KI-gestütztes Coding. Besonders gelobt wird die Qualität der Antworten und die zuverlässige Arbeit mit großem Kontext. So ist es üblich, wesentliche Codeabschnitte (bis zu 50.000 Token) direkt in den Prompt zu kopieren und dann interaktiv mit dem Chat weiterzuarbeiten, bis der Gesamtkontext 200.000–500.000 Token erreicht.

Ein weiteres Beispiel betrifft das Verständnis komplexer Dokumente. In den letzten Monaten hören wir von Kolleg:innen aus der KI-Forschung vermehrt:  „Wenn es um die zuverlässige Verarbeitung von Unternehmensdokumenten geht, nutze Google Gemini LLM.“

Wir haben dies geprüft. In einer unserer Evaluierungen luden wir beispielsweise ein Compliance-PDF in eine Graph-Datenbank, um es weiter zu analysieren. Herausfordernd dabei: Solche Dokumente umfassen oft mehrere hundert Seiten und müssen daher seitenweise geladen werden. Außerdem sind sie stark verschachtelt, wodurch besondere Sorgfalt erforderlich ist, um Inhalte korrekt über Seitenumbrüche hinweg zuzuordnen.

Modelle von Anthropic, Mistral und sogar OpenAI scheitern daran, Inhalte zuverlässig über Seitenumbrüche hinweg zu „verknüpfen“. Sie verlieren selbst bei relativ kleinen Kontexten schnell den Überblick und geben den Originaltext oft verfälscht wieder.

Google Gemini 2.5 Pro dagegen bewältigt exakt dieselbe Aufgabe (bei identischen Eingaben) zuverlässig. Das macht dieses Modell zu einer starken Alternative gegenüber den OpenAI-Modellen, insbesondere bei KI-gestützten Arbeitsabläufen mit umfangreichen Dokumenten.

Ein wichtiger Hinweis: Wir beziehen uns hier explizit auf den Einsatz von Gemini-2.5-Pro-Modellen über das AI-Studio oder eine API. Andere darauf aufbauende Google-Gemini-Produkte überzeugen aktuell noch nicht.

Praxiseinblicke in coding mit AI

Embrace AI Initiative

Im Rahmen des Entwicklungsprogramms bei TIMETOACT GROUP Österreich führen wir die Embrace AI Initiative durch – ein Experiment, bei dem erfahrene Softwareentwickler:innen im Umgang mit modernen KI-Coding-Tools geschult werden. Dieses Programm ist auch in unseren AI-Research-Prozess integriert und stärkt ihn durch wertvolle Impulse aus der breiteren Expert:innen-Community.

Wie bereits erwähnt, lautet die erste Erkenntnis aus diesem Prozess, dass Anwender:innen im Alltag zunehmend von OpenAI- und Sonnet-3.7-Modellen auf Google Gemini 2.5 Pro wechseln. Dieser Trend betrifft sogar Entwickler:innen, die lange auf Sonnet 3.5 gesetzt hatten.

Der Grund für diesen Wechsel liegt in der effektiven Kombination aus Kontextgröße (die Menge an Kontext, die das Modell zuverlässig verarbeiten kann), Geschwindigkeit, Qualität und Kosteneffizienz, die Gemini-Modelle bieten.

Dieser Wechsel ist kein Massenphänomen – er betrifft ausschließlich erfahrene Entwickler:innen, die nicht an einen bestimmten KI-Anbieter gebunden sind und die Freiheit haben, für ihre Aufgaben das jeweils beste Tool zu wählen.

Die zweite Erkenntnis betrifft die Tool-Landschaft: Chats im Vergleich zu komplexen Multi-Agent-Entwicklungsumgebungen (IDEs). Um dies zu verdeutlichen, zeigen wir Ihnen ein Beispiel einer konkreten Aufgabe aus unserem Embrace-AI-Programm:

Beispiel einer Übung aus dem Embrace-AI-Programm

"Bitte implementiere ein Web-UI-Tool, mit dem du Anfragen an ein Modell von OpenAI, Gemini oder ein anderes LLM deiner Wahl senden kannst. Dabei sollst du die Möglichkeit haben, den Inhalt ausgewählter Dateien an den Prompt anzuhängen.

Anforderungen:
Das Tool erhält beim Start ein Verzeichnis als Argument übergeben (z. B. node server.js ../../projects/demo-project).
Beim Laden zeigt es alle Dateien rekursiv im linken Bereich an.
Wenn der Benutzer eine Datei anklickt, wird sie in den rechten Bereich hinzugefügt.
Wenn der Benutzer eine Datei im rechten Bereich anklickt, wird sie daraus entfernt.
Gibt der Benutzer einen Prompt ein und klickt auf „Submit“, wird der Inhalt der ausgewählten Dateien an den Prompt angehängt und an das LLM gesendet.
Die Antwort des LLMs wird per Streaming zurückgesendet. 

Nicht erforderlich:
Mehrstufige Chats oder Folgefragen.
Jegliche Persistenz – beim Neuladen der Seite dürfen alle Informationen verloren gehen."

Den Softwareentwickler:innen stand es frei, beliebige Kombinationen von Tools einzusetzen – angefangen von einfachen Chats bis hin zu fortschrittlichen IDEs und Coding-Agenten. Wir ließen ihnen hierbei freie Hand, baten jedoch darum, die dafür benötigte Zeit zu messen.

Die schnellste Lösung entstand mithilfe von Anthropic Claude, ergänzt um Tools für den Zugriff auf PowerShell und Dateiverzeichnisse. Die Umsetzung dauerte insgesamt 30 Minuten und erforderte relativ viele Prompts und Tokens.

Andere Lösungen benötigten etwa 1,5 bis 2 Stunden für die Umsetzung des Codes. Hierbei waren menschliche Steuerung und gelegentliches Nachjustieren der verwendeten KI-Agenten nötig.

Das gleiche Programm ohne KI von Grund auf neu zu schreiben, würde wahrscheinlich mehrere Stunden dauern. Somit lieferte die beste KI-gestützte Lösung einen deutlichen Produktivitätsschub. Die mittlere KI-Lösung brauchte etwa gleich lang wie ein erfahrener Entwickler ohne KI-Unterstützung.

Dann haben wir die Aufgabenstellung umgedreht und die Herausforderung noch einmal erhöht:

"Schreibe einen Prompt, der – sobald er in ein beliebiges gutes Chat-LLM kopiert wird – unmittelbar den Code für das Tool aus der vorherigen Übung („Kata“) erzeugt, und zwar ohne Agenten oder komplexe IDEs. Der Prompt muss zuverlässig funktionieren und mit möglichst vielen verschiedenen Modellen kompatibel sein. Ziel dieser Herausforderung ist es, ein besseres intuitives Verständnis dafür zu entwickeln, wie LLMs funktionieren und warum komplexe Tools oder Agenten nicht immer erforderlich sind."

Der Zweck dieser Übung bestand darin, deutlich zu machen, dass moderne KI-Tools oft eher hinderlich als hilfreich sind – und dass Entwickler:innen, die die Grundlagen des Programmierens mit KI wirklich verstehen, deutlich schneller zu besseren Ergebnissen gelangen.

Unsere eigene Lösung für diese Aufgabe dauerte 15 Minuten und bestand aus 2 Schritten:

Kopiere die Aufgabe („Kata“) in ChatGPT o1 pro, lasse das Modell Fragen zur Präzisierung der Aufgabe stellen und fasse anschließend alles in einem knappen Prompt zusammen. Dieses Vorgehen nennen wir in unseren Materialien „Prompt Distillation“. 
Der resultierende Prompt war 432 Token (1833 Zeichen) lang. Er lieferte bereits beim ersten Versuch eine funktionierende Lösung, nachdem er in GPT-o1 pro, GPT-4.5 und Claude 3.7 eingefügt wurde.

Ein anderer Entwickler nutzte Gemini 2.5 Pro für die „Prompt Distillation“ und kam in 15 Minuten zu einem ähnlichen Ergebnis (allerdings umfasste sein finaler Gemini-generierter Prompt 1191 Token bzw. 4598 Zeichen).

Klingt beeindruckend, oder? Unsere AI-Research-Community hat die Herausforderung ernst genommen und es sogar geschafft, noch weiterzugehen:

Ein Entwickler schrieb händisch einen Prompt mit nur 70 Token (313 Zeichen), der auf Gemini 2.5 Pro und Sonnet 3.7 direkt funktionierte. Dieser Prompt lief auch auf GPT-4o fast ohne Anpassung (nur eine Folgefrage war erforderlich).

Der Prompt sah folgendermaßen aus:

"Schreibe eine node.js/Web-App – Nutzer gibt Prompt ein, wählt lokale Textdateien aus, deren Inhalte dem Prompt angehängt werden, und erhält eine Antwort von OpenAI GPT-4o. App zeigt Dateien aus Verzeichnis rekursiv an (Verzeichnisname wird als Kommandozeilenparameter des node.js-Servers übergeben), ausgewählte Dateien, Prompt-Eingabefeld und Submit-Button. Ein Klick auf ausgewählte Dateien entfernt diese wieder."

Ein weiterer Entwickler benötigte nur 7 Minuten für einen Prompt (194 Token + 298 Token eigene Anweisungen), der auf Anhieb auf Claude 3.7 ein valides Ergebnis lieferte.

Unser Fazit zu Coding mit AI

Moderne KI-gestützte Coding-Tools bieten echte Produktivitätssteigerungen, sofern sie richtig eingesetzt werden.
Praxis und Erfahrung sind oft wichtiger als ausgefallene Tools. Tatsächlich können komplexe KI-Tools die Produktivität manchmal sogar behindern.
Claude 3.7 Sonnet und Gemini 2.5 Pro werden aktuell von erfahrenen Entwickler:innen bevorzugt, die mit AI Coding arbeiten.

Von Forschung direkt in die Praxis – mit uns als Ihrem KI-Partner

Unsere aktuellen Forschungserkenntnisse fließen direkt in die Entwicklung praxisnaher KI-Lösungen ein. Wir begleiten Sie als strategischer Partner von der ersten Idee bis zur erfolgreichen Umsetzung – damit aus KI echter Mehrwert für Ihr Unternehmen wird.

Vorname

Nachname *

Unternehmen *

E-Mail *

Telefonnummer

Ihre Nachricht *

* Pflichtfelder

Wir verwenden die von Ihnen an uns gesendeten Angaben nur, um auf Ihren Wunsch hin mit Ihnen Kontakt im Zusammenhang mit Ihrer Anfrage aufzunehmen. Alle weiteren Informationen können Sie unseren Datenschutzhinweisen entnehmen.

Insights 17.03.25

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Februar 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Blog 12.11.24

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Oktober 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 07.01.25

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Dezember 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: November-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für November 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 20.02.25

ChatGPT & Co: Januar-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks für Jänner 2025. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Blog 01.10.24

ChatGPT & Co: September-Benchmarks für Sprachmodelle

Entdecken Sie die neuesten Erkenntnisse aus unseren unabhängigen LLM Benchmarks vom September 2024. Erfahren Sie, welche großen Sprachmodelle am besten abgeschnitten haben.

Wissen 30.04.24

LLM-Benchmarks April 2024

Unser LLM Leaderboard aus April 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Insights

LLM Benchmarks März 2025

Was gibt’s Neues in der Welt der LLMs? Finden Sie es heraus – und lesen Sie, warum Google DeepMind uns im vergangenen Monat gleich mehrfach überrascht hat.

Wissen 30.07.24

LLM-Benchmarks Juli 2024

Unser LLM Leaderboard aus Juli 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.08.24

LLM-Benchmarks August 2024

Anstelle unserer allgemeinen LLM Benchmarks, präsentieren wir Ihnen im August den ersten Benchmark verschiedener KI-Architekturen.

Wissen 30.05.24

LLM-Benchmarks Mai 2024

Unser LLM Leaderboard aus Mai 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

Wissen 30.06.24

LLM-Benchmarks Juni 2024

Unser LLM Leaderboard aus Juni 2024 hilft dabei, das beste Large Language Model für die digitale Produktentwicklung zu finden.

LLM Benchmarks April 2025

Modell Scores

Neue OpenAI Modelle: o3-mini, o4-mini, GPT-4.1

Qwen3 setzt neue Maßstäbe bei lokalen Modellen

Enterprise-Qualität bei komplexen Aufgaben

Google wird immer besser: Gemini Flash 2.5 Preview und Pro 2.5 v2

Praxiseinblicke in coding mit AI

Embrace AI Initiative

Beispiel einer Übung aus dem Embrace-AI-Programm

Unser Fazit zu Coding mit AI

Von Forschung direkt in die Praxis – mit uns als Ihrem KI-Partner

Erfahren Sie mehr

ChatGPT & Co: Februar-Benchmarks für Sprachmodelle

ChatGPT & Co: November-Benchmarks für Sprachmodelle

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

ChatGPT & Co: Jänner-Benchmarks für Sprachmodelle

ChatGPT & Co: September-Benchmarks für Sprachmodelle

LLM-Benchmarks April 2024

ChatGPT & Co: Oktober-Benchmarks für Sprachmodelle

ChatGPT & Co: Dezember-Benchmarks für Sprachmodelle

ChatGPT & Co: November-Benchmarks für Sprachmodelle

ChatGPT & Co: Januar-Benchmarks für Sprachmodelle

ChatGPT & Co: September-Benchmarks für Sprachmodelle

LLM-Benchmarks April 2024

LLM Benchmarks März 2025

LLM-Benchmarks Juli 2024

LLM-Benchmarks Juni 2024

LLM-Benchmarks Mai 2024

LLM-Benchmarks August 2024

LLM-Benchmarks Mai 2024

LLM-Benchmarks Juni 2024

Neue OpenAI Modelle:  o3-mini, o4-mini, GPT-4.1