Benchmarking OpenAI GPT-5: Bestes Reasoning, weniger Halluzinationen

Was für eine Woche! OpenAI hat am 7. August 2025 sein mit Spannung erwartetes Flaggschiff-Modell GPT-5 vorgestellt. Die Vorstellung erfolgte über eine offizielle Blog-Veröffentlichung und einen Livestream. Bemerkenswert ist, dass dies nur wenige Tage nach der Veröffentlichung von zwei anderen quelloffenen Modellen, gpt-oss-120b und gpt-oss-20b, durch dasselbe Unternehmen geschah.

 

Langerwarteter Release

OpenAI-CEO Sam Altman hatte die Erwartungen an GPT-5 seit Monaten geschürt, indem er es mit dem Manhattan-Projekt verglich und behauptete, es habe ihn bei der Nutzung „nutzlos“ fühlen lassen. Man erwartete einen „iPhone-Moment“ oder sogar eine „Revolution“ in der Künstlichen Intelligenz. Tatsächlich ist der Rollout jedoch als „holprig“ beschrieben worden. Viele Nutzer zeigten sich enttäuscht und forderten sogar die Rückkehr von GPT-4o, da sie GPT-5 als „unkreativ“ und „lobotomiert“ empfanden. OpenAI musste dem Druck nachgeben und versprach, GPT-4o für Plus-Nutzer wieder verfügbar zu machen. Trotz Altmans früherer Zusagen, dass GPT-5 zuverlässiger sei und seltener halluziniere, gab es Kritik am „platten“ Ton des neuen Bots.
Aus strategischer Sicht ist der Launch von GPT-5, das nun auch kostenlosen Nutzern zur Verfügung steht, ein bedeutender Schritt, der Wettbewerber wie Google und Anthropic unter massiven Druck setzt. Auch für Entwickler, die über die API auf das Modell zugreifen, ist die Preisgestaltung „aggressiv wettbewerbsfähig“, da sie Anthropic’s Claude Opus 4.1 deutlich unterbietet und mit Googles Gemini 2.5 Pro gleichzieht. Dies könnte den Beginn eines lang erwarteten „LLM-Preiskriegs“ einläuten.

 

GPT-5: Die Modell-Informationen auf einen Blick

Was kann das Modell laut Anbieter? OpenAI beschreibt GPT-5 als ihr bisher intelligentestes, schnellstes und nützlichstes Modell mit integriertem Denkvermögen. Es ist ein einheitliches System, das selbständig entscheidet, wann es schnell antworten und wann es „länger nachdenken“ (GPT-5 thinking) muss, um expertenähnliche Antworten zu liefern. GPT-5 bietet laut OpenAI Spitzenleistungen in den Bereichen Codierung, Mathematik, Schreiben, Gesundheit und visueller Wahrnehmung. Es zeigt erhebliche Fortschritte bei der Reduzierung von Halluzinationen, der Verbesserung der Anweisungsbefolgung und der Minimierung von Sycophantie.

Besonders hervorgehoben werden die Fähigkeiten in der Codierung, wo es das bisher stärkste Modell sei, insbesondere bei der Erzeugung komplexer Frontends und dem Debugging größerer Repositories. Im Bereich Gesundheit agiert es als „aktiver Gedankenpartner“, der proaktiv Bedenken markiert und Fragen stellt, um hilfreichere Antworten zu geben, und bietet präzisere und zuverlässigere Antworten, die sich an den Kontext des Benutzers anpassen. Es kann auch mit multimodalen Inputs umgehen, von der Interpretation von Diagrammen bis zur Zusammenfassung von Präsentationsfotos. Ein weiterer wichtiger Punkt ist die verbesserte Ehrlichkeit des Modells, das seine Grenzen klarer kommuniziert und weniger dazu neigt, über unmögliche Aufgaben zu lügen.

GPT-5 ermöglicht zudem eine tiefere Personalisierung der Nutzererfahrung, indem es Nutzern erlaubt, den Chat-Stil anzupassen und aus voreingestellten Persönlichkeiten wie „Zyniker“ oder „Nerd“ zu wählen. Eine bedeutende Neuerung ist die Möglichkeit, ChatGPT mit Gmail-Konten und Google Kalendern zu verbinden, um personalisierte Antworten zu erhalten und als persönlicher Assistent zu agieren. Für die anspruchsvollsten Aufgaben gibt es GPT-5 Pro, eine Variante, die noch länger „nachdenkt“, um umfassendere und genauere Antworten zu liefern.

Benchmarking

In den veröffentlichten Benchmarks zeicht GPT-5 beeindruckende Ergebnisse

  • Mathematik: 94,6 % auf AIME 2025 ohne Tools.
  • Codierung: 74,9 % auf SWE-bench Verified und 88 % auf Aider Polyglot. Es übertrifft hier leicht Claude Opus 4.1 und Gemini 2.5 Pro.
  • Multimodales Verständnis: 84,2 % auf MMMU.
  • Gesundheit: 46,2 % auf HealthBench Hard. Die Halluzinationsrate liegt hier bei nur 1,6 %, deutlich weniger als bei GPT-4o (12,9 %) und o3 (15,8 %).
  • GPQA (PhD-Level Wissenschaftsfragen): GPT-5 Pro erreicht 88,4 % ohne Tools, und übertrifft damit Claude Opus 4.1 und Grok 4 Heavy.
  • Halluzinationen: Mit Web-Suche ist GPT-5 etwa 45 % weniger anfällig für Sachfehler als GPT-4o; im „Thinking“-Modus sogar 80 % weniger als OpenAI o3. Bei offenen, faktenbasierten Fragen produziert GPT-5 Thinking etwa sechsmal weniger Halluzinationen als o3.
  • Täuschung: Die Rate der Täuschungen wurde von 4,8 % (o3) auf 2,1 % (GPT-5) reduziert.

 

Wird GPT-5 dem Hype gerecht?

Die Reaktionen in den sozialen Medien waren gemischt. Viele Nutzer beklagten sich über den „unkreativen“ und „lobotomierten“ Ton von GPT-5 und vermissten die „Persönlichkeit“ von GPT-4o. Einige kündigten sogar ihre Abonnements. Während der Präsentation gab es einen peinlichen „Chart-Crime“, bei dem ein niedrigerer Benchmark-Score grafisch größer dargestellt wurde, was Sam Altman selbst als „Mega-Chart-Versagen“ bezeichnete. Elon Musk zeigte sich „enttäuscht“ und behauptete, Grok 4 habe schon besser abgeschnitten. Experten diskutierten, ob GPT-5 eher eine Evolution statt einer Revolution darstellt, da ein grundlegend neuer Technologiesprung ausblieb.

Einschätzung nach internen Tests

Worin ist das Modell aus unserer Sicht gut? Unsere ersten Tests mit GPT-5 bestätigen viele der angepriesenen Verbesserungen, auch wenn es nicht die erwartete AGI-Revolution ist.

  • Vereinfachte Nutzung: Die automatische Auswahl des passenden Modells für eine Anfrage ist eine enorme Erleichterung für alle Nutzer, insbesondere für Gelegenheitsnutzer. Dies dürfte die wahrgenommene Antwortqualität im Alltag erheblich steigern.
  • Codierungsfähigkeiten: GPT-5 ist äußerst fähig im „One-Shotting“, d.h., es kann kleine Programme und Spiele direkt aus einem Prompt erstellen, was die Einstiegshürde für Prototyping deutlich senkt. Es zeigte beeindruckende Ergebnisse bei der Erstellung von Seitenstrukturen, Modulen und Inhalten für eine Lern-Website in wenigen Sekunden.
  • Zuverlässigkeit und Ehrlichkeit: Die deutliche Reduzierung von Halluzinationen und die verbesserte Fähigkeit, eigene Grenzen zu kommunizieren, machen GPT-5 zu einem vertrauenswürdigeren Tool für geschäftliche Anwendungen und komplexe Recherchen.
  • Logisches Denken und Problemlösung: Das Modell überzeugt bei komplexen logischen Problemen, wie dem klassischen Feder-und-Hammer-Experiment auf dem Mond, und kann auch bei falschen Annahmen des Nutzers seine Argumentation konsistent beibehalten.
  • Planungsfähigkeiten: GPT-5 zeigte sich sehr stark bei planerischen Aufgaben, wie der Entwicklung einer KI-Strategie oder der Event-Planung, indem es mehrstufige Recherchen durchführte und Ergebnisse strukturiert zusammenführte.

Worin unterscheidet es sich nicht sonderlich von anderen Modellen? Trotz der Fortschritte konnten wir in einigen Bereichen keinen signifikanten Qualitätsgewinn feststellen, der GPT-5 von anderen führenden LLMs unterscheidet:

  • Wettbewerbsrecherche: Bei der Tiefenrecherche und Wettbewerbsanalyse zeigte GPT-5 keinen besonderen Unterschied zu o3 oder Gemini 2.5 Pro.
  • Text im spezifischen Tone of Voice: Obwohl die Struktur und einige Formatierungen gut übernommen wurden, neigte GPT-5 zu exzessiver Nutzung von Bullet Points und bleibt in dieser Kategorie Claude 4 Sonnet unterlegen.
  • Multimodale Datenauswertung (Video): Während es Text- und Bilddokumente gut verarbeitet, hatte das Modell bei Videodateien Probleme, diese direkt im Kontext anderer Daten auszuwerten und benötigte einen separaten Upload.
  • PowerPoint-Erstellung: Das Modell kann zwar Code zur Generierung von PPT-Dateien schreiben, hat aber weiterhin Schwierigkeiten mit der Anwendung einer spezifischen Design-Sprache und Formatierung.
  • Agentisches Codieren: Im Vergleich zu spezialisierten AI-Coding-Tools wie Claude oder Bolt.new, scheint GPT-5 nicht unbedingt auf „agentische“ Aufgaben optimiert zu sein; es folgt Anweisungen präzise, aber nimmt keine eigenständigen, größeren Schritte.

Fazit:

Unser Fazit: GPT-5 ist vor allem eine inkrementelle Verbesserung zu bestehenden LLMs – ein Muster, das wir zuletzt auch bei der Konkurrenz gesehen haben. Die spürbar gesenkte Halluzinationsrate und die klarere Kommunikation von Grenzen anstelle vermeintlich selbstsicherer, aber falscher Antworten sind ein echter Fortschritt für den Business-Einsatz. Das neue Routing in ChatGPT ist zwar ein interessanter Schritt zur Vereinfachung für Endnutzer, in seiner aktuellen Form aber noch ausbaufähig. Für Unternehmenskunden bleibt erfreulicherweise über die API weiterhin die direkte Auswahl spezifischer Modellvarianten möglich – ein entscheidender Vorteil, um je nach Anwendungsfall die optimale Performance abzurufen.

Neugierig geworden?

Wir bei Pryvet sind stets bestrebt, Ihnen die neuesten und besten KI-Modelle zur Verfügung zu stellen. GPT-5 wurde bereits in Pryvet integriert! Nutzen Sie die erweiterten Funktionen für Codierung, Analyse, Planung und Textgenerierung und erleben Sie selbst, wie GPT-5 Ihre Arbeit transformieren kann.
Testen Sie GPT-5 jetzt direkt in Pryvet und entdecken Sie die neuen Möglichkeiten!