15. April 2026 · Newsletter Release 13

Are you not commodified?

Die Commodification-These über AI-Modelle ist in den letzten Monaten zum Standard-Befund geworden: Die großen Sprachmodelle würden sich angleichen, die Wettbewerbsvorsprünge erodieren, die Preise fallen. Am Ende bliebe ein austauschbarer Rohstoff, und der eigentliche Wert verschiebe sich auf die Ebenen darüber und darunter — Distribution, Integration, Infrastruktur.

Die These ist nicht falsch. Sie deckt sich nur nicht vollständig mit dem, was ein Blick auf die aktuelle Landschaft zeigt.

Was die Commodification-These beobachtet

Die Flagship-Modelle von Anthropic, OpenAI und Google liegen in den sichtbaren Benchmark-Dimensionen dicht beieinander. Auf MMLU trennt die drei maximal vier Prozentpunkte. Auf SWE-bench Verified liegen Gemini 3.1 Pro, GPT-5.4 und Claude Opus 4.6 innerhalb eines Prozentpunkts. GPT-4-Niveau, für das 2023 Preise aufgerufen wurden, die den kommerziellen Einsatz absurd machten, kostet heute ein Hundertstel. Open-Source-Modelle aus China — DeepSeek V4 mit Behauptungen um 81% SWE-bench, Alibabas Qwen 3.5 mit Spitzenwerten bei Coding und Multilingualität — schließen etwa sechs Monate nach dem jeweiligen westlichen Frontier-Release auf. Neue „State-of-the-Art“-Modelle erscheinen im Open-Source-Bereich alle vier bis sechs Wochen.

Drei große Anbieter auf derselben Benchmark-Plateau, ein vierter Mitbewerber liefert Vergleichbares zu einem Bruchteil des Preises. Das ist der ökonomische Fingerabdruck einer Commodity.

Was sie übersieht

Niemand, der ernsthaft mit diesen Modellen arbeitet, würde sie als austauschbar erleben.

Anthropic hat am 7. April 2026 Claude Mythos Preview vorgestellt — ein Modell, das nicht allgemein verfügbar wird, sondern in ein Partnerprogramm mit Amazon, Apple, Cisco, Microsoft und anderen geht. Die Zahlen dahinter sind nicht rhetorisch: 83% autonome Exploit-Generierung gegenüber 66% bei Opus 4.6; in einem spezifischen Firefox-Test 181 funktionierende Exploits statt zwei; 73% Erfolgsquote bei Expert-Level-CTF-Aufgaben, an denen vor April 2025 jedes Modell scheiterte. Anthropic betont, diese Fähigkeiten nicht explizit trainiert zu haben — sie sind emergent aus allgemeinen Verbesserungen in Coding, Reasoning und Autonomie entstanden. Das ist die eigentliche Nachricht, nicht die Exploit-Zahlen. Fähigkeits-Sprünge dieser Größenordnung sind nicht das Profil einer Commodity.

In der öffentlich zugänglichen Linie führt Anthropic beim Schreiben (47% User-Präferenz gegen GPT-5.4 mit 29% und Gemini 3.1 Pro mit 24%) und beim Arbeiten mit langen Kontexten — auf der 8-needle-1M-Variante eines etablierten Tests erreicht Opus 4.6 76%, Sonnet 4.5 unter identischen Bedingungen 18,5%. Das ist ein Sprung, nicht eine Nuance.

OpenAI liefert seit acht Monaten kein neues Fähigkeits-Plateau mehr, sondern eine Serie von Patches. GPT-5 scheiterte im August 2025 beim Launch an der eigenen Persönlichkeit so deutlich, dass GPT-4o für Plus-Nutzer wiederhergestellt werden musste. GPT-5.2 im Dezember war laut Benchmarks überlegen und wurde von Nutzern so breit abgelehnt, dass Techradar es als „everything I hate about 5 and 5.1, but worse“ zitierte. GPT-5.3 Instant war im Kern ein Tone-Patch. GPT-5.4 im März 2026 ist das erste Release der Familie, das nicht in Schadensbegrenzung angetreten ist. In einem Markt, in dem Rohleistung konvergiert, hat OpenAI begonnen, auf Achsen zu konkurrieren, auf denen keine etablierten Messinstrumente existieren: Ton, Persönlichkeit, das Gefühl, mit einem Werkzeug zu arbeiten statt gegen es. Das ist keine Commodity-Dynamik. Das ist die Suche nach einer Differenzierung, die nicht in der Spec steht.

Google ist der seltsam unaufdringliche Führer. Keine Leak-Skandale, keine dramatischen Previews, keine Mustafa-artigen Inszenierungen. Gemini 3.1 Pro führt gleichzeitig die wichtigsten Benchmarks und liegt preislich bei rund einem Fünftel von Opus und einem Viertel von GPT-5.4. Der Chatbot-Marktanteil von ChatGPT ist binnen Jahresfrist von 86% auf 64% gefallen, Gemini von 5,7% auf 21,5% gestiegen. 750 Millionen monatlich aktive Nutzer, 120.000 Enterprise-Kunden, 95% der Top-20-Global-SaaS-Unternehmen. Das passiert, ohne dass Google Aufmerksamkeit inszeniert. Der eigentliche Vorsprung liegt nicht im Modell, sondern in der Integration ins Workspace-Ökosystem — ein Verteilungskanal, den weder Anthropic noch OpenAI reproduzieren können.

Die Commodification-These hat damit ein Problem mit Google: Sie beschreibt einen Markt, in dem Modelle zur austauschbaren Ware werden. Sie erklärt nicht, warum das Modell mit der stärksten Rohleistung, dem niedrigsten Preis und der breitesten Distribution beim gleichen Anbieter liegt.

Microsoft hat keinen eigenen Frontier. Microsoft hat Copilot. Das ist inzwischen ein eigenes Ökosystem — M365 Copilot mit GPT-5.4 Thinking, GPT-5.3 Instant, GPT-5.2 und, seit Januar 2026, Claude Sonnet 4.5 und Opus 4.5. GitHub Copilot bietet Claude 4.6, GPT-5.3-Codex, Gemini 3 Pro und eigene kleine Modelle nebeneinander. Seit dem 2. April 2026 hat Microsoft drei eigene Foundation-Modelle (MAI-Transcribe-1, Voice-1, Image-2) offiziell veröffentlicht, die bereits still in Copilot, Bing und PowerPoint liefen. Die OpenAI-Partnerschaft läuft laut Mustafa Suleyman mindestens bis 2032 weiter.

Hier wird die Commodification-Frage am unangenehmsten. M365 Copilot liefert gegenüber direktem ChatGPT-Zugriff messbar schlechtere Werte — 85% vs. 92,8% auf GPQA, 72% vs. 80% auf SWE-bench. Dasselbe Modell, anderes Ergebnis. In dokumentenzentrierten Aufgaben dreht sich das Verhältnis um: Bei Finanz-Sentiment-Analyse gewinnt Copilot mit 82% gegen 77,6% des direkt genutzten OpenAI-Modells. Die Verpackung — Compliance-Wrapper, Richtlinien, SSO, Dokumenten-Verankerung — ist selbst Teil der Leistung. Bei Strom ist die Commodity-Analogie eindeutig. Hier ist sie gebrochen.

Was unter dem Radar liegt

Der Diskurs kreist um die Flagships. Die ökonomische Realität bewegt sich bei den kleinen Modellen. Claude Haiku 4.5 erreicht Sonnet-4-Niveau zu einem Fünftel des Preises. GPT-5.4 Mini schafft 54,4% auf SWE-bench Pro, Nano 52,4% — das Mini-Modell ist im ChatGPT-Free-Plan verfügbar, Nano kostet 20 Cent pro Million Input-Token. Gemini 3.1 Flash Lite liefert 86,9% GPQA Diamond bei 25 Cent input und 1,50 USD output pro Million Token. Wer heute einen AI-Agenten baut, baut ihn mit diesen kleinen Modellen und greift nur für Spitzenaufgaben auf Flagships zurück.

Diese Modelle sind aus dem Medien-Diskurs weitgehend verschwunden — nicht weil sie irrelevant wären, sondern weil sie keine Launch-Events produzieren. Sie sind bereits Infrastruktur. Wenn Commodification irgendwo tatsächlich stattgefunden hat, dann hier: in den unteren Leistungsklassen. Bei den Flagships ist die These präziser so zu formulieren: Die Roh-Intelligenz konvergiert, während Integration, Verpackung und spezifische Spitzenfähigkeiten auseinanderdriften.

Was stattdessen entsteht

Die Commodification-These hat den Markt richtig vermessen — nur beschreibt sie eine Bewegung, die an anderer Stelle längst etwas anderes geworden ist. Der Wettbewerb drückt die Preise, die sichtbaren Unterschiede schrumpfen, die Distribution gewinnt an Gewicht. Alles davon stimmt. Und gleichzeitig unterscheiden sich die Modelle weiterhin, nur nicht mehr an den Achsen, an denen Benchmark-Tabellen messen.

Wer heute ein Modell auswählt, wählt nicht „das beste“, sondern eine spezifische Kombination aus Fähigkeitsprofil, Integration, Preis und Verpackung. Der Anbieter, der am stärksten commoditisiert — im Sinne eines billigen, austauschbaren Rohstoffs — existiert nicht. Jeder der Großen hat etwas, das kein anderer liefert. Anthropic hält eine Kategorie von Spitzenfähigkeiten bewusst außerhalb des offenen Marktes. Google gewinnt gleichzeitig auf Leistung, Preis und Ökosystem. OpenAI konkurriert auf Achsen, die keine Spec je gemessen hat. Microsoft verkauft nicht mehr das Modell, sondern den Verteiler.

Die interessantere Frage ist vielleicht nicht, ob die Modelle commoditisieren, sondern was sie stattdessen werden. Eine Infrastruktur mit differenzierten Endpunkten. Ein Markt mit eingebauten Vorsprüngen an ungewohnten Stellen. Ein System, das sich der einfachen Commodity-Frage entzieht, weil sich die Verpackung nicht mehr sauber vom Inhalt trennen lässt.

Bildreferenzen: Bernd und Hilla Becher · Josef Albers · Serielle Typologie