6. März 2026 · Artikel

Talking to LLMs is great — but have you tried talking to people?

$Talking to LLMs is great \u2014 but have you tried talking to people?$

Es wird regelmäßig darüber geschrieben, wie Menschen LLMs tatsächlich verwenden. Die umfassendste Untersuchung dazu — eine NBER-Studie von OpenAI und Harvard auf Basis von 1,5 Millionen Konversationen — liefert ein nüchternes Bild: In der Arbeitswelt dominiert Textarbeit. E-Mails formulieren, Dokumente erstellen, Texte überarbeiten — 40 Prozent aller beruflichen Nachrichten an ChatGPT entfallen auf diese Kategorie. LLMs werden also auch von „normalen Usern“ hauptsächlich für das eingesetzt, worin sie gut sind. Kein Grund für Alarmismus.

Bei einem anderen, ebenfalls verbreiteten Aspekt der beruflichen Nutzung lohnt sich aber ein genauerer Blick: dem Zu-Rate-Ziehen, dem dialogischen Austausch — dem „Sparring“ mit einem LLM. Die gleiche Studie identifiziert „Practical Guidance“ als häufigste Gesprächskategorie überhaupt und stellt fest, dass der Wert von ChatGPT im Arbeitskontext vor allem in der Entscheidungsunterstützung liegt. Dass LLMs auch jenseits des Beruflichen als Gesprächspartner genutzt werden — bis hin zum Ersatz für therapeutische Gespräche —, ist dokumentiert, aber nicht unser Thema. Es soll um die Arbeitswelt gehen.

„Ich nutze mein LLM fürs Sparring“, „als kreativen Gesprächspartner“, „um Optionen durchzuspielen“ — hinter diesen Beschreibungen steckt oft dasselbe: eine Entscheidung, die getroffen werden will. Das kann trivial sein oder komplex, eine Stilfrage oder eine Personalentscheidung. Was die Anwendungsfälle verbindet, ist die Erwartung, dass ein LLM helfen kann, die richtige Wahl zu treffen — oder sie zumindest zu bestätigen.

Das Thema sind also Entscheidungen und die Frage, ob LLMs sie uns abnehmen oder wie sie helfen können, sie besser zu treffen. Dabei geht es um den Kontext, den das LLM für die jeweilige Fragestellung zur Verfügung hat — und darum, wo dieser Kontext an seine Grenzen stößt.

Manche Entscheidungen können sehr komplex sein — viele Daten einbeziehen, komplizierte Berechnungen beinhalten — und sind auf eine gewisse Art dennoch „einfach“: Sie kommen zu einem eindeutigen, interpretationsfreien Ergebnis. Entscheidungen dieser Art treffen sich selbst, wenn man so will. Andere Entscheidungen sind gerade deswegen schwierig, weil es kein objektives Richtig oder Falsch gibt. Ob jemand „ins Team passt“, ist genau so stark von der betreffenden Person abhängig wie von jener, die die Entscheidung zu treffen hat. Wo auf diesem Spektrum ein LLM zuverlässig helfen kann, lässt sich gut anhand von drei Szenarien durchspielen. Nicht alle davon sind problematisch — im Gegenteil. In den ersten beiden ist der dialogische Austausch mit einem LLM oft die effizienteste Art, zu einer guten Entscheidung zu kommen.

Wenn die Antwort in den Daten liegt

Eine Architekturentscheidung in einer technischen Umsetzung wird in aller Regel ein x-fach gelöstes Problem betreffen. LLMs profitieren genau bei diesen Fragestellungen von der Masse entsprechender Trainingsdaten und vor allem auch dem Umstand, dass Antworten hier eindeutig — testbar — richtig sein können.

Aber die technische Domäne ist nur der offensichtlichste Fall. Für „business decisions“ liegt der eigentliche Hebel darin, dass LLMs quantitative Analyse insgesamt zugänglicher machen. Sie schreiben und exekutieren Code, führen statistische Auswertungen durch, verarbeiten Datensätze. Viele betriebswirtschaftliche Entscheidungen, die bisher auf Erfahrung oder Bauchgefühl beruhten — weil eine saubere Datenanalyse zu aufwändig war oder Spezialisten erforderte —, lassen sich heute auf eine tatsächliche Faktenbasis stellen. Die Schwelle für „das lohnt sich, quantitativ durchzurechnen“ ist drastisch gesunken.

Was diese Fälle verbindet: Die Entscheidung hat ein objektives Ergebnis. Wer hier sein LLM „um eine Entscheidung bittet“, bittet eigentlich um eine Berechnung — und die Berechnung ist die Entscheidung.

Wenn die Antwort in der Recherche liegt

Viele Fragestellungen ließen sich theoretisch sehr gut betriebswirtschaftlich modellieren, hätte man die entsprechenden Daten. Weil man aber z. B. nicht an die Daten eines Lieferanten oder Wettbewerbers kommen wird, werfen einen viele Fragestellungen zurück in die Welt der Semantik.

Wenn bestenfalls eine Heuristik möglich ist, bewegen wir uns weg von der Entscheidung hin zur Entscheidungsgrundlage. Wir sind in der Welt von Recherche, Studien, Best Practices. Wir sind also immer noch dort, wo LLMs wirklich stark sind — und wo die Nutzung sogar weniger technisches Verständnis erfordert als in den vorangegangenen Beispielen. Wir sind z. B. bei NotebookLM und dem Einsatz von LLMs fürs Erstellen einer fundierten Recherche und Entscheidungsvorlage.

Der entscheidende Unterschied zum vorigen Fall: Das LLM liefert nicht die Antwort, sondern das Material, auf dessen Basis ein Mensch die Antwort findet.

Wenn die Antwort bei Menschen liegt

Konstruieren wir den Idealfall für dieses Szenario: Eine Frage zu einer Entscheidung betreffend die eigene Karriere, ein Projekt oder eine Personalentscheidung wird nicht einfach so in den Chat geknallt, sondern mit viel Kontext versehen. Projektunterlagen, Bewerbungen, Assessments und eine ausführliche Situationsbeschreibung im Prompt.

LLMs sind dahingehend optimiert, den User zufrieden zu stellen — nicht als Nebeneffekt, sondern als zentrales Trainingsziel. Reinforcement Learning from Human Feedback (RLHF) belohnt systematisch Antworten, die menschliche Bewerter bevorzugen. Das heißt nicht, dass LLMs immer nur zustimmen — richtig konfiguriert lassen sie sich durchaus zu scharfen Kritikern machen. Der Punkt ist aber, dass sie auch dann einer Instruktion folgen und am Ende Textinputs in Textoutputs verwandeln. Eine Studie aus 2024, publiziert in Nature: Scientific Reports, zeigt dabei zwei Dinge: ChatGPT-Rat beeinflusst Entscheidungen ähnlich stark wie Expertenrat — ist aber inkonsistent. Dieselbe Frage in verschiedenen Sessions kann zu unterschiedlichen Empfehlungen führen.

Wer ein LLM um Rat bei solchen Fragen bittet, sucht in vielen Fällen nicht wirklich eine offene Analyse — sondern Bestätigung für eine Richtung, die bereits eingeschlagen ist. Das LLM liefert diese Bestätigung zuverlässig. Nicht weil es die Situation versteht, sondern weil es darauf trainiert ist, hilfreiche Antworten zu geben. Ob man eine Verzögerung im Projekt eskaliert oder aussitzt, hängt von Beziehungen, Machtverhältnissen und Risikobereitschaft ab — Dinge, die sich nicht vollständig in einen Prompt verpacken lassen, weil sie zum Teil erst im Gespräch sichtbar werden.

Das Raster

Es bilden sich einfache Dimensionen für die Frage „Kann mein LLM mir diese Entscheidung abnehmen?“:

Entscheidung vs. Entscheidungsgrundlage. Liefert das LLM die Antwort — oder das Material, aus dem ein Mensch die Antwort ableitet?
Daten und Kontext. Wie belastbar ist die Informationsbasis? Lässt sich die Frage vollständig formalisieren, oder bleibt ein Rest, der nur im Kopf eines Beteiligten existiert?
Domäne. Sprechen wir über Software-Architektur, eine Break-Even-Rechnung, eine Markteintritts-Strategie — oder über das Verhalten realer Menschen?

Je weiter man sich auf diesen drei Achsen von „datengetrieben und eindeutig“ entfernt, desto mehr verschiebt sich die Rolle des LLMs: vom Entscheider zum Zulieferer, vom Sparring-Partner zum Recherche-Werkzeug. Und desto mehr liegt die eigentliche Arbeit wieder dort, wo sie immer lag — beim Menschen.

Freiräume anders nutzen

Der wirklich unbestreitbare Nutzen von LLMs liegt darin, dass sie Denkarbeitenden große Teile — mit etwas Phantasie sogar jegliche — Busywork abnehmen können. OKR-Templates befüllen, Statusberichte aktualisieren, Planungstapeten ausfüllen: Dass der Mensch hier nicht mehr „Hand anlegen“ muss, ist einfacher zu realisieren denn je.

Wie aber nutzen wir die Freiräume, die so entstehen?

Viele der Entscheidungen, um die es in den vorangegangenen Abschnitten ging, werden nicht allein am Schreibtisch getroffen — sondern in Meetings. Und ein Großteil der Zeit, die Denkarbeitende dort verbringen, ist Informationsabgleich. Status-Updates, in denen reihum berichtet wird, was ohnehin in Tickets steht. Alignment-Termine, in denen sichergestellt wird, dass alle denselben Stand haben. Entscheidungsrunden, in denen eine Vorlage vorgestellt und abgenickt wird. Das alles ist im Kern Kontextarbeit — und damit genau das, was LLMs gut können. Ein Agent, der aus Projekttools ein Status-Update kompiliert, ersetzt kein Meeting. Aber er macht sichtbar, wie viel von dem, was in Meetings passiert, eigentlich Datenabgleich ist.

Was übrig bleibt, wenn man den Informationsabgleich abzieht, ist das, was Meetings eigentlich sein sollten: Momente, in denen jemand sagt „ich sehe das anders“ und begründen muss, warum. In denen eine Führungskraft spürt, dass die Stimmung im Raum nicht zur Folie passt. In denen ein stiller Einwand mehr wiegt als eine ausformulierte Analyse. Das sind keine Textinputs, die sich in Textoutputs verwandeln lassen. Das ist menschliche Interaktion.

Die öffentliche Debatte über KI und Arbeit kreist viel um Verlustszenarien und Arbeitsvolumen. Was dabei aus dem Blick gerät: Das, was nach der Automatisierung übrig bleibt, ist nicht der unangenehme Rest — es sind die Teile der Arbeit, in denen Menschen unschlagbar sind und dabei sogar noch Spaß haben können.

Ob LLMs Entscheidungen treffen können, ist also nicht die eigentliche Frage. Manche können sie treffen, manche nicht. Interessanter ist, was wir mit der Zeit anfangen, die sie uns freischaufeln: mit Menschen diskutieren, die wirklich zurückdiskutieren — oder den nächsten Sparring-Partner konfigurieren, der nur so tut, als ob.