Ein Experiment von Anthropic, genannt „Project Deal“, hat gezeigt, dass leistungsfähigere KI-Modelle bei Verhandlungen deutlich bessere Ergebnisse erzielen. Über eine Woche hinweg ließen KI-Agenten der Claude-Familie im Auftrag von Anthropic-Mitarbeitern reale Güter handeln. Dabei handelten die Agenten autonom, von der Angebotserstellung bis zum Abschluss der Geschäfte.
- Ein Experiment von Anthropic belegt, dass leistungsstärkere KI-Modelle bei autonomen Verhandlungen signifikant bessere Ergebnisse erzielen.
- Vom Nutzer vorgegebene menschliche Strategien wie ein aggressiver oder freundlicher Tonfall hatten kaum einen Einfluss auf den tatsächlichen Erfolg.
- Nutzer schwächerer KI-Agenten bemerken ihren finanziellen Nachteil überhaupt nicht und bewerten ihre Deals fälschlicherweise als fair.
Im Zentrum des Experiments stand der Vergleich zwischen Claude Opus 4.5, einem der leistungsstärksten Modelle, und dem kleineren Claude Haiku 4.5. In gemischten Marktsegmenten, in denen beide Modelle zum Einsatz kamen, schnitt Claude Opus durchweg besser ab. Opus-Agenten schlossen im Durchschnitt mehr Geschäfte ab und erzielten höhere Verkaufspreise bzw. niedrigere Einkaufspreise als Haiku-Agenten.
Beispielsweise erzielte ein Opus-Agent für ein und denselben Artikel durchschnittlich 3,64 US-Dollar mehr als ein Haiku-Agent. Ein konkretes Beispiel zeigte, wie ein Labor-Rubin mit Opus für 65 US-Dollar verkauft wurde, während Haiku nur 35 US-Dollar erzielte. Bei 161 Artikeln, die in mindestens zwei Durchläufen verkauft wurden, brachte ein Opus-Verkäufer durchschnittlich 2,68 US-Dollar mehr ein, während ein Opus-Käufer 2,45 US-Dollar weniger zahlte. Diese Preisunterschiede sind laut Anthropic, gemessen am Durchschnittspreis von 20,05 US-Dollar, signifikant.
Interessanterweise hatten die von den Teilnehmern vorgegebenen Verhandlungsanweisungen, ob aggressiv oder freundlich, kaum Einfluss auf die Ergebnisse. Aggressive Verkäufer erzielten zwar höhere Preise, dies lag jedoch an höheren Startpreisen und nicht an einer effektiveren Verhandlungsstrategie.
Trotz der messbaren Nachteile bewerteten die Nutzer der Haiku-Agenten die Fairness ihrer Geschäfte nahezu identisch mit den Nutzern der Opus-Agenten (4,06 versus 4,05 auf einer Skala von 7). Auch die Zufriedenheit mit einzelnen Deals zeigte keine statistisch signifikanten Unterschiede. Anthropic weist darauf hin, dass dies eine „unbequeme Implikation“ darstellt: Menschen könnten durch den Einsatz schwächerer KI-Agenten benachteiligt werden, ohne sich dessen bewusst zu sein. Das Unternehmen betont die Notwendigkeit weiterer Forschung in diesem Bereich.
❓ Häufig gestellte Fragen
✅ 10 Claims geprüft, davon 4 mehrfach verifiziert (michaelparekh.substack.com)
📚 Quellen