Tree of Thoughts — PromptLoop Glossar

Was ist Tree of Thoughts?

Tree of Thoughts (ToT) ist ein Prompting-Framework für Large Language Models (LLMs), das den Denkprozess eines Modells von einer einzigen linearen Gedankenkette zu einem verzweigten Suchbaum aus multiplen, parallelen Gedankenpfaden erweitert. Jeder dieser Pfade — im Framework als „Thought" bezeichnet — repräsentiert einen Zwischenschritt auf dem Weg zur Lösung eines Problems. Das Modell generiert mehrere solcher Schritte gleichzeitig, bewertet sie und verfolgt die vielversprechendsten Pfade weiter.

Eingeführt wurde das Verfahren 2023 durch Shunyu Yao et al. in dem Paper „Tree of Thoughts: Deliberate Problem Solving with Large Language Models", entstanden in Zusammenarbeit zwischen der Princeton University und Google DeepMind. Das Paper zeigte erstmals systematisch, dass LLMs durch gezielte Suchstrategien erheblich komplexere Aufgaben lösen können als mit klassischem Chain-of-Thought (CoT)-Prompting.

Die konzeptuelle Wurzel liegt in der klassischen Informatik: ToT überträgt Suchalgorithmen wie Breadth-First Search (BFS) und Depth-First Search (DFS) aus der Graphentheorie auf den Sprachmodell-Kontext. Das Ergebnis ist ein Verfahren, das explorativer, robuster und deutlich weniger anfällig für Halluzinationen ist als einstufige Prompting-Ansätze.

Wie funktioniert Tree of Thoughts?

ToT strukturiert den Denkprozess eines LLMs in vier Kernkomponenten:

Thought Decomposition: Das Problem wird in diskrete, interpretierbare Zwischenschritte zerlegt. Was als sinnvolle Einheit gilt, hängt vom Problemtyp ab — bei mathematischen Aufgaben sind es Berechnungsschritte, bei Textaufgaben Argumentationsschritte.
Thought Generation: Das Modell generiert für jeden Knoten im Baum mehrere alternative Fortsetzungen — also mehrere mögliche nächste Gedankenschritte. Dieser Schritt erzeugt die Breite des Suchbaums.
State Evaluation: Jeder generierte Thought wird bewertet — entweder durch das Modell selbst (Self-Evaluation), durch Voting über mehrere Samples oder durch externe Heuristiken. So entscheidet das System, welche Pfade weiterverfolgt werden und welche verworfen werden (Pruning).
Search Algorithm: BFS erkundet alle Pfade einer Tiefenstufe gleichzeitig und eignet sich für überschaubare Suchräume. DFS verfolgt einzelne Pfade tief, bevor er zur Alternative wechselt — effizienter, aber anfälliger für Sackgassen. Die Wahl des Algorithmus beeinflusst Qualität und Kosten erheblich.

Das Resultat ist kein einzelnes generiertes Ergebnis, sondern ein strukturierter Entscheidungsbaum, in dem das Modell seinen eigenen Denkprozess überwacht, korrigiert und optimiert — ein Ansatz, der sich an menschliches deliberatives Denken anlehnt.

Wofür wird Tree of Thoughts eingesetzt?

ToT ist kein Universalwerkzeug — es entfaltet seinen Mehrwert dort, wo Probleme mehrere valide Lösungspfade haben oder wo Zwischenschritte explizit bewertet werden müssen.

Mathematische Beweise und Rätsel: Das bekannteste Benchmark-Ergebnis stammt aus dem „Game of 24" — einer Aufgabe, bei der vier Zahlen durch Grundrechenarten auf 24 gebracht werden müssen. ToT erreicht hier eine Erfolgsrate von 74 %, während klassisches Greedy-Decoding auf 4 % und Chain-of-Thought auf 9 % kommt (Yao et al., 2023).
Kreatives Schreiben mit Struktur: Bei Aufgaben wie dem Verfassen kohärenter Kurzgeschichten mit vorgegebenen Einschränkungen erlaubt ToT die gleichzeitige Exploration verschiedener narrativer Pfade und deren strukturierte Bewertung.
Multi-Step-Reasoning in Agenten-Systemen: Frameworks wie LangChain integrieren ToT-Varianten für autonome Agenten, die komplexe Aufgabenfolgen planen und ausführen müssen — etwa bei der automatisierten Analyse von Geschäftsdaten oder der Planung mehrstufiger Workflows.
Code-Generierung und -Debugging: ToT eignet sich für Aufgaben, bei denen mehrere Implementierungsansätze denkbar sind und Zwischenstände auf Korrektheit geprüft werden können — ein natürlicher Fit für explorative Softwareentwicklung.
Wissenschaftliche Hypothesenbildung: In der Forschungsunterstützung wird ToT eingesetzt, um alternative Erklärungsmodelle für Datenmuster parallel zu entwickeln und nach festgelegten Kriterien zu priorisieren.

Was sind Vorteile und Grenzen?

Vorteile:

Deutlich bessere Reasoning-Performance: Gegenüber klassischem CoT-Prompting erzielt ToT in komplexen Reasoning-Tasks messbar höhere Erfolgsraten — der Leistungssprung beim „Game of 24" ist dabei nur das bekannteste Beispiel.
Reduktion von Halluzinationen: Durch die explizite Bewertung und Selektion von Zwischenschritten werden fehlerhafte Pfade früh ausgesiebt. Schätzungen aus der Forschung gehen von einer Reduktion von Halluzinationen um 20–50 % in Reasoning-Tasks aus — abhängig von Aufgabentyp und Implementierung.
Transparenz: Der Suchbaum macht den Denkprozess des Modells sichtbar und nachvollziehbar — ein relevanter Vorteil in regulierten oder sicherheitskritischen Anwendungsfeldern.
Erweiterbarkeit: ToT bildet die konzeptuelle Basis für Nachfolgeansätze wie Graph of Thoughts (GoT), die den Suchraum von einem Baum auf einen allgemeinen Graphen erweitern.

Grenzen:

Hohe Inferenzkosten: Die parallele Generierung und Bewertung mehrerer Thought-Pfade multipliziert die API-Aufrufe und damit die Latenz und Kosten erheblich. ToT ist kein Ansatz für latenz- oder kostensensitive Produktivumgebungen ohne Optimierung.
Aufwändiges Prompt-Engineering: Die Qualität des Suchbaums hängt stark von der Qualität der Decomposition- und Evaluation-Prompts ab. Schlecht formulierte Bewertungskriterien führen zu systematisch falschen Pfad-Entscheidungen.
Nicht für alle Aufgaben geeignet: Bei einfachen, eindeutigen Aufgaben ist ToT überdimensioniert. Der Overhead lohnt sich ausschließlich bei Problemen, die genuine Exploration von Lösungsräumen erfordern.
Abhängigkeit von der Modellqualität: Die Selbstbewertung der generierten Thoughts setzt voraus, dass das zugrunde liegende LLM eigene Fehler zuverlässig identifiziert. Schwächere Modelle tendieren dazu, fehlerhafte Pfade fälschlicherweise positiv zu bewerten.

Quellen

Yao, S. et al. (2023): Tree of Thoughts: Deliberate Problem Solving with Large Language Models. Princeton University / Google DeepMind. arxiv.org/abs/2305.10601
Wei, J. et al. (2022): Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Google Research. arxiv.org/abs/2201.11903

❓ Häufig gestellte Fragen

▶ Was ist der Unterschied zwischen Tree of Thoughts und Chain of Thought?

Chain of Thought (CoT) ist ein lineares Verfahren: Das Modell generiert einen einzigen Gedankengang Schritt für Schritt bis zur Antwort. Geht das Modell in einem Schritt in die falsche Richtung, propagiert sich der Fehler durch alle nachfolgenden Schritte. Tree of Thoughts (ToT) bricht diese Linearität auf: An jedem Schritt werden mehrere Alternativen generiert und bewertet. Das Modell kann fehlerhafte Zweige verwerfen und zu einem früheren, validen Zustand zurückspringen. CoT ist schneller und günstiger; ToT ist robuster bei komplexen Reasoning-Aufgaben.

▶ Wie viel teurer ist Tree of Thoughts im Vergleich zu Standard-Prompting?

Die Kosten von ToT skalieren direkt mit der Breite des Suchbaums und der Tiefe der Reasoning-Schritte. In der Praxis kann ein ToT-Durchlauf je nach Konfiguration 5- bis 20-mal mehr API-Aufrufe als ein einfacher Prompt verursachen. Optimierungsansätze wie aggressives Pruning oder der Einsatz schwächerer Modelle für die Evaluation-Stufe können die Kosten senken.

▶ Was ist Graph of Thoughts und wie verhält es sich zu Tree of Thoughts?

Graph of Thoughts (GoT) ist eine Erweiterung des ToT-Frameworks, die den Suchraum von einem gerichteten Baum zu einem allgemeinen Graphen verallgemeinert. Während in einem Baum jeder Knoten genau einen Elternknoten hat, erlaubt GoT das Zusammenführen verschiedener Thought-Pfade zu einem neuen Knoten. GoT ist damit ausdrucksstärker als ToT, aber auch komplexer in Implementierung und Steuerung.

Stand: 28. April 2026