Qwen3.6-35B-A3B: Produktionsreifer Prompt für…

Hinweis: Dieses Dokument liefert einen sofort einsetzbaren Prompt, Code-Gerüst und ein Beispieloutput für Implementierungs-Workflows mit Qwen3.6-35B-A3B. Zahlenangaben zur Modellarchitektur (35B Parameter, natives Kontextfenster 262144 Tokens) stammen aus den verlinkten Quellen.

Prompt anzeigen

ROLE: Du bist ein Senior Prompt Engineer (Operations Manager-Perspektive). Ziel: Praxistaugliches Implementierungsskelett für Qwen3.6-35B-A3B zur Nutzung in produktiven Coding-Workflows.

KONTEXT: Zielsystem ist Qwen3.6-35B-A3B (sparse MoE). Verfügbare Ressourcen: lokale GPU-Cluster oder Cloud-Instances, Vector DB (z. B. Chroma/Qdrant), Redis für Session-Store, Tool-Adapters (HTTP-API, Shell, Code-Executor).

AUFGABE: Erzeuge (1) ein kurzes Architekturdiagramm in Textform, (2) Python-Pseudocode für Multimodal Inferenz + Tool Calling + MoE-aware Routing + RAG-Integration + Session-Persistence, (3) Minimaltests und Sicherheits-Checks.

VARIABLEN: (MODEL_PATH), (RETRIEVAL_INDEX_NAME), (SESSION_STORE_URL), (TOOL_REGISTRY_URL), (MAX_CONTEXT_TOKENS), (THINKING_MODE: true|false), (MOE_EXPERTS: list)

OUTPUT-FORMAT: JSON mit Feldern {"architecture":"text","code":"string","tests":"string","risks":"string","references":[urls]}, außerdem ein kurzes Deployment-Checklist-Textfeld.

GUARDRAILS:
- Nutze nur verifizierte Quellen; markiere nicht-verifizierbare Aussagen als "NICHT VERIFIZIERT".
- EU AI Act: Berücksichtige seit Feb 2025 bestehende Verbote/KI-Literacy-Pflicht; Hochrisiko-Pflichten ab Aug 2026 beachten (Hinweis im Risikofeld).
- DSGVO: Kennzeichne alle Schritte mit personenbezogenen Daten; empfehlen DSFA bei produktivem Einsatz.
- Keine erfundenen Performance-Zahlen. Referenziere Modellparameter nur wenn Quelle vorhanden.
- Plattformübergreifend: Output muss auf ChatGPT/Claude/Gemini-kompatible Tools übertragbar sein.

Beispielantwort (gekürzt): Architektur: Qwen3.6-35B-A3B (sparse MoE) als LLM-Core; Retrieval über Chroma; Session-Persistenz über Redis; Tools via HTTP-Adapter. Code-Snippet (Python, Pseudocode): - Lade MODEL_PATH aus GGUF - Wenn THINKING_MODE: true -> aktiviere expanded KV-Cache-Policy - Retrieval(query) -> Vektor-Vergleich -> top_k Dokumente - RAG-Prompt = [context documents] + user prompt - Tool-Call: prüfe ACL, signiere Request, parse Ergebnis Hinweis DSGVO: Alle Nutzerkontexte werden pseudonymisiert (DSGVO-Check erforderlich). Teile zur Session-Persistence sind NICHT VERIFIZIERT in den Originalquellen.

So verwendest du den Prompt

1) Fülle die VARIABLEN: (MODEL_PATH) auf deine lokale/Cloud-Instanz; (RETRIEVAL_INDEX_NAME) auf deinen Vector-Store. 2) Setze THINKING_MODE explizit: true aktiviert erweiterte Chain-of-Thought-Strategien; false reduziert KV-Cache-Nutzung. 3) Starte iterativ: erst Retrieval+RAG, dann Tool-Calling, zuletzt MoE-Tuning. 4) Testen: Validationsuite gegen Unit-Tests und kleine Produktionsdaten, DSFA prüfen.

Variable-Erklärung: (MOE_EXPERTS) = Liste von Experten-IDs, die der Router priorisieren soll; (SESSION_STORE_URL) = Redis/DB-Endpoint für Context-Hydration; (TOOL_REGISTRY_URL) = Endpunkt für erlaubte Tool-Adapter.

Warum dieser Prompt funktioniert

Der Prompt kombiniert bewährte Prompting-Techniken: Role Prompting (klare Verantwortlichkeit), Strukturierte Ausgabe (JSON) und Chain-of-Thought-Kontrolle via THINKING_MODE. Die Aufforderung zur expliziten Markierung von "NICHT VERIFIZIERT" verhindert Halluzinationen und zwingt zur Quellenprüfung. XML-/JSON-Struktur stellt Wiederverwendbarkeit über Plattformen sicher. Few-shot-Beispiele werden bewusst weggelassen zugunsten eines plattformneutralen Skeletts; konkrete Code-Templates sind im "code"-Feld erwartbar.

Technisch erzwingt der Prompt Trennlinien zwischen Retrieval/RAG und Tool-Calling, was MoE-Routing entlastet: der Router sieht fokussierten, konkatenierten Kontext statt roher Prompt-Tokenströme. Das Ergebnis ist ein leicht auditierbarer Workflow, den Du in CI/CD integrieren kannst.

Verifizierte Modellkennzahlen (aus Quellen): 35B Gesamtparameter (mit ~3B aktivierten Parametern pro Token) und ein natives Kontextfenster von 262144 Tokens. Quellen am Ende.

Token-Rechner wird geladen…

📚 Quellen